AI做化学奥赛题准确率超93%,但“看图”反而会答错 这项研究揭开大模型科学推理的真实短板

互联网
2025
12/19
11:11
分享
评论

当我们惊叹于ChatGPT能写论文、能编代码时,一个更根本的问题浮出水面:AI究竟能不能真正理解科学?

近日发表在Nature旗下《通讯-化学》的一项研究,给出了一个出人意料的答案——顶尖AI模型做化学奥赛题的准确率已超过93%,远超人类选手平均水平;但诡异的是,给某些模型“看图”之后,它们反而更容易答错。

这项来自科大讯飞研究院与认知智能全国重点实验室的研究,像一面镜子,照出了当前AI科学推理能力的真实面貌。

一个反常识的发现

研究团队从二十余年的美国化学奥林匹克竞赛中精选出473道图文结合题目,构建了名为USNCO-V的评测基准,随后对40款主流多模态大模型进行了系统测试。

测试结果令人振奋又困惑。振奋的是,GPT-5以93.2%的准确率登顶,将人类选手44.6%的平均成绩远远甩在身后。困惑的是,当研究人员尝试移除题目中的图像、只保留文字描述时,部分模型的表现竟然更好了。

这意味着什么?图像本应提供额外信息帮助解题,但对某些AI而言,图像反而成了“干扰项”。研究团队将这一现象命名为“视觉失配效应”——当前多模态AI的视觉模块与语言模块之间,尚未建立起真正有效的协作机制。

“这就像一个学生,阅读理解能力很强,但一看到配图就分心走神。”一位未参与该研究的AI领域学者如此评价。

分子结构和实验装置,仍是AI的盲区

研究还发现,不同类型的视觉信息对AI的挑战程度差异显著。面对表格和常规数据图,大模型表现稳健;但遇到分子结构式和实验装置示意图时,即便是最先进的模型也频频失误。

这一发现揭示了AI科学推理的核心瓶颈:真正的科学理解不仅需要“看懂”图像,更需要将视觉符号转化为化学语义,再进行逻辑推演。这种跨模态的深度融合能力,正是当前技术亟待突破的方向。

大模型国家队的科学野心

值得关注的是,这项研究的发表方——科大讯飞,正是国内人工智能国家队的核心成员之一。依托认知智能全国重点实验室,这家公司近年来在AI for Science领域动作频频。

公开资料显示,科大讯飞已构建起覆盖多学科的科研智能体系:与中科院共建的“星火科研助手”服务超17万名科研人员;在化工领域推出的智能化工大模型已迭代至3.0版本;在核聚变研究方向也有模型成果发表于国际顶刊。

更值得注意的是其技术路线的选择。据了解,科大讯飞星火大模型强调全栈自主可控,底层算力与核心算法均实现全国产化方案。在当前国际科技博弈的大背景下,这一布局的战略意义不言而喻。

能用好用,AI科学推理还有多远?

此次研究的意义,不仅在于揭示问题,更在于提供了解决思路。研究团队发现,思维链(Chain-of-Thought)提示技术能显著提升中等规模模型的推理能力,使GPT-4.1-mini在无需额外训练的情况下准确率提升超过26个百分点。

这表明,通过优化推理策略,现有模型仍有巨大的提升空间。

当AI从“语言理解”迈向“科学理解”,一扇新的大门正在打开。尽管当前技术仍存在明显短板,但正如这项研究所展示的,认清差距本身就是进步的开始。

对于正在加速追赶的中国AI产业而言,这面“镜子”来得恰逢其时。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3