多模态大模型输给三岁宝宝？新评测集BabyVision发布

业界

2026

01/12

12:04

凤凰网科技

1月12日，近日，红杉中国旗下评测体系xbench与UniPat AI团队联合发布全新多模态理解评测集BabyVision，旨在系统评估大模型在不依赖语言提示下的纯视觉基础能力。评测结果显示，当前主流多模态大模型在该测试中整体表现落后于3岁幼儿水平。

该评测集将视觉能力划分为精细辨别、视觉追踪、空间感知、视觉模式识别四大类别，共涵盖22项子任务、388道题目。测试严格控制语言依赖，确保题目信息无法被完整“文本化”，从而考察模型真正的视觉理解能力。

最终评测结果显示，在BabyVisionFull上，研究团队引入了人类基线，16位至少本科背景的测试者完成全量388题，人类准确率达94.1%。

再看模型，表现最佳的闭源模型Gemini3-Pro-Preview准确率为49.7%，GPT-5.2为34.8%，国内模型Doubao-1.8为30.2%，开源模型Qwen3VL-235B-Thinking为22.2%。多数模型得分明显低于3岁儿童平均水平。

研究团队指出，许多视觉信息本质上是“不可言说”的，一旦被压缩为语言描述就会丢失关键细节，导致模型在需要连续追踪、空间想象、几何归纳等任务中表现显著落后。为此，团队同时推出生成式评测版本BabyVision-Gen，要求模型以画图、标注等视觉方式作答，现阶段得到的结论为：

生成式推理在视觉追踪、精细辨别等VLM易翻车任务上出现“更像人类”的行为（会真的去画轨迹、做标注），但整体仍然缺乏稳定到达完全正确解的能力。

BabyVision的发布为多模态大模型与具身智能的发展提供了可量化、可诊断的评估工具，显示出当前视觉基础能力仍是AI迈向通用智能的关键短板。

【来源：凤凰网科技】

THE END

广告、内容合作请点击这里寻求合作

红杉中国

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。

5月26日，随着基础模型的快速发展和AI Agent进入规模化应用，被广泛用于评估AI能力的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实反映AI系统的客观能力正变得越来越困难，这其中最直接的表现...

业界

12月22日消息，天眼查App显示，12月22日，货拉拉关联企业深圳货拉拉科技有限公司新增一条融资信息。

业界