谷歌DeepMind推QuestBench基准，测试AI模型的“补漏”能力

业界

2025

04/26

16:26

IT之家

分享

评论

4 月 26 日消息，科技媒体 marktechpost 昨日（4 月 25 日）发布博文，报道称谷歌 DeepMind 团队推出 QuestBench 新基准，通过约束满足问题（CSPs）框架，评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型（LLMs）在推理任务中广受关注，涵盖数学、逻辑、规划和编码等领域。然而，现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节，机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾，迫使 LLMs 发展主动信息获取能力。

IT之家援引博文介绍，识别信息缺口并生成针对性地澄清问题，成为模型在模糊场景中提供准确解决方案的关键。

QuestBench：评估信息缺口的新框架

为应对信息获取挑战，研究者推出了 QuestBench 基准，专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题（CSPs），聚焦于“1-sufficient CSPs”，即只需知道一个未知变量值即可解决目标变量的问题。

QuestBench 覆盖逻辑推理（Logic-Q）、规划（Planning-Q）和小学数学（GSM-Q / GSME-Q）三个领域，按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类，精准揭示模型的推理策略和性能瓶颈。

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型，覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行，涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

结果表明，思维链提示普遍提升了模型性能，而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力，但在复杂数学问题上表现不佳。

研究指出，当前模型在简单代数问题上表现尚可，但随着问题复杂性增加，性能显著下降，凸显了在信息缺口识别和澄清能力上的改进空间。

【来源：IT之家】

THE END

广告、内容合作请点击这里寻求合作

谷歌DeepMind

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。

相关热点

谷歌DeepMind开发DolphinGemma AI模型，助力海豚“

4月15日消息，谷歌旗下的AI研究实验室谷歌DeepMind今日宣布，成功开发出一款名为DolphinGemma的AI模型，旨在助力科学家深入研究海豚的“语言”，更好地理解海豚的沟通方式。

业界

谷歌DeepMind推出新AI模型机器人未经训练也能执行

3 月 12 日消息，北京时间今晚，谷歌 DeepMind 推出两款新型 AI 模型，旨在帮助机器人完成更多现实世界中的任务。

业界

超越国际数学奥林匹克金牌得主：谷歌DeepMind AI系

2 月 8 日消息，谷歌旗下人工智能研究实验室 DeepMind 开发的人工智能系统 AlphaGeometry2 在解决国际数学奥林匹克竞赛（IMO）几何问题方面取得了突破性进展，其表现甚至超过了平均金牌得主。

业界

谷歌DeepMind优化AI模型新思路，计算效率与推理能力

12 月 28 日消息，谷歌 DeepMind 团队最新推出了“可微缓存增强”（Differentiable Cache Augmentation）的新方法，在不明显额外增加计算负担的情况下，可以显著提升大语言模型的推理性能。

业界

OpenAI从谷歌DeepMind挖角三名高级工程师，专注于多

12 月 4 日消息，据 Wired 报道，OpenAI 今日宣布，已从竞争对手谷歌 DeepMind 聘请三位高级计算机视觉与机器学习工程师：Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai。

业界

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 汽车电池

砍柴网（ikanchai.com）创立于2013年，始终秉承观点独到、全面深入、有料有趣的宗旨，在科技与人文之间寻找商业新价值。

关于我们 | 联系我们 | 商务合作 | 寻求报道 | 投稿须知

意见反馈：kefu@ikanchai.com

稿件投诉：post@ikanchai.com

内容合作QQ：1587015870

商务合作：bd@ikanchai.com

关注我们

关注砍柴网官方微博
每日获取最新科技动态

关注砍柴网微信公众号
探索科技与商业的逻辑

商务合作、媒体邀约
赶紧联系我们

Copyright © 2013-2020 砍柴网 / 京ICP备15042874号-1 / 京公网安备 11010502032797号 / 本站由CMSTOP、阿里云、亿速云、腾讯云提供驱动力