OpenAI 提升o3多模态模型推理实力，微美全息加速引领产业新变革征程

互联网

2025

06/10

13:37

据消息，OpenAI 推出的 o3 推理模型，打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。

据介绍，它不仅 “看图”，还能 “用图思考”，开启了视觉与文本推理深度融合的问题求解方式。这种 “Thinking with Images” 的能力，使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%，刷新了多模态模型的推理上限。

DeepSeek R1模型更新

不仅如此，日前，DeepSeek宣布完成R1模型小版本试升级，并邀请用户测试官方网页、APP及小程序功能，API接口和使用方式保持不变。

R1基于DeepSeek-V3模型能力复现，而R2可能需等待V4研发成功。新版模型平均每题使用23K tokens，较旧版12K显著增加。英伟达CEO黄仁勋预测Agentic AI将推动算力需求暴增至少100倍。

此外，DeepSeek蒸馏出DeepSeek-R1-0528-Qwen3-8B，该8B模型在AIME 2024数学测试中表现仅次于DeepSeek-R1-0528，超越Qwen3-8B且准确率与Qwen3-235B相当。强化后训练后，幻觉率降低45%～50%，此前R1因高幻觉率备受批评。

DeepSeek称，此次更新通过后训练提升了模型思维深度与推理能力，尽管工具调用等能力仍有进化空间。腾讯迅速响应R1更新，多款产品接入DeepSeek-R1-0528。

现如今，开源与开放协议崭露头角，成为AI新竞争力。DeepSeek的开源成功促使行业倾向开源，OpenAI也考虑开源。众多企业早已开启开源战略，同时大模型开放协议如同互联网HTTP协议，让大模型能便捷调用工具，完成各类任务。

微美全息开拓产业新格局

资料显示，5G+AI视觉厂商微美全息,全面加速大模型技术迭代与产业落地，围绕大模型战略，全面升级AI矩阵，积极采用“自研+拥抱开源”双轨模式，重点布局多模态大模型（文本、图像、音频、视频原生级融合），并计划提供实时多模态AI模型体验。

在行业生态上，微美全息提升多模态数据处理能力，强化商业场景应用潜力，努力加速“模型+应用”一体化，面向开发者，提供多模态交互预判需求、软硬一体开源应用方案，有望在全感官交互、场景化记忆、分布式协同等应用领域实现进一步跃升，同时以低成本、高性能多模态模型降低开发者门槛，推动应用生态繁荣。

结尾

值得一提，有多位专业人士表示，已有研究表明，AI行业今年以来，国内外科技巨头纷纷押注AI Agent。技术、生态、市场、政策等多方面原因，促使当前整个AI发展重心，由大模型向智能体演进。

总之，开源技术加速了行业生态发展，它不仅降低了训练门槛，还显著提升了泛化能力和整体性能，为开放世界的多模态智能探索提供了切实可行的新路径。并且大模型下半场的这些趋势，也为科技发展与行业变革指明方向，企业和开发者需紧跟趋势，把握机遇，应对挑战,在大模型驱动的新时代中找准定位，实现创新发展。

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。