OpenAI 提升o3多模态模型推理实力,微美全息加速引领产业新变革征程

互联网
2025
06/10
13:37
分享
评论

据消息,OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。

据介绍,它不仅 “看图”,还能 “用图思考”,开启了视觉与文本推理深度融合的问题求解方式。这种 “Thinking with Images” 的能力,使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%,刷新了多模态模型的推理上限。

1749519926124913.jpg 

DeepSeek R1模型更新

不仅如此,日前,DeepSeek宣布完成R1模型小版本试升级,并邀请用户测试官方网页、APP及小程序功能,API接口和使用方式保持不变。

R1基于DeepSeek-V3模型能力复现,而R2可能需等待V4研发成功。新版模型平均每题使用23K tokens,较旧版12K显著增加。英伟达CEO黄仁勋预测Agentic AI将推动算力需求暴增至少100倍。

1749519973963040.jpg 

此外,DeepSeek蒸馏出DeepSeek-R1-0528-Qwen3-8B,该8B模型在AIME 2024数学测试中表现仅次于DeepSeek-R1-0528,超越Qwen3-8B且准确率与Qwen3-235B相当。强化后训练后,幻觉率降低45%~50%,此前R1因高幻觉率备受批评。

DeepSeek称,此次更新通过后训练提升了模型思维深度与推理能力,尽管工具调用等能力仍有进化空间。腾讯迅速响应R1更新,多款产品接入DeepSeek-R1-0528。

现如今,开源与开放协议崭露头角,成为AI新竞争力。DeepSeek的开源成功促使行业倾向开源,OpenAI也考虑开源。众多企业早已开启开源战略,同时大模型开放协议如同互联网HTTP协议,让大模型能便捷调用工具,完成各类任务。

1749520020371125.jpg

 

微美全息开拓产业新格局

资料显示,5G+AI视觉厂商微美全息,全面加速大模型技术迭代与产业落地,围绕大模型战略,全面升级AI矩阵,积极采用“自研+拥抱开源”双轨模式,重点布局多模态大模型(文本、图像、音频、视频原生级融合),并计划提供实时多模态AI模型体验。

在行业生态上,微美全息提升多模态数据处理能力,强化商业场景应用潜力,努力加速“模型+应用”一体化,面向开发者,提供多模态交互预判需求、软硬一体开源应用方案,有望在全感官交互、场景化记忆、分布式协同等应用领域实现进一步跃升,同时以低成本、高性能多模态模型降低开发者门槛,推动应用生态繁荣。

结尾

值得一提,有多位专业人士表示,已有研究表明,AI行业今年以来,国内外科技巨头纷纷押注AI Agent。技术、生态、市场、政策等多方面原因,促使当前整个AI发展重心,由大模型向智能体演进。

总之,开源技术加速了行业生态发展,它不仅降低了训练门槛,还显著提升了泛化能力和整体性能,为开放世界的多模态智能探索提供了切实可行的新路径。并且大模型下半场的这些趋势,也为科技发展与行业变革指明方向,企业和开发者需紧跟趋势,把握机遇,应对挑战,在大模型驱动的新时代中找准定位,实现创新发展。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3