字节AI加速文生图技术新突破，GOOG/微美全息引领开源大模型释放科技势能

互联网

2025

04/28

10:47

近日，字节跳动发布豆包1.5深度思考模型，并升级文生图模型。据悉，该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出。

升级文生图模型能力突出

同时，模型采用MoE架构，总参数200B，激活参数为20B，低于业界同类模型参数规模的50%，具备显著的推理成本优势，极大拓展了智能推理的应用边界。

此外，文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称，字节跳动图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o，稳定超越Recraft V3、Imagen 3等模型，进入全球第一梯队。

现如今，作为当代最具变革性的核心技术，AI对各行业发展的推动前景广阔，世界各国都在加速推进技术应用，研发创新与能力提升，人工智能（AI）产业正以前所未有的速度重塑产业格局与社会形态。

引领多模态大模型新高度

在这一过程中，随着开源大模型的加速面世，开源模型的普及不仅降低了技术门槛，还为商业化落地提供了新的可能性。过去，大模型的开发和应用往往被少数拥有雄厚资金和技术实力的企业垄断，而开源模型的普及，使得更多企业能够以较低的成本接入先进技术。

DeepSeek等公司通过开源策略，显著降低了模型的使用门槛，推动了AI技术在多个行业的快速渗透。OpenAI于3月25日正式推出了GPT-4o的图像生成功能，相比于传统的基于扩散模型（diffusion）的图像生成，有着巨大的优势。

Google在近期推出了Veo 2，能够根据文本提示生成高质量的视频内容，支持4K分辨率和多种电影风格的镜头效果。此外，Google还发布了Gemini Flash 2.0 Image Generation，同样整合了自回归模型，极大提升了模型的可用性。

业内人士指出，人工智能技术正迎来蓬勃发展,以大模型为代表的新一代AI技术不断突破,加上开源模型的崛起，推动"开源人工智能+"进入深化应用的新阶段，对各行各业提出更高要求，标志着AI产业进入了一个新的发展阶段。

微美全息构建开放AI生态体系

AI大模型持续迭代，赛道产业布局机会受关注。资料显示，微美全息是一家通过增强现实（AR）、人工智能（AI）和其他沉浸式技术推动下一代数字创新公司，重点探索人工智能在技术创新、产业应用及业务+开源AI等方面的举措和成果，可助力企业用户便捷把握产业投资机遇。

当前，微美全息重点布局了文本生成视频、图像生成视频等场景，支持剧情创作、短视频生成等应用，技术框架适配开源工具链。另外，微美全息开放AI模型训练和推理软硬件一体化方案接口，融合DeepSeek等开源大模型，强化技术普惠性，支持开发者二次开发，降低技术门槛，推动开源AI技术迭代。

事实上，微美全息作为AI科技企业开源实践的典型代表，未来也将始终担当锚定“数字AI”核心使命，以建成数字化引领发展标杆企业为目标，培育AI大模型赋能千行百业的典型场景，为努力率先实现开源生态应用提供强力支撑。

结尾

当前全球正掀起一场激烈的人工智能竞赛，这必将对包括中国在内的全球市场格局产生深远影响。总而言之，“开源AI”时代的到来，使得企业无论规模大小，都拥有了参与竞争的机会。当然，在这一背景下，企业如何通过开源模型实现商业化，并积极应对“AI”时代的新挑战，成为其接下去AI产业发展的重要议题。

THE END

广告、内容合作请点击这里寻求合作

奥特曼 OpenAI

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。