DeepSeek新模型曝光:MODEL1代码预示新架构,最快有望2月发布

业界
2026
01/21
10:54
IT之家
分享
评论

1 月 21 日消息,The Information 月初爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 ——DeepSeek V4,将具备更强的写代码能力。

1 月 20 日,正值 DeepSeek-R1 发布一周年之际,有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,横跨 114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。

该标识符与已知的现有模型“V32”(即 DeepSeek-V3.2)被并列或区别提及。根据代码上下文分析,“MODEL1”很可能代表一个不同于现有架构的新模型。

开发者分析认为,“MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。

此前,DeepSeek 研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI 记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。敬请期待。

【来源:IT之家】

THE END
广告、内容合作请点击这里 寻求合作
DeepSeek
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

北京时间1月19日,英国《金融时报》经济社评作者泰杰·帕里克(Tej Parikh)发文称,电力充裕、开源模型领先以及制造业实力将帮助中国赢得AI竞争。
业界
12月23日,QuestMobile数据显示,截至最新统计周期(12.08-12.14),AI原生APP活跃用户榜单已经发生了巨大变化,其中,豆包、DeepSeek、元宝仍位居前三,周活跃分别为1.55亿、8156万、2084万;蚂蚁阿福、...
业界
12月17日消息,日前,小米正式发布并开源了全新基础语言模型MiMo-V2-Flash。
业界
12 月 12 日消息,据科技媒体 Mobile World Live 前天报道,英伟达否认了中国 AI 初创公司深度求索(IT之家注:DeepSeek)使用禁售的 Blackwell 芯片训练最新模型相关指控。
业界
11 月 12 日消息,去年底有消息称,DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米。
业界

相关推荐

1
3