“AI 下半场里,绕不开的一件事,就是把推理成本打下来”。
4 月 22-24 日,第十届万物生长大会在浙江杭州举行,本届大会以 “浙里创新 智领未来” 为主题,聚焦 AI 赛道,持续发掘与培育未来 “AI 小龙”。曦望(Sunrise)董事长徐冰在现场发表主旨演讲,“曦望的目标只有一个:就想把大模型推理这件事,做到极致。让推理算力真正变得便宜、稳定、到处能用。”
作为国内第一家 All-in 推理的 GPU 芯片公司,曦望近期再获超 10 亿元融资,这也是今年国内 GPU 赛道最大单笔融资之一。过去一年多,曦望顺利完成七轮融资,累计融资近 40 亿元,成为国内首家估值超百亿的纯推理 GPU 企业。
本届大会上,曦望成功入选 2026 “浙江独角兽企业名单”“杭州独角兽企业名单”。

推理负载“力不从心”,亟须原生架构
2026 年,AI 全面进入 "推理落地、智能体普及" 的新阶段,智能体从被动响应的工具变为随时可用、7×24 小时快速响应的人类助理。这也对 GPU 提出更严苛的要求:更低延迟、更大长上下文承载、更低单位功耗,以及更高效的多模态并发处理能力。现有推理架构力不从心。
爆发式增长的推理需求直接导致推理算力租赁价格半年上涨近 40%。"每瓦 Token 吞吐量"成为企业最关注的核心指标。谁能以最低成本持续生产最多高质量 Token,谁就能在竞争中占得先机。
“我们在内部反复思考一个问题:Agent 时代,到底需要什么样的算力底座?”曦望认为,必须用三个硬指标进行衡量:能扛住高频调用的低延迟、能支撑长上下文的稳定性、能持续下降的单位 Token 成本。但现有通用 GPU 无法同时满足这三大要求。
“如果能把推理成本降低 90%,同时保证稳定,整个 AI 行业的账就算得过来了”,徐冰认为,这可以让中国 AI 从现在的高投入烧钱阶段,真正进入可持续的商业化正循环。
重新定义推理芯片,让 AI 推理“便宜又好用”
2026 年 1 月,曦望正式发布新一代推理 GPU “启望 S3”,这是业内少有的真正为推理而生的 GPU。
曦望砍掉所有训练能力,重新设计芯片和系统,将节省出的晶体管与功耗预算集中投向推理,让单位面积的有效算力提升5倍。启望S3 还创造了两个国内第一:第一个用 LPDDR6 的推理 GPU(兼容 LPDDR5X),显存最大可以做到接近 600GB,成为国内显存容量最大的 GPU;第一个用上PCIe Gen6的推理GPU,让系统通信带宽翻了一倍。这两个技术,专门为智能体准备:能同时存更多用户的对话记忆,处理更长的上下文,而且速度也快、成本大幅降低。
S3 定位不是一颗更强的通用 GPU,它解决的不是“算力大不大”的问题,而是 AI 产业“活不活得好”,这也是对 AI 推理成本曲线的一次重构。徐冰表示,曦望重新定义芯片的核心目标不是去争 “算力第一”,而是去追求更好的“Token 经济性”。
目前,曦望已形成清晰的三代产品规划:量产一代、发布一代、预研一代。曦望在研还有 S4、S5 两代芯片,S4 预计 2027 年上市,性能更强、Agent 原生,S5 预计 2028 年上市。
曦望还构建了覆盖计算卡、计算模组、计算平台等全链路产品矩阵,形成完整生态,为各行业提供一体化推理方案。

做 AI 时代基础设施“筑路人”
从生成式 AI 到智能体 AI,再到初露锋芒、热度持续攀升的物理 AI,每一代形态跃迁的背后,都是推理算力需求的指数级增长与架构能力的全面升级。未来十年,支撑中国 AI 产业持续发展的将是规模化、高性价比的推理基础设施。
“曦望想做的,就是为这个基础设施添砖加瓦。安安静静、踏踏实实地,把推理成本一步步打下来,把服务做扎实。让每一个开发者、每一家企业,不用再被算力卡脖子,不用再为 Token 账单发愁,能放开手脚去做自己想做的事”,徐冰说。
扎根杭州创业第一年,徐冰在本届大会上荣获 “年度创业人物”。他表示,要让中国有自己的原创 AI 技术,要做真正有长期价值的事。
过去十年间,他见证中国 AI 产业从无到有、从小到大全过程,深刻体会到,没有自主可控的底层算力,再繁荣的应用生态也只是空中楼阁。对于为什么选择杭州,他解释道,杭州“技术”和“产业”结合紧密。“政府有为、市场有效、资本有耐心”的生态,能让企业安下心来,做难而正确的事。
“未来,我们会全力把每一代的推理GPU做好,和大家一起,把‘百万 Token 一分钱’变成现实,把推理时代的机遇,变成实实在在的产业成果”,徐冰说。
