2024 年被视作具身智能发展“元年”,全球科技界纷纷抢滩布局。自艾伦·图灵 1950 年提出相关概念,经多年沉淀,在大模型与生成式 AI 助力下,具身智能从理论迈向应用,成为当前全球人工智能领域的前沿热点和新浪潮。
国际上,科技圈大佬马斯克、黄仁勋等积极推动,谷歌发布 RT 系列机器人模型,RT - H 任务成功率显著提升;英伟达成立 GEAR 实验室,推出 Project GR00T 及 Jetson Thor 平台;微软、OpenAI 也投身浪潮。特斯拉擎天柱机器人更是大显身手,从日常琐事到工业应用,潜力无限。
国内同样呈喷薄之势,2024 年上半年超 50 家具身智能概念创业公司涌现,融资活跃。其中,如智元机器人、星尘智能、逐际动力等在人形机器人研发成果斐然。
具身智能之所以备受瞩目,在于其拥有更强认知与决策力,能在复杂环境自如交互、执行任务,打破机械局限,有望颠覆计算机、智能手机、新能源汽车等产品。
由此,具身智能将数字世界与物理世界相连,未来必将深刻重塑各行各业,开启一个充满无限可能的全新智能时代。据36氪研究院测算,我国具身智能的市场规模已从2018年的2923亿元增长至2023年的7487亿元,年复合增长率高达20.7%,并且有望在2026年突破万亿。
数据瓶颈:制约具身智能发展的枷锁
然而,在这一片欣欣向荣的背后,具身智能行业的发展之路却并非坦途。当前,行业面临着诸多棘手的痛点,尤其是在数据训练与仿真这一关键环节,存在着严重的不足。
在具身智能领域,数据对于训练深度学习模型以增强和优化机器人能力至关重要。这对系统性能与适应性起着决定性作用。开发具身智能系统需要海量且高质量的数据集,这些数据需涵盖机器人及其所处环境中的多样化真实世界信息。
实际情况却是,从机器人及其环境中捕获此类数据既极具挑战性,又伴随着高昂的成本。机器人数据相较于传统的文字和图片数据显得尤为稀缺,除图像数据相对较易获取外,诸如摩擦、压力、重量等物理知识数据的获取难度极大。
同时,具身智能的数据涉及机器人与其动态环境之间的复杂互动,这些物理互动还常常存在于多样且常常不可预测的环境中。鉴于获取大量高质量和多样化的数据成本过高,基于数字孪生的仿真已经证明是一个有效的解决方案。
通过建立仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验方式,确保了通过模拟潜在的危险场景的安全性,为测试在各种环境中提供了可扩展性,快速原型设计的能力,对更广泛的研究社区的可访问性,精确研究的受控环境,用于训练和评估的数据生成,以及用于算法比较的标准基准。
世界模型:解决数据瓶颈问题的全新思路
对于制约具身智能发展的数据瓶颈,2024 年,AI 教母李飞飞发布的空间智能及相关大世界模型,犹如一颗重磅炸弹,在自动驾驶及更广泛的具身智能应用场景中展现出了巨大的发展与应用潜力,为解决数据瓶颈问题提供了全新的思路。
与生成式 AI 工具生成的 2D 内容不同,李飞飞的世界模型开启了从数字世界向物理世界的跨越征程,实现了从一维数字智能向三维空间智能的重大转变。按照李飞飞的阐释,空间智能意味着 AI 能够在三维空间与时间维度中,以立体的视角进行感知、推理以及行动,并切实地与现实世界产生互动交流。
世界模型在具身智能的潜在应用范围极为广泛。以自动驾驶为例,世界模型可以实时精准地把握道路状况,并对其变化趋势进行精确预测,重点聚焦于对环境的瞬时感知以及复杂变化趋势的预估判断。在人形机器人领域,世界模型对于导航、物体识别检测以及任务规划等关键任务起着不可或缺的作用,可以精准地解析外部动态环境,并构建具有交互性和实体体验感的环境场景。而在虚拟社会系统模拟方面,世界模型可以敏锐地捕捉并预测更为抽象的行为动态,诸如社会交往互动以及人类决策制定等过程。
极佳科技:具身智能的重要引擎和加速器
由于地缘政治影响,国内率先布局世界模型和空间智能方向的先锋企业,可对标李飞飞World Labs,进行国产替代的的极佳科技引发广大关注度。该公司聚焦于视频生成与 4D 世界模型在空间智能领域的探索与拓展,并已在机器人与元宇宙两大领域的技术及商业层面均收获显著成果,收获了知名度与口碑。
于自动驾驶领域,极佳科技今年10月联合中科院自动化所、理想汽车、北京大学、慕尼黑工业大学等重磅力量,推出DriveDreamer4D。此乃全球首个借助世界模型优化 4D 驾驶场景重建成效的创新成果,能显著提升多种自动驾驶 4D 重建算法效能,在用户调研实验里,超 80%的高偏好投票彰显其卓越性能,为迈向空间智能与 4D 世界模型筑牢根基。
DriveDreamer4D 作为驾驶场景的数据强援,可生成丰富多元视角数据,涵盖变道、加减速等动态场景,极大增强闭环仿真能力。它以世界模型为核心数据引擎,基于真实驾驶数据合成全新轨迹视频,例如精准模拟变道场景。不仅能优化 PVG、S3Gaussian、Deformable - GS 等重建算法的图像渲染品质,还可提升驾驶前景(车辆)与背景(车道线)的时空连贯性。
该技术在实际驾驶场景模拟中表现卓越,全面精准地复刻车辆行驶的物理动态、交通规则以及各类道路使用者的行为变化。无论是前方车辆的轨迹预判,还是行人意图的洞察,甚至是道路与天气状况等环境因素的综合考量,基于极佳科技 4D 数据引擎训练的自动驾驶算法都能迅速反应,防患于未然,为驾乘安全保驾护航。
凭借技术领先优势,极佳科技与地平线、亿咖通等头部主机厂缔结深度定点合作,此乃业界对其技术实力的权威背书。在近期现代汽车集团创新计划颁奖典礼上,极佳视界凭借 4D 世界模型与视频生成领域的创新成果,荣膺“灯塔”创新开放计划“创新企业奖”。
鉴于自动驾驶是具身智能的关键落地场景,且二者在大脑构造、开放场景与路径规划以及算法层面的高度相似性与关联性,在自动驾驶领域成功构建并验证世界模型且获头部厂商认可的极佳科技,无疑在具身智能这片广袤蓝海中拥有发展的无限潜力与广阔前景,有望成为推动具身智能行业蓬勃发展的重要引擎与加速器。