1. 具身智能的发展背景
1.1 具身智能的定义
具身智能是一种基于物理身体进行感知和行动的智能系统,其核心在于通过智能体与环境的交互获取信息、做出决策并实现行动。这种智能形式突破了传统人工智能(AI)的局限,强调有物理身体的智能体通过与物理环境的互动来获得真正的智能行为和适应性。具身智能的实质是强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。
1.2 具身智能是机器人和人工智能技术发展汇聚点
具身智能的兴起是人工智能与机器人技术各自发展到一定阶段的必然结果,也是两者深度融合的体现。AI为机器人提供“大脑”,使其具备感知、思考和决策能力;而机器人则为AI提供“身体”,使其能够与真实世界进行交互,获取经验和知识。这种“大脑+身体”的结合,使得机器人不再只是被动执行命令的工具,而是成为真正意义上的智能体,能够主动理解任务需求、规划执行路径,并在复杂环境中灵活调整策略。
1.3 具身智能大模型为机器人提供从感知、推理到执行的具身智能全流程解决方案
机器人要实现具身智能应用落地,必须完成自主感知、自主推理、自主执行的全流程解决方案。而具身智能大模型可以提供底层技术支撑。
自主感知需机器人具备对外部环境(人或物)的感知能力,通过传感设备、信息表示建模、信息转译理解、下游任务应用,使得机器人能够在复杂的工作环境下执行任务。具身智能大模型能够处理来自物体、环境、行为、表达等不同维度的感知数据,并通过内部的信息表示重建来充分理解并指导推理和执行的步骤。
自主推理的过程主要包括任务规划、导航和交互环节。任务规划是具身智能的核心任务之一,将抽象的非可执行人类指令转换为具体的可执行技能。这一步骤的完成需要将人类指令分解为机器人可执行的技能并执行技能。具身大模型可作为任务规划的转换器和分解器,用LLM将状态信息描述成PDDL语言再进行规划,取代以往需要人工针对实际问题书写PDDL语言对任务进行建模,并以zero-shot进行任务规划。
导航是具身智能体在3D环境中自主移动完成导航目标的能力。早期的导航通过构建一系列基于规则的组件和算法,实现有效的环境感知、定位、路径规划和避障。而基于具身智能大模型的导航则是利用深度学习与强化学习技术,提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的规则和手工设计的特征,具身智能大模型导航算法从大量数据中学习环境特征和导航策略,实现强自适应性和高灵活性。
交互是指具身智能体主动探索环境、定位目标物体或位置获取环境中的信息,然后基于获取的信息回答问题。该任务可视为导航、传统问答任务的结合。相比于传统已有问答任务,具身智能大模型赋能后的机器人具有主动行动能力,因此可以实现更为复杂的场景交流问答信息。
自主执行是指实现任务的具体动作,其中最重要的环节就是技能学习,其以技能描述、环境观察为输入,输出完成技能所需的7Dof轨迹(主要指人手腕或者机械臂末端执行器的位置、朝向、末端状态)。具身智能大模型可通过将专家演示数据用神经网络拟合后产生相关的执行序列,或是通过设计奖励函数,由机器人通过交互学习行为策略,最后掌握实际执行任务操作。
2. 具身大模型两种技术路径分析及核心瓶颈
2.1 具身大模型的两种流派
目前,具身大模型可以分为两大流派,分层具身模型和端到端大模型。
分层具身模型采用“大脑-小脑-肢体”的架构,上层大模型负责感知与决策,底层硬件层和中间响应快的小模型负责分解与执行。这类模型更适合当前的数据积累水平,且更容易融入基于学习的控制方法,因此被更多厂商采用。
端到端大模型能够直接实现从人类指令到机械臂执行的过程。输入图像及文本指令后,模型输出夹爪末端的动作轨迹。这种方式简化了系统的层次结构,提高了响应速度,但由于缺乏中间逻辑推理层,对海量数据的依赖度极高,目前尚未成为主流选择。
2.2 分层具身模型
分层具身模型通过将感知、规划决策、控制和执行各模块分解为多个层级,分别突破“大脑”和“小脑”,利用不同的神经网络进行训练,最终再整合起来。例如人形机器人企业Figure便是采用三层级方案,顶层集成了OpenAI的大模型,负责视觉推理和语言理解,中间层是神经网络策略(NNP),负责快速、灵巧的操作,将视觉信息直接转换为动作指令,并输出这些指令;底层是全身控制器,负责提供稳定的基础控制,在接收神经网络策略的动作指令后,输出各关节的扭矩指令。又例如银河通用的三层级大模型方案。底层是硬件层,中间层是通过仿真合成数据不用任何真实世界数据训练的泛化的技能,最上层是大模型,可以调度中间技能API,来实现完整的从任务的感知、规划到执行的全流程。
在分层模型方案中,将机器人的感知、推理和执行环节被类人化地划分为负责解决高层次认知或决策问题的“大脑”,以及负责基础层面的功能性问题的“小脑”。两大系统各司其职又互相合作,“大脑”负责解析任务需求,整合来自传感器的信息,进行任务的细化和策略规划;“小脑”则专注于精细的运动控制,确保在“大脑”制定的策略指导下,机器人能够准确无误地执行动作并进行必要的调整。目前较为普遍的方向是,机器人的“大脑”由大模型来担任,“小脑”则依然为底层控制算法。
大脑负责感知和规划决策系统,主要基于多模态大模型,通过学习、理解、融合和对齐各传感器采集而来的跨模态信息,实现对复杂环境的鲁棒建模与更精准、通用的感知,并根据环境情况,自主拆解任务、规划动作。
小脑负责运动规划与控制系统,是人形机器人实现自然和流畅动作的关键。目前,“小脑”运动控制包括基于模型的控制方法和基于学习的控制方式两个大类。传统的基于模型的控制方法通过建立机器人的运动学和动力学模型,进行运动轨迹规划和平衡控制。这一类方法的特点是身体控制稳健,但步频较慢,且整体开发较为复杂,成本高,不利于产品快速迭代。基于模型的控制方法具体包括ZMP判据及预观控制、混杂零动态规划方法、虚拟模型解耦控制、模型预测控制+全身控制(MPC+WBC)等。基于学习的控制方法是使用端到端的人工智能技术,代替复杂的运动学模型,一般通过人类示教或自主学习建立运动执行策略,其中通过人类示教的方式也称为模仿学习,效果依赖高质量示范数据;或是通过自主学习的方式,指通过精心设计学习目标,机器人不断在环境中探索逐渐发现最大化奖励的方式学习到最优的执行策略,效果依赖于仿真环境。
2.3 端到端大模型
端到端大模型目前主要聚焦于机器人的具身作业,实现直接从人类指令输出机械臂执行动作的闭环流程,即输入是图像及文本指令,输出是夹爪末端动作。以谷歌的RT-1到RT-2的进化迭代为例,2022年谷歌机器人研究团队便基于模仿学习中行为克隆学习范式,把Transformer应用机器人的操纵任务上,提出了RT-1模型,其输入为图片序列、自然语言指令,可直接输出由机械臂运动的目标位姿、基座的运动 、模式转换指令,该端到端模型显示出了在具身作业领域泛化能力。紧接着于隔年,谷歌发布了RT-2模型,基于VLM模型基础,通过在互联网上数据训练,学习到更多关于视觉和语言之间映射关系的知识后,在机器人操纵任务上微调,使得机器人在执行具身作业任务时获得更强涌现能力。
端到端模型相比于分层具身模型,其可以简化传统上需要多个独立模块才能完成的任务流程,提高系统的效率的同时还能增强其泛化能力和通用性。首先在泛化能力方面,端到端模型具有强大的泛化能力。以谷歌DeepMind推出的RT-2为例,该模型可以在新的物体、背景和环境中表现出显著改善的性能。它可以理解并响应那些在训练数据集中未曾出现过的命令,并基于底层语言模型提供的思路链进行推理,从而做出合理的决策。其次在通用性方面,端到端模型具备高度的通用性。由于它是建立在一个通用的大规模预训练基础上,因此理论上几乎所有的“智能机器设备”都可以使用这套算法。无论是汽车、飞行器还是其他类型的机器人,只需要经过适当的微调就能满足特定应用场景的需求。
2.4 数据是具身大模型训练的核心瓶颈
对于具身大模型发展而言,训练数据积累不足是核心瓶颈。因对人类而言一些简单的任务诸如灵巧性能力、空间感知能力、平衡恢复能力等,对机器人而言却是困难重重。为让机器人能够掌握这些能力,需要用海量数据进行训练才能达成,但机器人模态的数据积累远远落后于其他模态,严重制约了机器人的学习能力和性能提升。对比不同模态下的最大数据集,文本模态约15Ttokens,图片模态有6B图文配对数据,视频模态有2.6B视听特征数据。然而机器人模态只有240万个数据片段,相比其他模态而言,数据积累远远不够。
针对数据积累不足问题,行业往往通过远程操作、视频学习等方式以快速积累机器人训练数据。远程操作主要由实验人员操作机械手柄,远程控制机器人做出相同动作,以此来积累数据。通过多个操作员协作收集了大规模多样化的数据集,再基于这些数据集训练机器人的灵巧作业能力。在单臂机器人任务中,通过远程操作来进行数据采集,通常需要多个操作员、机器人以及数月的人力投入,耗时耗力。而在类人机器人的任务复杂性更高场景中,因此需同时控制多臂和多指手,数据采集工作负担更是大幅增加。视频学习是通过多模态大模型,直接让机器人通过视频学习人类动作,从而积累训练数据。考虑到通过人类远程操控等方式的示教成本较高,从人类视频中学习已成为机器人的主流训练方法之一,如直接通过YouTube视频进行策略学习。但视频学习同样遇到一些局限。例如在控制上,视频示教没有提供机器人本体的运动数据,智能体需要仅根据演示视频生成动作指令,增加了学习难度。
在感知上,机器人与人类的视角不同,人类演示视频中的每一帧是人手臂的运动图像,而机器人捕获的图像是机械臂的运动图像,二者之间存在较大差异,导致机器人难以准确理解人类动作。在误差精度上,由于视角差异和图像内容的不同,演示视频与机器人感知的图像之间存在较大误差,影响学习效果。
3. 具身大模型未来发展展望
3.1 通过仿真、AR等技术手段打破数据积累瓶颈
为打破机器人训练数据荒的现状,业内目前正尝试采用仿真模拟、AR等技术手段收集与机器人运动学相匹配的可执行训练数据,并能大幅提升任务执行成功率。2024年11月,来自英伟达、UT Austin和UCSD的研究人员推出了一种大规模自动化数据仿真生成系统——DexMimicGen,它可基于少量人类演示合成类人机器人的灵巧手运动轨迹,帮助实现在更少人工干预下扩大类人数据的采集,相较仅依赖源演示,DexMimicGen大幅提升了策略成功率,所有任务中基于DexMimicGen数据集训练的机器人表现明显优于仅基于少量源数据训练的机器人。2024年10月,斯坦福李飞飞团队提出了一种基于AR技术的数据收集系统——ARCap,它通过增强现实(AR)和触觉警告提供视觉反馈,以指导用户收集高质量的演示,通过利用从ARCap收集的数据,经验证机器人可以提升任务执行效率和复杂度,例如在杂乱的环境中进行操作和长视野跨具身操作。
3.2 从分层式结构向端到端一体化架构的演进
具身大模型作为人工智能与机器人技术深度融合的产物,正在引领机器人迈向通用智能的新阶段。未来,随着数据积累的不断丰富、算法能力的持续提升以及硬件算力的快速进步,具身大模型将经历从分层式结构向端到端一体化架构的演进,最终实现“大脑-小脑-肢体”高度协同的自主行为能力。
当前主流的分层具身大模型将继续发挥其在任务分解、多模态感知和决策规划方面的优势,尤其是在工业制造、危险作业等结构化场景中,具备更强的可解释性和可控性。然而,随着远程操作和仿真训练等数据获取方式的成熟,机器人训练数据量将持续增长,为端到端大模型的发展提供坚实基础。未来端到端具身大模型将成为核心发展方向,它不仅提升了系统的响应速度和泛化能力,也为机器人进入更开放的服务场景(如家庭服务、医疗护理、教育陪伴等)提供了可能。
总的来看,具身大模型不仅是机器人智能化升级的核心引擎,更是推动AI迈向AGI(通用人工智能)的重要一环。未来十年,将是具身智能爆发的关键窗口期,值得持续关注与深入布局。
作者:
赵石轩 中国移动智慧家庭运营中心企业发展部战略管理经理
赵永生 中国移动智慧家庭运营中心具身智能产业创新中心技术管理经理
王颢 中国移动智慧家庭运营中心企业发展部战略管理经理
审核:
程宝平 中国移动首席专家、中国移动智慧家庭运营中心具身智能产业创新中心总经理
出品:科普中国×中国移动科学技术协会