具身智能(Embodied AI)被誉为下一个人工智能的浪潮,是人工智能技术与机器人技术融合的产物,成为科技创新高度密集、前沿技术加速融合、大国竞相开展战略布局的关键领域。人工智能大模型技术的突破,为机器人提供了强化的“大脑”与“小脑”,更为机器人与环境的交互带来了新的着力点,有望成为具身智能加速落地的关键引擎,催生技术与范式的深刻蝶变。
一、大模型驱动下的具身智能
具身智能旨在依托软硬件结合的智能系统(智能体)实现在物理世界感知和理解环境、并与环境实时互动,通常表现为不同形态的机器人在真实物理环境下通过适应性行为来执行任务,是一种全新的智能范式。通俗来说,具身智能就是将人工智能搭载在机器人等物理“身体”上,使“身体”具备自学习能力,实现“知行合一”。
具身智能在架构上可以分为“大脑”“小脑”和“本体”。依托三者协同配合,机器人才能像人类一样去面对各项需求,完成各类任务。其中,“大脑”主要通过大模型驱动决策和智能处理;“小脑”通过运动控制算法等实现运动控制和协调;“本体”通过传感器、执行器、灵巧手等硬件设备实现与环境互动。
图片来源:太阳城官网根据国讯芯微(苏州)科技有限公司等网站公开资料整理绘制
图1 具身智能总体架构
强大的“大脑”对于具身智能至关重要,没有“大脑”,机器人只是一个失去智能的、只可移动的机械装置。目前,多模态大模型技术加速演进,能力边界被不断拓宽,为推动具身智能“大脑”快速升级提供了有效路径。一是大模型增强了机器人的感知与理解能力。多模态大模型可处理语言、视觉、触觉等多种类型数据,超越了单一模态难以应对复杂实际场景的限制,使机器人能够更准确、全面地理解复杂场景和任务。二是大模型提升了人机交互的体验。多模态大模型的不断迭代让机器人能通过语音、手势等信息更准确理解人类意图,提供深度个性化的体验。三是大模型赋予了机器人自主规划决策的能力。大模型在大规模数据预训练后,让机器人具备更强的学习能力,不断提升其通用性和泛化性。
二、行业落地路径分析
纵观国内外产业界与学术界具身智能技术及产品的落地实践,主要路径如下:
软硬件一体化推进,加快成果转化和应用落地探索。如中国科学院自动化所自主研发千亿参数全模态大模型“紫东太初”,打通感知、认知、决策交互屏障,完成图像、文本、语音等跨模态数据对齐,理解和生成能力更接近人类。同时,研发人形机器人设计组装“大工厂”,可自动完成人形机器人硬件AI设计方案和软件算法的选择,并在高精度环境下进行快速验证,大幅缩短现有研发周期。在此基础上,开发推出Q系列机器人,并面向家庭服务、智能制造不同场景开展应用探索。
图片来源:中国科学院自动化所视频号
图2 Q系列机器人
技术供给端主动布局,瞄准行业痛点和关键领域深入研究。如谷歌自研系列具身智能大模型,其中RT-2大模型是端到端的具身大模型的代表,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,使机器人在未见过的环境中展示出强大的泛化、语义理解和推理能力。智源研究院主要聚焦具身智能“大脑”领域,已取得多项世界级突破性成果,如开发具身操作 VLA大模型、具身导航 VLA 大模型等,使机器人在复杂环境中表现出更优越的多样性、灵活性和泛化性。
技术应用方积极对接上游技术资源,赋能自身业务发展。智源研究院部分研究成果已在银河通用(北京)落地,双方共同研发了Galbot的大脑大模型,实现了机器人的稳定识别和抓取操作。优必选(深圳)与百度合作为人形机器人Walker S接入文心大模型,进行具身智能应用升级训练,从而获得高级的意图理解能力和细粒度规划能力。
图片来源:银河通用官网
图3 银河通用Galbot机器人
三、当前面临的瓶颈与挑战
全球范围内大模型驱动的具身智能成果层出,为该领域发展带来极大信心。但目前业内对大模型赋能具身智能落地是否为最优路径尚存争议,在仰望“星空”的同时,仍需看到当下的面临的瓶颈与挑战。
用于模型训练的高质量数据缺乏。具身智能机器人的训练数据主要来源于模拟器和真实世界,但现有交互数据尚不足以反哺模型训练。真实数据面临获取成本过高、质量参差和多样性不足的挑战,仿真合成数据面临模拟环境与现实世界存在差异的挑战,要达到大模型对于数据量的需求,仍需长时间的采集和积累。
大模型与机器人技术尚未深度融合。尽管大模型很大程度增强了机器人学习、理解等能力,但仍存在机器人通用基础大模型未建立、软硬件系统协同能力差等技术瓶颈,再加上研发周期长、投入高,短期内要消弭 Sim2Real的偏差,突破技术临界点,还有很长一段路要走。
具身智能的应用场景还未完全打开。理论上讲,具身智能的实践场景非常广泛,在多行业领域应用潜力巨大,但由于技术成熟度和稳定性不足等问题,还需要在应用场景中进一步验证和改进。近期刚结束的2024世界机器人大会的具身智能相关展品用途仍以展示、科研为主,落地场景还较为有限。
四、相关建议
针对上述瓶颈与挑战,可以考虑从以下方面开展工作:
搭建数字训练世界与操作数据采集区。通过物理仿真,制造一个模拟真实世界的数字训练世界,加速模型开发迭代。建设面向商场、工厂、家庭等场景的操作数据采集区,持续采集真实操作数据。搭建具身智能预训练数据集开放平台、指令数据集标注平台等共享平台,赋能具身智能行业应用。
增强技术融合应用研究能力。鼓励科研院校和企业加快具身智能前沿领域布局与探索,积极拥抱大模型技术,打造开源平台构建合作生态,持续推动大模型泛化能力提升、机器人通用基础大模型开发等技术突破。同时在学科设置、交叉培养、海外人才引进,国际赛事举办等人才引育方面予以加强。
积极拓展应用场景进行验证完善。打造面向场景、技术的服务对接平台,精准挖掘场景需求,有序拓展场景应用,率先在特种行业、工业制造等领域进行试点落地,逐步扩展至仓储物流、养老服务、医疗卫生等场景,通过实践不断验证推动技术更新,渐进式推进具身智能从研发机构和特定应用场景走向更广泛的消费市场。
参考文献:
[1] 对话王田苗:万亿市场之下,大模型+机器人还有四大问题未解决 | 硬氪专访[EB/OL].(2024-04-26)[2024-09-01].http://www.163.com/dy/article/J0ML5OM205118DFD.html
[2] 一万字,读懂具身智能的技术趋势、产业应用与未来走向[EB/OL].(2024-07-31)[2024-09-01].http://new.qq.com/rain/a/20240731A075QS00?suid=&media_id=
[3] 人形机器人如何走向实际应用?揭秘“大工厂”研发背后的故事[EB/OL].(2024-03-23)[2024-09-01].http://content-static.cctvnews.cctv.com/snow-book/index.html?item_id=12138468287686999380&track_id=A0616555-7D4A-4ABB-9787-E925C766B9C6_732885782032
[4] 国讯芯微(苏州)科技有限公司
[EB/OL].(2024-09-01)[2024-09-01].http://www.niic.net.cn/Home/Index/about
[5] 北京银河通用机器人有限公司
[EB/OL].(2024-09-01)[2024-09-01].http://www.galbot.com
作 者
梁 雨,长期关注研究人工智能领域