您的位置:主页 > 公告动态 > 正大动态 > 正大动态

具身智能,是机器人的「冷饭热炒」吗?

大模型正如火如荼,下一个AI风口就来了。

假如你重视2023国际人工智能大会等职业峰会,以及英伟达、微软、谷歌、特斯拉和国內科技大厂的最新发布会,除了“大模型”,应该会听到另一个高频词——具身智能。

所谓具身智能Embodied AI ,指的是有身体并支撑物理交互的智能体。

简略来说,便是让AGI从数字国际走向实体国际,落地在机器人、机械臂、无人车、无人机,让实体国际中的机器人/仿真人具有智能,像人相同与环境交互感知,履行各式各样的使命。

从这个视点看,其实很多人都现已见过或许玩过具身智能产品了。索尼的机器狗AIBO,软银的服务机器人pepper,还有波士顿动力的人形机器人和机器狗……这些具身智能产品,曾是不少人的幼年回想,或许科幻惊骇。

尽管技能概念很超前,但这些产品的商场体现,其实并不太抱负,技能落地难、产品被停产、企业被转卖,都不算新闻。

因而也有人以为,具身智能作为AI的*形状之一,仅仅一些大厂推进的营销概念。

咱们今日就来聊聊,具身智能的这一波热度,是机器人的“冷饭热炒”吗?

01 下一个AI风口

古话说得好,遇到问题,先问是不是,再问为什么。

有必要先讨论一下,具身智能真的火了吗?

现在来看,AI学术界和工业界,的确现已将“具身智能”,作为下一个风口。

学术层面,不少科学家提出推论,大模型的技能途径打通之后,下一个打破是具身智能。

图灵奖得主、上海期智研究院院长姚期智以为,人工智能范畴下一个应战将是完结“具身通用人工智能”,即怎么构建可以经过自我学习把握各种技能并履行实际生活中的种种通用使命的高端机器人。清华大学核算机系教授张钹院士,也在某工业智能论坛上提出,跟着根底模型的打破,通用智能机器人(具身智能)是未来的开展方向。

工业层面,谷歌、微软、特斯拉等科技公司近来都相继发布了自家的具身智能产品,国內头部科技大厂如华为、京东,也开端将自身在具身智能范畴的相关布局,向群众布道。前不久印发的《北京市机器人工业立异开展举动计划(2023-2025年)(征求意见稿)》,也提出开展机器人“1 4”产品系统,赶紧布局人形机器人研制与使用。具身智能的工业化、商场化潜力,正在加快堆集。

如前所说,无论是实际生活中的机器狗、机械臂、无人车,仍是科幻电影中的人形机器人,具身智能产品早已为群众所了解,但商场体现一向不温不火。为什么一夜之间成为风口了?

02 和大模型“两开花”

具身智能的概念,可以追溯到1950年,图灵在论文《Computing Machinery and Intelligence》中,提出机器像人相同能和环境交互感知,自主规划、决议计划、举动,并具有履行才能,是AI的*形状。

历史上的两次人工智能浪潮,AI智能水平都达不到群众的预期,具身智能尽管诞生了波士顿动力这样的“迸裂”,可是作为一种未来概念和共同事例,并没有取得有成效的工业化开展。

当下正在第三次人工智能浪潮,具身智能的期望重燃,就在于跟大模型“两开花”。

详细来说,大言语模型让人们看到了AGI通用智能的期望,而这也让具身智能有了几个方面打破的可能性:

1.大模型——更凶猛的“大脑”

咱们知道,大言语模型和传统机器学习的差异,就在于泛化才能强,在杂乱使命了解、接连对话、零样本推理等方向有了打破开展。这一打破,让机器人的了解力、接连决议计划力、人机交互才能,有了全新的处理思路。

微软研究院发布“ChatGPT for Robotics” 文章中说到,大型言语模型 (LLM) 将人的言语快速转换为机器人的高层操控代码,然后操控机械臂、无人机等机器人。

曾经,因为传统AI不具有先验常识,了解力和泛化才能缺少,机器人就无法像人相同具有常识,有必要要将一个指令由人类工程师分化成一连串简略的程式化程序,然后机器人(机械臂)再一步一步去完结每个动作。

这也使得高档其他具身智能,比方L5主动驾驶、人形机器人、机器狗等,人机交互无法满意实际中通用智能的需求,广泛使用的主要是机械臂、履带式转移机器人等这类比较机械化的具身智能,只习惯某一类设计好的特定使命。

有了大模型之后,机器人总算有了一个强壮的“大脑”。

LLM可以协助机器人更好了解运用到高档语义常识,主动化地剖析自己的使命并拆分红详细的动作,这样与人类、与物理环境的互动愈加天然,机器人也就显得愈加智能了。

举个比方,让机器人倒一杯水,人类主动就会绕开室内的障碍物,但传统方法下,机器人并不具有“遇到障碍物水会打翻”这样的常识,常常会做错事,而大模型驱动的具身智能,就可以更好地了解这些常识,主动分化使命,不再需求工程师或许主人一步步地辅导。

2.多模态——更丰厚的“小脑”

“具身”所相对的概念是“离身”(Disembodiment),从中可以看到,具身智能的完结依赖于身体的感知,不能脱离身体而独自存在。

人类具有眼耳鼻舌身意,阐明关于物理国际的充沛感知和了解,是认识和才智的来历。而传统AI更多的是被迫观测,主要是“看”(核算机视觉)和“读”(文本NLP),这就使得智能体Agent缺少对外部环境的通用感知才能。

以主动驾驶为例,无人车也是具身智能的载体,需求经过传感器、机器视觉、激光雷达等多种方法来感知物理国际的改变,本钱贵重,作用也不是很抱负,至今仍然没能完结L3级其他主动驾驶量产。

多模态大模型,可以堆集和剖析2D&3D视觉、LiDAR激光、Voice声响等多维信息,根据实在交互,为具身大模型堆集高质量数据数据,深度了解并转化为机器指令,来操控机器人的行为。

有了感知才能更丰厚的“小脑”,具身智能天然也就能更好的了解物理国际。

3.精准决议计划——更灵敏的躯干。

试想一下,假如一辆无人车,行进进程中道路上忽然冲出一个物体,它只能等着人类来判别“当时是什么状况”,下达指令“应该干什么”,那黄花菜都凉了,假如冲出来的是人,那实在是太危险太不牢靠了。

传统的机器人练习往往采纳pffline离线形式,一旦遇到练习环境中没有呈现过的问题,就可能掉链子,需求搜集数据再从头迭代优化,这个进程的功率很低,也减慢了具身智能在实际中落地的速度。

大模型年代,具身智能模型的练习与测验,与云服务相结合,可以在云上虚拟仿真场景下,进行端到端的实时练习与测验,快速完结端侧迭代与开发,这就大大加快了具身智能体的进化速度。

具身智能体在模仿出来的场景中无数次地测验、学习、反应、迭代,堆集对物理国际的深度了解,产生很多交互数据,再经过与实在环境的不断交互堆集经历,全面提升在杂乱国际的主动移动、杂乱使命的泛化才能,展现在具身载体上,便是机器人可以更好地习惯环境,更灵敏地运用机械“躯干”来进行人机交互。

一句话总结,和大模型“两开花”,将通用人工智能落地(Embodiment物理身体),为具身智能打开了新的幻想空间。

03 能抓老鼠才是好猫

理论归理论,实践归实践。咱们总说能捉住老鼠的才是好猫,那么完结具身智能,终究有几种“抓老鼠”的方法呢?

现在,主要以两种道路为主:

一种是谷歌、伯克利等为代表的“未来派”,主打的是“一步到位”。

详细来说,这类研制组织是从具身智能的*方针动身,期望从当下到结尾,寻觅一个端到端的技能途径,所给出的计划,往往采纳“紧耦合”的方法,期望一个大模型就能包揽一切,让机器人完结辨认环境、分化使命、履行操作等一切作业,非常难,也非常有未来感。

比方本年三月谷歌推出的PaLM-E,便是一种多模态具身视觉言语模型(VLM),让机器人可以根据大模型,来了解图画、言语等数据,履行杂乱的指令,而无需从头练习。

加州大学伯克利分校的LM Nav,则经过视觉模型、言语模型、视觉言语模型 CLIP等三个大模型,让机器人在不看地图的状况下依照言语指令抵达目的地。Koushil Sreenath教授的作业,便是推进硬件本体、运动小脑、决议计划大脑三部分逐步交融,让各种四足、双足,以及人形机器人在实在国际中灵敏地运动。

另一种,是英伟达及很多工业机器人厂商为代表的“务实派”,主打的是“立刻收效”。

“未来派”一步到位的道路尽管看起来很帅,但耗时绵长,间隔工业可用还比较悠远,本钱贵重,工业客户未必可以承受。在种种不确定之夏,满意工业界需求,就呈现了以松耦合来完结具身智能的技能道路。

简略来说,便是不同使命经过不同模型来完结,分别让机器人学习概念并指挥举动,把一切的指令分化履行,经过大模型来完结主动化调度和协作,比方言语大模型来学习对话、视觉大模型来辨认地图、多模态大模型来完结肢体驱动。

这种方法尽管底层逻辑上看仍是比较机械,不像人相同有归纳智能,但本钱和可行性上,能让具身智能更快落地。

哪种道路更优?坦率地说,咱们以为都有其局限性。

紧耦合的“未来派”,硬科技的含量明显更高,在打破后很简单和LLM相同给工业带来推翻式的革新,让此前的很多作业成为无用功,但问题是商业化的周期很长,谷歌此前就曾将一门心思在人形机器人的波士顿动力出售,这一轮能坚持多久仍是未知数。

松耦合的“务实派”,的确能很快落地工业使用,但技能壁垒相对不高,跟着AI玩家增多,存量商场逐步被开发,毛利率必定会在同质化剧烈竞赛中遭到揉捏,商业远景会很快抵达天花板。此前国內某机器人龙头企业,就因为技能含量不高而折戟科创板,这阐明具身智能工业仍是要笃定远一点的未来,堆集硬核科技。

星斗大海与商业挣钱之间的沟壑,是每一个AI企业都要穿越的“逝世之谷”。

04 咱们对机器人还有哪些等待?

LLM方兴未已,间隔通用智能仅仅理论可行,终究怎么完结,还有很长的路要探究。从这个视点看,被大模型带火的具身智能,现在也还留在言语、视觉这两个经典的AI使命范畴,能否进一步打破,出路也很模糊。

既然如此,为什么学术界和工业界仍然将其作为下一个AI风口来布道呢?原因或许在于以下两点:

从学术上看,具身智能是行为主义的*。人工智能的两大门派:符号主义和联接主义。联接主义也叫行为主义,不寻求认识的实质,期望用人工神经网络模仿人的行为,让机器“看起来像人”,让人形机器人成为实际,具身智能便是行为主义开展到*的体现之一。所以,从学术上倡导向具身智能开展,是契合技能向前演进的道路的。

从工业上看,工业智能化的浪潮,的确让物理国际和数字国际的交互增多了,只要AI软件是不行的,有必要要能驱动物理实体,比方工业场景下的抓拿放,可以替代人工操作的繁琐和危险,在煤矿井下作业、港口库房搬卸、搬迁快递服务、收拾事故现场和救灾等范畴,由机器人来替代人类,完结一些危重作业。一起,大模型、云核算、边际核算等技能相结合,有望大大下降具身智能的研制和使用本钱,这关于机器人工业的推进作用是巨大的,这时候探究和占坑也有其战略意义。

当然,现在就投入具身智能,有没有危险呢?

也是有的。说一个最恐惧的,咱们都知道人工智能工业的开展,是在符号主义和联接主义之间做钟摆运动,假如有一天,钟摆向另一方摇摆,那么现已投入到行为主义这一技能道路的很多商场资源、根底设施出资、人才储藏等,又该何去何从呢?

愈加详细的应战也有不少。

比方数据的应战,具身智能的数据,不同于“坐而论道”的算法,只能从与物理国际的交互中取得,具有很大的隐私性、高本钱、敏感性,不能批量生产,这就对才能优化迭代造成了约束。

再比方,搜集来的数据一般是不能直接拿来练习的,要收拾转换成有意义的语料库,再让大模型学习,这个开发进程是非常繁琐的,又增加了研制的本钱。

此外,广阔用户关于具身智能的机器人的安全性要求非常高,假如家政服务机器人将水倒在了插电孔,机器狗跌倒压住了小朋友,这些毛病都是商业上不可能被承受的,牢靠、可用、可商场化的具身智能,现在看还比较悠远,需求长时间投入。这意味着具身智能现在看来仍然是大厂的游戏。

无论怎么,大模型的遍及,大大加快了具身智能的研制和落地速度。人工智能这个学科诞生以来,人类就期望能像“女娲”相同,创造出和自己相似的通用机器人。具身智能,便是这个愿望的详细承载方法。

今日,咱们总算可以将“具身智能”,作为一个工业风口来想象和完结了,可以见证这件事的产生,现已非常值得人类为之骄傲。