被踹翻后秒速爬起!浙大机器狗“绝影”展现新绝技,在陌生环境下八技合一、随机应变 | 专访

机器人
被踹翻后秒速爬起!浙大机器狗“绝影”展现新绝技,在陌生环境下八技合一、随机应变 | 专访
麻省理工科技评论 2020-12-24

2020-12-24

随机应变,摸爬滚打。
机器人 科学
随机应变,摸爬滚打。

对于一只自然界的动物来说,在各种陌生环境下灵活切换相应的运动技能,似乎是一种条件反射和先天本领,但如何让机器人掌握这种能力,却非常具有挑战性,这也是全球机器人专家们长期探索的课题。

2020 年 12 月,一项由华人科学家团队合作完成的机器人创新成果,当选为 Science Robotics 杂志的月度封面论文,研究人员来自英国爱丁堡大学先进智能机器人实验室与浙江大学朱秋国教授带领的机器人团队。

基于四足机器人,科研人员提出了一种多专家学习框架,让机器人具备了应对各种意外情况的自主能力,并在运动响应敏捷度和灵活度方面表现优异。

图|封面论文(来源:Science Robotics)

本项研究中使用的四足机器人,即是被称为中国版波士顿动力的 “绝影” 机器人,DeepTech 此前曾对该机器人进行过专访报道:《浙大机器狗 “绝影” 的逆袭,从技术上 “被虐” 到应用上追赶|独家专访》。

关于本期封面论文的算法特点和贡献,DeepTech 联系到论文的通讯作者李智彬进行了一番交流。

让机器狗“集各家之长于一身”

李智彬目前是爱丁堡大学信息学院的助理教授,领衔先进智能机器人实验室(主页见文末)。他的研究方向包括机器人动态运动控制、实现(超)人类级别的机器人自主移动、多臂协调和抓取操作等,同时在机器人硬件平台、力和柔顺控制等领域也有丰富经验。

据他介绍,机器人在实际应用中通常会面临两种挑战:一是在任务层,二是在算法方面。

首先,传统方法中,机器人要去执行某种任务,需要算法工程师、程序员们对其进行编程,一般而言都是针对某一个具体任务来编程。这种方法无疑存在短板,比如说野外救灾或是地震现场搜救工作中,机器人所处的环境将会非常复杂,地面可能有障碍物阻拦、崎岖不平、打滑问题,机器人也会出现各种摔倒和其他意外情况。

如果出现 100 种或者 1000 种不同的情况,还要去执行多项任务,用传统方法去编程是非常难涵盖的,其量级也不可扩展,开发人员不可能 “先知先觉” 预先编程出所有的特定解决方案。因此,这就需要机器人在一个全新的环境下,自主决定应该怎么去做才能完成任务。

其次,机器人遇到新的情况需要随机应变,灵活应付。此前的很多研究中,几乎都是把机器人的单项技能训练做得很好,比如走路、奔跑、故障恢复等,但在演示中,有时候还需要操作员拿着遥控器根据机器人当时所处的情况去切换模式和操作,这让实用性大打折扣。

而本次研究中提出的多专家系统,相当于每个 “专家” 都训练了一种基本技能,比如说走路、故障恢复、摔倒爬起等,单项技能学会之后,然后让不同 “专家” 组队一起训练,通过一个门控神经网络,在不同事件、不同情况下去激活调度每个专家,让他们综合形成不同的协调组合,进而克服不同问题。

通过这样的技能加持,四足机器人 “绝影” 在没有导航的情况下,能自动执行在楼梯、砾石堆、崎岖路面上进行连贯的小跑、转向,乃至在被人踹倒、被推翻的情况下也能迅速恢复正常姿态。

“最后形成的那个综合‘专家’,相当于是集各家之长于一身,懂得融会贯通,这就让机器人具备了在当时那种特定情况下所需要的技能组合,而且能够根据不同情况千变万化、举一反三,去自主恢复继续执行任务。” 李智彬说道。

机器人摸爬滚打的能力有了怎样的提升?请看以下效果:

8 项“专家技能”融会贯通,关键恢复能力控制在 1 秒内

详细来讲,论文中提到的多专家学习体系结构被命名为 MELA(multi-expert learning architecture),这是一个由深度神经网络(DNN)和门控神经网络(GNN)组成的分层强化学习(HRL)结构。

为了帮助解释,研究人员定义了几个关键术语:运动技能、专家和运动模式。

运动技能:即一种反馈策略,可以产生协调的动作来完成特定类型的任务,这是构建更复杂动作的基础;专家:具有专业运动技能的 DNN;运动模式:四肢协调运动的一种模式,如站立、原地转动、向前 / 向后小跑、左右转向、跌倒恢复等。

图|不同的技能种类(来源:Science Robotics)

研究人员为机器人训练了 8 项运动技能,包括:(1)从背部翻身;(2)侧滚;(3)身体姿势控制;(4)站立平衡;(5)左转;(6)右转;(7)小步小跑;(8)大步小跑。

不同的技能需要不同的触发方式,而把 “八技” 融会贯通是 MELA 合成可变技能和产生适应性行为的基础。

面对不同情况下,GNN 生成可变权重(α)来融合所有八个专家网络的参数,这样新合成的运动技能可以通过混合各个专家的有效技能,快速生成不同的运动技能,来适应各种未知场景。

图|多专家学习框架 MELA 的原理(来源:Science Robotics)

实验结果表明,依靠 MELA 输出的融合技能加持,“绝影” 机器人的关键恢复能力控制在 1 秒内(恢复身体姿态平均 0.5s,恢复小跑模式平均 0.4s),也显示出了在非结构化环境下更强的可靠性和通障性能。

还有一个值得关注诀窍是,研究人员从生物运动控制中汲取了灵感,这让运动控制和学习框架更加贴近真实的四足动物。

例如,动物的运动行为都是受中枢神经系统控制的,中枢神经系统会重新设置身体关节的参考位置,根据参考位置与实际位置之间的差异,激发肌肉活动以产生适当的力进行姿态调整。

由于阻抗控制提供的弹簧阻尼特性类似于生物肌肉的弹性,因此研究团队应用了平衡点(EP)控制假设,通过调控平衡点来生成关节扭矩。

受肌肉系统的生物力学控制和 EP 假设的启发,研究人员其实将机器人控制分为了两层:在底层,团队使用扭矩控制为机器人配置关节阻抗模式;在顶层,指定深度神经网络(DNN)为所有关节产生设定平衡点,以调节姿势和关节扭矩,建立与环境的力相互作用,在这样的基础上,MELA 可输出更加贴近真实四足动物的运动策略。

图|机器狗的摔倒爬起连贯反应(来源:爱丁堡 Advanced Intelligent Robotics Lab)

下一步,仍需更多跨界合作

“这样的多专家系统、多技能融合框架,让机器人可以自主切换运动策略、自己去适应环境,在足式机器人上算是第一次应用,这也是为什么这项成果能被 Science Robotics 评为封面,至少它实现了一种质的突破,较此前研究形成了一个代差。” 李智彬表示。

据了解,这种多专家融合技能的思路,也能够延伸到其他机器人平台上。包括各类四足、双足机器人,以及轮式的、履带式的机器人,乃至在机器人进行抓取操作上也可以应用。机器抓取不同的东西的策略是不一样的,本质也就是不同专家的技能延展,无论是抓纸张、书本、杯子,还是光溜溜的肥皂、球体、软硬不同的物体等,其实都需要不同的专家技能策略。

关于进一步改进和提升的空间,他表示,仍需要和圈内更多优秀团队一起合作探索,才能不断突破,未来的研究可以集成视觉、触觉传感等,以开发多感知型运动技能。

例如,对于机器人本身而言,现在普遍还缺少一种 “电子皮肤”。

目前机器人机载的传感器对各种情况判断,很大程度上都要通过大量的训练经验积攒起来,由于机载传感器有限,很多经验只是统计学上来讲是对的,但它针对某个特殊情况却不一定是最好的,只能说有较高的成功率。

但在自然界的生物中,小到毛毛虫、蠕虫,大到各类动物、人类全都是有皮肤的,如果机器人在废墟现场要钻进去一个洞,进去之后身边的环境是怎样的,怎么通过,障碍物与机身表面是怎么接触的,如此复杂的环境下现有的传统传感器就不够用了,需要 “电子皮肤” 更加精细化地感知区分。

另一方面,机器人对外部的感知理解能力仍然有待提高。

比如一个雾蒙蒙的环境,是因为有雾,还是因为燃烧引起的烟,单纯用计算机视觉来看,不一定能区分清楚;再比如机器人从室内走到室外,外面是一个零下的无雪环境,在机器视觉看来地面可能与平常无异,雷达也探测不到障碍物,但这种情况下人类走路、开车会下意识地注意路面可能会打滑,机器人却还不能意识到这点调整策略,这些 “非接触式” 的外部传感包括辐射、温度、气体检测等也都非常关键。

“目前这项研究背后只有两个专家团队,但机器人研究不能闭门造车。就像机器人现在都具备了多专家能力一样,我们非常欢迎和更多跨学科、跨领域的团队一起合作,碰撞出更多创新想法和可能性。” 李智彬最后说道。

麻省理工科技评论

From Tech to Deeptech