“四足蚁人”诞生,可通过强化学习完成指定动作

科学
“四足蚁人”诞生,可通过强化学习完成指定动作
麻省理工科技评论 6小时前

6小时前

RealAnt 是一种低成本的四足机器人,可以通过强化学习来完成指定动作。拥有蚂蚁般灵活四肢的机器人 RealAnt 一经问世,便广受好评。
机器人
RealAnt 是一种低成本的四足机器人,可以通过强化学习来完成指定动作。拥有蚂蚁般灵活四肢的机器人 RealAnt 一经问世,便广受好评。

看过《蚁人》的朋友肯定会为蚁人灵活的身姿和矫捷的身手所折服。

现如今,虽然你成为不了蚁人,却有机会拥有一位 “类蚁人” 朋友 —— 四足机器人 RealAnt。RealAnt 是一种低成本的四足机器人,可以通过强化学习来完成指定动作。拥有蚂蚁般灵活四肢的机器人 RealAnt 一经问世,便广受好评。

“四足蚁人”诞生,可通过强化学习完成指定动作

“四足蚁人”诞生,可通过强化学习完成指定动作

在过去的十几年里,机器人学家和计算机学家们试图利用强化学习(RL)的方法来训练机器人有效地导航和完成各种基本任务。然而,到目前为止,制作一个能够支持 RL 算法且大众负担得起的机器人仍相当具有挑战性。

令人兴奋的是,最近研究人员发明了一种四腿机器人,并用它来实现一种低成本的机器人算法。在 arXiv 上发表的一篇论文中提出了相关的新型机器人平台,这是一个简单且价格合理的真实世界版 “蚂蚁” 机器人模拟环境,通常被用于 RL 研究。

“四足蚁人”诞生,可通过强化学习完成指定动作

“四足蚁人”诞生,可通过强化学习完成指定动作

Ote 机器人公司的 RealAnt 机器人平台是为实现现实世界中的强化学习而研究和开发的。其拥有完整的解决方案,并有网络摄像机为基础的跟踪系统。

“我们工作的最初灵感来自 RL 研究,该研究成功地证明了在仿蚂蚁以及仿人机器人上,可以通过强化学习从零开始学会走路。”Ote Robotics 的联合创始人 Jussi Sainio 表示,算法的基本前提是编程,目的是使机器人完成任务的过程变得更容易、更自然,通过确定可用的传感器测量值、运动动作设定目标,并将它们全部插入强化学习算法,该算法就能解决其余问题。

降低训练成本的高效率四足机器人亟待开发

一般来说,大多数机器人的研究是利用昂贵的设备进行的,花费高达数千美元,并不是所有研究人员都负担得起。与此同时,传统的控制算法需要易于实现的精确硬件模特,这使得机器人在设计上面临诸多限制。而强化学习算法能够在不建立动力学模型的情况下学习控制器,还可以处理噪声的观测和控制,优势有目共睹。

近年来,强化学习领域取得了显著的进展,在解决具有挑战的控制问题方面取得了许多成功。这很大程度上取决于模拟器可以用快速测试算法性能。然而,模拟器也有弊端,其常常会对世界做出不切实际的假设。为了减少因误判而付出的无用劳动,研究人员们需要一种将强化学习的发展建立在现实世界的问题上的方法。

Sainio 认为,与模拟器环境相比,没有一个完整的软件和硬件组合可以从现实世界的强化学习开始。因此,他们开始构建自己的机器人和接口软件原型。

基于此,Sainio 和他同事们工作的主要目标是基于现有的基线 RL 解决方案创建一个简单而低成本的机器人平台。这样一个平台将允许更多的研究人员建造和测试能够在现实世界中完成各种基本任务的自主机器人。

经过不断探索,Ote 机器人公司开发了一个最小的低成本四足机器人 ——RealAnt 以及一个物理版本的基准测试平台。

“四足蚁人”诞生,可通过强化学习完成指定动作

RealAnt 的优点是显而易见的,它功能齐全、简约、成本低廉。此外,它可以自主学习走路,协调地移动腿,并能在给定的环境中感知自己的位置和方向。利用 RL 算法,可以训练它像真正的蚂蚁那样行动,从而执行各种简单而有价值的任务。

最初,RL 算法只有在机器人模拟训练数千小时后才能表现良好。然而,通过计算机科学家的努力,已经能够用很少的训练数据来教蚂蚁四足机器人 RealAnt 学会行走,从而达到了高样本效率。这使得在现实世界中直接训练机器人成为可能,消除了基于仿真的训练需求成本。

“四足蚁人”诞生,可通过强化学习完成指定动作

图 | 噪声对降低学习效率的观测

研究人员们是通过强化学习实验一步步验证了自己创建的机器人平台,并同时提供了一组基准任务的基线结果。通过实验,他们证明了运用 TD3 算法可以从不到 45 分钟的经验中学会行走实相。他们在 MuJoCo 和 PyBullet 中提供了机器人的模拟器版本(具有相同的尺寸、状态动作空间和延迟噪声观测)。

“四足蚁人”诞生,可通过强化学习完成指定动作

绘制每个任务三次运行的平均值和标准差,TD3 能够在 40 分钟内学会所有任务。

实验中考虑进了三个基准任务:

麻省理工科技评论

From Tech to Deeptech