正文

返回 导航

让机器通过游戏进行学习

发布日期:2019-08-16 12:00:01


今天,你AI了没?

关注:九三智能控,每天学点AI干货


 


让孩子们(成人也一样)收拾、整理自己的东西不是件容易的事,但如果让智能机器来做同样的事,则更具挑战性。我们通过让智能机器掌握一系列的视觉运动(Visuo-motor)技能成功的解决了这个问题。这些基本的技能包括:靠近物体、抓住并抬起物体、打开箱子并将物体放入其中,当然这些技能要按正确的顺序应用,才能应对复杂的问题。



控制技术,比如整理桌子或者堆码物品,要求一个机器确定如何、什么时候和在什么位置去定位它的机械臂和手指上的九个自由关节,从而可以正确的移动并抓取物品。在某个特定的时间点,可能的运动组合数量庞大,并且需要执行一系列长时间的正确操作,这构成了一个严重的探索问题 - 使这成为强化学习研究的一个特别有趣的领域。



奖励塑造,学徒学习或示范学习等技巧可以帮助解决勘探问题。 然而,这些方法依赖于相当多的关于任务的知识 - 从头开始学习复杂控制问题的最小知识仍然是一个公开挑战。

我们的新论文提出了一种名为“定时辅助控制(SAC-X)”的新学习范式,旨在克服这一探索问题。 SAC-X基于这样的想法,即要从头学习复杂的任务,代理必须首先学习探索和掌握一套基本技能。 正如婴儿在爬行或走路之前必须发展协调和平衡一样,向具有与简单技能相对应的内部(辅助)目标提供代理的人员可以增加理解和执行更复杂任务的机会。



我们在几种模拟和真实机器人任务中演示了SAC-X方法,这些任务使用各种任务,包括用不同物体堆积问题和“整理操场”(涉及将物体移入盒子)。 


我们定义的辅助任务遵循一个总原则:他们鼓励代理探索其传感器空间。 例如,激活其手指中的触摸传感器,感测其手腕上的力,使其本体感应传感器中的关节角度最大化或强制物体在其视觉相机传感器中的移动。 如果达到目标,每个任务都与一个简单的奖励相关联,否则为零。



然后,我们的代理人可以自行决定其目前的“意图”,即下一步追求哪个目标。这可能是辅助任务或外部定义的目标任务。至关重要的是,代理人可以通过广泛使用基于重播的关闭政策学习来检测并从奖励信号中学习当前未遵循的所有其他任务。


例如,当捡起或移动一个物体时,该物体可能会顺带堆叠物体,导致观察“堆积”的奖励。


因为一系列简单的任务可以导致对罕见的外部奖励的观察,所以排定意图的能力是至关重要的。它可以根据所收集的所有相关知识创建个性化的学习课程。


事实证明,这是在这样一个大领域开发知识的有效方式,并且在只有少量外部回报信号可用时特别有用。我们的代理人通过调度模块决定遵循哪个意图。调度程序在训练过程中通过元学习算法进行了改进,该算法试图使主任务的进度最大化,从而显着提高数据效率。



我们的评估显示,SAC-X能够解决我们从头开始设置的所有任务 - 使用相同的底层辅助任务。 令人兴奋的是,SAC-X还能够在我们实验室的一个真正的机器人手臂上直接从头开始学习拾取和放置任务。 在过去,这一点尤其具有挑战性,因为在真实世界中机器人的学习需要数据效率,所以一种流行的方法是在仿真中预先训练一个代理,然后将代理转移到真正的机器人手臂。


我们认为SAC-X是从头开始学习控制任务的重要一步,只需指定总体目标。SAC-X允许您任意定义辅助任务:它们可以基于一般见解(如故意激活传感器,如此处所述),但最终可以包含研究人员认为重要的任何任务。 在这方面,SAC-X是一种通用的RL方法,广泛适用于除控制和机器人之外的一般稀疏强化学习环境。


微信群&交流合作

点击阅读全文

猜你喜欢