循环中的人类帮助机器人找到自己的方式
这种称为“黑暗中的贝叶斯学习”(简称BLIND)的策略是针对机器人长期存在的运动规划问题的一种新颖解决方案,这些机器人在并非所有东西都始终可见的环境中工作。
该研究表明,该算法主要由与Kavraki合作的研究生Quintero-Peña和Chamzas开发,让人类参与其中,以“增强机器人的感知能力,更重要的是,防止执行不安全的动作”。
为此,他们将贝叶斯逆强化学习(系统通过不断更新的信息和经验进行学习)与已建立的运动规划技术相结合,以帮助机器人实现“高自由度”——即大量运动部件。
莱斯大学计算机科学家为这个Fetch机器人设定的任务通过他们的BLIND软件变得更加容易,当障碍物阻挡机器人的路径时允许人工干预。研究人员表示,让人类参与其中可以增强机器人的感知能力并防止执行不安全的动作。由Kavraki实验室提供
为了测试BLIND,Rice实验室指示一个Fetch机器人(一个具有七个关节的关节臂)从桌子上抓取一个小圆柱体并将其移动到另一个圆柱体上,但在这样做时,它必须越过障碍物。
“如果你有更多的关节,对机器人的指令就会很复杂,”Quintero-Peña说。“如果你在指挥一个人,你可以说,‘举起你的手。’”
但是机器人的程序员必须具体了解每个关节在其轨迹中每个点的运动,尤其是当障碍物挡住机器对其目标的“视野”时。
BLIND不是预先编写轨迹,而是插入一个人工中间过程来完善机器人算法建议的编排选项——或最佳猜测。Quintero-Peña说:“BLIND使我们能够获取人类头脑中的信息并计算我们在这个高度自由空间中的轨迹。”
“我们使用一种称为批评的特定反馈,基本上是一种二元形式的反馈,其中人类在轨迹的片段上被赋予标签,”他说。
这些标签显示为连接的绿点,代表可能的路径。当BLIND从一个点到另一个点时,人类批准或拒绝每个动作以优化路径,尽可能有效地避开障碍物。
“这是一个供人们使用的简单界面,因为我们可以说,'我喜欢这个或'我不喜欢那个',并且机器人使用这些信息进行计划,”Chamzas说。他说,一旦获得一组经过批准的动作奖励,机器人就可以执行其任务。
“这里最重要的事情之一是人类的偏好很难用数学公式来描述,”Quintero-Peña说。“我们的工作通过结合人类偏好来简化人机关系。这就是我认为应用程序将从这项工作中获得最大收益的方式。”
“这项工作很好地说明了一点点但有针对性的人工干预可以显着提高机器人在机器人完全不知道但人类知道的环境中执行复杂任务的能力,”机器人先驱Kavraki说。简历包括在国际空间站上为NASA的人形机器人Robonaut进行的高级编程。
“它展示了人机交互方法、我的同事Unhelkar教授的研究课题以及我实验室多年来开创的自动化规划如何融合以提供尊重人类偏好的可靠解决方案。”
莱斯大学本科校友ZhanyiSun和计算机科学助理教授Unhelkar是该论文的共同作者。Kavraki是诺亚哈丁计算机科学教授和生物工程、电气和计算机工程以及机械工程教授,以及肯肯尼迪研究所所长。