新系统以人工智能为动力，使人机交流更加无缝-飞鱼博客

　　这个黑黄相间的机器人，看起来像一只大狗，站在那里等待指示。当他们来的时候，指令不是用代码写的，而是用简单的英语写的:“访问木制办公桌两次;另外，不要去书架前的木桌。”

　　四条金属腿呼呼地动起来。机器人从它站在房间里的地方走到附近的一个书架上，然后，在短暂的停顿之后，拖着脚步走到指定的木桌前，然后离开，再回来进行第二次访问，以满足命令。

　　直到最近，这样的练习对于像这样的导航机器人来说几乎是不可能完成的。目前大多数用于导航机器人的软件都不能可靠地从英语或任何日常语言转换为机器人能够理解和执行的数学语言。

　　当软件必须根据复杂或表达性的指示(例如在木桌之前去书架)进行逻辑跳跃时，这就变得更加困难了，因为传统上这需要数千小时的数据训练，以便它知道机器人在遇到特定类型的命令时应该做什么。

　　然而，基于人工智能的所谓大型语言模型的进步正在改变这种状况。赋予机器人新的理解和推理能力不仅有助于实现这样的实验，而且让计算机科学家兴奋地将这种成功转移到实验室之外的环境中，比如人们的家和世界各地的主要城镇。

　　在过去的一年里，布朗大学人类与机器人实验室的研究人员一直在研究一个具有这种潜力的系统，并将在11月8日在亚特兰大举行的机器人学习会议上发表的一篇新论文中分享。

　　科学家们说，这项研究标志着对人类与机器人之间更无缝的沟通做出了重要贡献，因为人类彼此之间的自然沟通方式有时令人费解，在向机器人表达时往往会造成问题，往往导致错误的行动或长期的计划滞后。

　　“在论文中，我们特别考虑了在环境中移动的移动机器人，”布朗大学计算机科学教授、这项新研究的资深作者斯蒂芬妮·泰勒斯(Stefanie Tellex)说。“我们想要一种方法，把人们可能会对机器人说的复杂、具体和抽象的英语指令与机器人的行为联系起来，比如在普罗维登斯的塞耶街(Thayer Street)和咖啡店见面，但要避开CVS，首先要去银行。”

　　这篇论文描述了该团队的新系统和软件是如何通过使用人工智能语言模型(类似于ChatGPT等聊天机器人的语言模型)来实现这一目标的，该模型设计了一种创新的方法，可以划分和分解指令，从而消除对训练数据的需求。

　　它还解释了该软件是如何为导航机器人提供强大的基础工具的，该工具不仅能够接受自然语言命令并生成行为，而且还能够根据简单的指令上下文以及机器人能做什么或不能做什么以及以什么顺序计算机器人可能需要进行的逻辑跳跃。

　　泰勒斯说:“未来，这将应用于在我们城市中移动的移动机器人，无论是无人机、自动驾驶汽车还是运送包裹的地面车辆。”“任何时候你需要和机器人说话，告诉它做什么，你都能做到这一点，并给它非常丰富、详细、精确的指令。”

　　Tellex表示，新系统具有理解表达性和丰富语言的能力，代表了迄今为止发布的最强大的语言理解系统之一，因为它基本上可以在不需要训练数据的情况下开始在机器人中工作。

　　传统上，如果开发者想让机器人在波士顿规划并完成路线，例如，他们必须收集人们在城市中给出指示的不同例子——比如“穿过波士顿公园，但要避开青蛙池塘”——这样系统就知道这意味着什么，并能计算出它给机器人。如果他们想让机器人在纽约市导航，他们必须重新进行训练。

　　研究人员在该系统中发现了新的复杂程度，这意味着它可以在任何新环境中运行，而无需经过长时间的训练。相反，它只需要一张详细的环境地图。

　　布朗大学泰利克斯实验室的博士后研究员安基特·沙阿(Ankit Shah)说:“我们基本上是从语言转向机器人的动作。”

　　为了测试该系统，研究人员使用OpenStreetMap在21个城市进行了软件模拟。仿真结果表明，该系统的准确率为80%。这个数字比其他类似的系统要精确得多，研究人员说，其他系统的准确率只有20%左右，而且只能计算简单的航路点导航，比如从A点到B点。这样的系统也不能考虑约束因素，比如需要避开一个区域，或者在到达A点或B点之前必须再去一个地方。

　　除了模拟之外，研究人员还在布朗大学校园的室内使用波士顿动力公司的Spot机器人测试了他们的系统。总的来说，这个项目为Tellex在布朗大学的实验室所做的一系列影响深远的研究增加了一笔，这些研究包括让机器人更好地遵循口头指令，提高机器人取物能力的算法，以及帮助机器人像人一样写字的软件。

　　这项研究的主要作者杰森·辛宇(Jason Xinyu)是布朗大学计算机科学博士生，与Tellex合作。他说，这款名为Lang2LTL的新软件的成功在于它的工作方式。为了证明这一点，他举了一个例子，一个用户告诉无人机去主街上的“商店”，但必须先去“银行”。

　　他解释说，首先，这两个地点被撤出。然后，语言模型开始将这些抽象位置与模型所知道的机器人环境中的特定位置相匹配。它还分析位置上可用的元数据，例如它们的地址或它们是什么类型的商店，以帮助系统做出决策。

　　在这种情况下，附近有几家商店，但只有一家在主街上，所以系统知道要进行跳跃，“商店”是沃尔玛，“银行”是大通。然后语言模型完成将命令翻译成线性时间逻辑，线性时间逻辑是表示这些命令的数学代码和符号。然后，系统将现在绘制的位置输入到它已经创建的公式中，告诉机器人去A点，但只能在B点之后。

　　“从本质上讲，我们的系统使用其模块化系统设计和大型语言模型，预先训练了互联网规模的数据，以处理更复杂的定向和基于线性的自然语言命令，这些命令具有不同类型的约束，这是以前机器人系统无法理解的，”Xinyu说。“以前的系统无法处理这个问题，因为它们的设计方式阻碍了它们一次性完成这个过程。”

　　研究人员已经在考虑这个项目的下一步。

　　他们计划于11月在项目网站上发布一个基于OpenStreetMaps的模拟系统，用户可以在那里亲自测试这个系统。网络浏览器的演示将允许用户输入自然语言命令，指示模拟中的无人机执行导航命令，让研究人员研究他们的软件如何进行微调。不久之后，该团队希望在软件中添加对象操作功能。

　　“这项工作是我们未来可以做的很多工作的基础，”欣宇说。

　　更多信息:论文:openreview.net/forum?id=rpWi4SYGXj

　　GitHub: github.com/h2r/Lang2LTL由布朗大学提供引文:由人工智能驱动，新系统使人机通信更加无缝(2023,11月6日)检索自https://techxplore.com/news/2023-11-powered-ai-human-to-robot-communication-seamless.html本文受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。内容仅供参考之用。

打赏赞

新系统以人工智能为动力，使人机交流更加无缝

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

相关推荐

热门推荐

回顶部

简繁切换

加入会员