加入时间:2024-02-09 14:07 访问量:1954 信息来源: 海外星云 2024年1期
如何让机器人更聪明地自主学习,是当前研究人员探究的重点方向。
为了教会人工智能一项新任务,例如如何打开厨柜,研究人员通常会使用强化学习方法,即一种试错过程,在这个过程中,如果人工智能采取的行动使其更接近目标,就会得到奖励。
在许多情况下,人类专家必须精心设计一个奖励函数,这是一种激励机制,可以激发人工智能进行探索。当人工智能探索并尝试不同的行动时,人类专家必须反复更新奖励函数。这可能会耗费大量时间,效率低下,而且难以扩大规模,尤其是当任务复杂且涉及许多步骤时更是如此。
美国麻省理工学院、哈佛大学和华盛顿大学的研究人员开发的一种新型强化学习方法一一人类引导探索(HuGE),利用众包反馈来高效地教授人工智能复杂的任务,在模拟和实际应用中都显示出良好的效果。
“HuGE”使人工智能能够在人类的帮助下快速学习,即使人类犯了错误。此外,这种新方法允许异步收集反馈,因此世界各地的非专业用户都能为人工智能的教学作出贡献。
研究人员将机器训练过程分解为两个独立部分,每个部分都由独立的算法控制。一方面,目標选择器算法会根据众包反馈不断更新,非专家人员的反馈起到辅助引导作用;另一方面,智能体会在指导下以自我监督的方式自行探索,这种探索可以自主循环式进行。这样一来,即使非专家用户有时反馈的信息不准确(数据噪声),也不会造成太大影响,智能体最终还是可以完成学习任务。
原理提出后,有人表示疑惑,“HuGE”训练方法是否真的能帮助智能体提高学习效率呢?
研究人员在一些模拟任务和实际任务中测试了这种方法。在模拟任务中,他们使用“HuGE”有效地学习了具有较长操作序列的任务,例如按照特定顺序堆叠积木或在大型迷宫中导航。
在真实世界的测试中,他们利用“HuGE”训练机械臂绘制字母U,以及取放物品。在这些测试中,他们从横跨三大洲13个不同国家的109位非专家用户那里获得了众包数据。
在真实世界和模拟实验中,“HuGE”比其他方法更快地帮助机器人学会实现目标。
研究人员还发现,与研究人员制作和标注的合成数据相比,从非专家那里众包的数据性能更好。对于非专业用户来说,标注30张图片或视频所需的时间不到两分钟。
研究人员发表了一篇相关论文,他们对“HuGE”进行了改进,使人工智能能够学会执行任务,然后自主重置环境继续学习。例如,如果人工智能学会了打开橱柜,该方法也会引导人工智能关闭橱柜。
研究人员表示,“未来,这种方法可以帮助机器人快速学习在用户家中执行特定任务,而无需主人向机器人展示每个任务的物理示例。机器人可以自行探索,并通过众包的非专家反馈来指导其探索。”
研究人员还强调,在这种学习方法和其他学习方法中,确保智能体与人类价值观保持一致至关重要。他们表示,“下一阶段将继续完善‘HuGE’,以便智能体可以从其他形式的通信中学习,例如自然语言和与机器人的物理交互。也有兴趣应用这种方法来同时教授多个智能体。”
未来,他们希望继续改进“HuGE”,使人工智能能够从其他形式的交流中学习,如自然语言和与机器人的身体互动。他们还有兴趣将这种方法用于同时教授多个人工智能机器人。