英伟达通过 Eureka 实现机器人灵巧性的重大突破：机器人手能与人类的灵活性相媲美

英伟达研究人员在机器人灵活性方面取得了重大飞跃，这要归功于 Eureka，这是一种人工智能代理，据称可以像人类一样熟练地教机器人复杂的技能，比如转笔技巧。

图源备注：图片由AI生成，图片授权服务商Midjourney

根据上周四发布的一份论文，这项新技术建立在近期对大型语言模型（例如 OpenAI 的 GPT-4）的进展之上。Eureka 利用生成式 AI，自主编写复杂的奖励算法，使机器人能够通过反复试验和强化学习来学习。论文中指出，这种方法已经比人工编写的程序更有效，提高了 50% 以上。

英伟达的官方博客中表示：「Eureka 还教会了四足机器、灵巧机械手、协作机械臂和其他机器人打开抽屉、使用剪刀、接住球以及近 30 项不同的任务。」

Eureka 是英伟达在引导 AI 语言模型方面的最新示范。最近，该公司开源了 SteerLM——一种通过训练 AI 助手获取人类反馈，使其更有帮助性的方法。

与 Eureka 类似，SteerLM 也利用了语言模型的进展，但将其重点放在了不同的挑战上——改善 AI 助手的对齐。SteerLM 通过让助手进行会话练习来进行训练，就像机器人通过实践学习一样。该系统通过乐于助人、幽默和质量等属性对助理的反应提供反馈。

例如，这就像一个机器人从标记为好或坏的视频中学习跳舞，而不是让人类审核成千上万个随机跳舞并选择哪些是好的或不好的（这是典型的 AI 聊天机器人的训练方式）。通过不断练习并获得反馈，助手学会提供适合用户需求的回应。这有助于使 AI 在实际应用中更有益。

共同之处在于创造性地将先进的神经网络应用于新的领域，不论是教机器人还是聊天机器人。英伟达在硬件和软件两方面都在突破界限。

对于 Eureka 来说，关键在于将 Isaac Gym 等模拟技术与语言模型的模式识别能力相结合。Eureka 有效地「学会学习」，在多次训练中优化自己的奖励算法。它甚至接受人类输入以调整奖励。

到目前为止，这种自我改进的方法已被证明具有高度的通用性，可以训练各种类型的机器人——四足、轮式、飞行和灵巧机械手。

英伟达的 Eureka 和 SteerLM 不仅打破了障碍，还向机器人和人工智能传授技巧和富有洞察力的交互艺术。通过每一次挥笔和机智的聊天，他们正在勾勒出一个未来，人工智能不仅会模仿，而且会与我们一起创新。