站長之家(ChinaZ.com) 6月26日消息:機器人正迅速成為我們日常生活的一部分,但它們通常只被編程來完成特定的任務。盡管利用人工智能的最新進展可能會導致機器人在更多方面發(fā)揮幫助作用,但構建通用機器人的進展較慢,部分原因是需要收集現(xiàn)實世界的培訓數(shù)據(jù)。
日前谷歌 DeepMind 最新的論文介紹了一種自我改進的機器人人工智能代理程序,名為 RoboCat,它學習執(zhí)行不同機械臂上的各種任務,然后自動生成新的訓練數(shù)據(jù)來改善其技術。
DeepMind 表示,先前的研究探索了如何開發(fā)能夠按比例學習多項任務并將語言模型的理解能力與協(xié)助機器人的現(xiàn)實能力相結合的機器人。RoboCat 是第一個解決并適應于多個任務,并在不同的真實機器人上完成的代理程序。
(資料圖)
RoboCat 學習速度比其他最先進的模型快得多。它可以通過僅使用 100 個演示來掌握新任務,因為它依靠大量和多樣化的數(shù)據(jù)集。這種能力將有助于加速機器人學研究,因為它減少了人工監(jiān)督培訓的需求,并是創(chuàng)建通用機器人的重要一步。
DeepMind 的研究科學家兼 RoboCat 團隊成員之一的 Alex Lee 在接受 TechCrunch 的電子郵件采訪時表示:「我們證明了一個單一的大型模型可以在多個真實機器人實體上解決各種不同的任務,并能夠快速適應新的任務和實體。」
RoboCat 是受 Gato 啟發(fā)而開發(fā)的,Gato 是 DeepMind 的一個人工智能模型,可以分析和處理文本、圖像和事件。RoboCat 使用在模擬和現(xiàn)實生活中收集的圖像和行動數(shù)據(jù)進行訓練。Lee 表示,這些數(shù)據(jù)來自虛擬環(huán)境中其他控制機器人模型、人類控制機器人以及之前的 RoboCat 模型的組合。
為了訓練 RoboCat,DeepMind 的研究人員首先收集了 100 到 1000 個由人類控制的機器人臂執(zhí)行任務的示范。然后,他們在該任務上對 RoboCat 進行了微調,創(chuàng)建了一個專門的「分支」模型,平均訓練了該任務 1 萬次。
利用分支模型生成的數(shù)據(jù)和示范數(shù)據(jù),研究人員不斷擴充了 RoboCat 的訓練數(shù)據(jù)集,并訓練了后續(xù)的新版本 RoboCat。
RoboCat 的最終版本在模擬和實際世界中的 141 種不同變體的任務集上進行了訓練,總共涵蓋了 253 個任務。DeepMind 聲稱,在觀察了數(shù)小時的人類控制示范后,RoboCat 學會了操作不同的機器人臂。
雖然 RoboCat 在四種帶有雙爪臂的機器人上進行了訓練,但該模型能夠適應一個帶有三指夾爪和兩倍可控輸入的更復雜的臂。
盡管在 DeepMind 的測試中,RoboCat 在不同任務上的成功率差異很大,從最低 13% 到最高 99%。這是在訓練數(shù)據(jù)中有 1000 個示范的情況下;當示范數(shù)量減少一半時,成功率可預見地較低。
然而,在某些場景中,DeepMind 聲稱 RoboCat 只需 100 個示范就能學會新任務。
Lee 補充說:「通過提供有限數(shù)量的示范來進行新任務的微調,RoboCat 可以自動生成更多數(shù)據(jù)以進一步改進。」未來,研究團隊的目標是將 RoboCat 學習完成新任務所需的示范數(shù)量降低到 10 個以下。
閱讀DeepMind在 arXiv 上的論文:https://arxiv.org/abs/2306.11706
(舉報)