文章來源:機(jī)器之心
圖片來源:由無界 AI生成
過去一年中,連連取得突破的大模型正在重塑機(jī)器人研究領(lǐng)域。
在最先進(jìn)的大模型成為具身機(jī)器人感知世界的「大腦」之后,機(jī)器人的進(jìn)化速度取得了遠(yuǎn)超想象的進(jìn)步。
7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一個(gè)控制機(jī)器人的視覺 - 語言 - 動(dòng)作(VLA)模型。
只需要向?qū)υ捯粯酉逻_(dá)命令,它就能在一堆圖片中辨認(rèn)出霉霉,送給她一罐「快樂水」。
甚至能主動(dòng)思考,完成了從「選擇滅絕的動(dòng)物」到抓取桌子上的塑料恐龍這種多階段推理的飛躍。
在 RT-2 之后,谷歌 DeepMind 又提出了 Q-Transformer,機(jī)器人界也有了自己的 Transformer 。Q-Transformer 使得機(jī)器人突破了對高質(zhì)量的演示數(shù)據(jù)的依賴,更擅長依靠自主「思考」來積累經(jīng)驗(yàn)。
RT-2 發(fā)布僅兩個(gè)月,又迎來了機(jī)器人的 ImageNet 時(shí)刻。谷歌 DeepMind 聯(lián)合其他機(jī)構(gòu)推出了 Open X-Embodiment 數(shù)據(jù)集,改變了以往需要針對每個(gè)任務(wù)、機(jī)器人具體定制模型的方法,將各種機(jī)器人學(xué)的知識結(jié)合起來,創(chuàng)造出了一種訓(xùn)練通用機(jī)器人的新思路。
想象一下,只需向你的機(jī)器人小助理發(fā)出「為我打掃房子」或「為我們做一頓美味健康的飯菜」等簡單的要求,它們就可以完成這些工作。打掃房間或做飯這種任務(wù),對于人類來說很簡單,但對于機(jī)器人來說,可真不容易,需要它們對世界有深度理解。
基于在機(jī)器人 Transformer 領(lǐng)域深耕多年的研究基礎(chǔ), 近期,谷歌宣布了一系列機(jī)器人研究進(jìn)展:AutoRT、SARA-RT 和 RT-Trajectory,它們能夠幫助機(jī)器人更快地做出決策,更好地理解它們身處于怎樣的環(huán)境,更好地指導(dǎo)自己完成任務(wù)。
谷歌相信隨著 AutoRT、SARA-RT 和 RT-Trajectory 等研究成果的推出,能為現(xiàn)實(shí)的世界機(jī)器人的數(shù)據(jù)收集、速度和泛化能力帶來增益。
接下來,讓我們回顧一下這幾項(xiàng)重要研究。
AutoRT:利用大型模型更好地訓(xùn)練機(jī)器人
AutoRT 結(jié)合了大型基礎(chǔ)模型(如大型語言模型(LLM)或視覺語言模型(VLM))和機(jī)器人控制模型(RT-1 或 RT-2),創(chuàng)建了一個(gè)可以在新環(huán)境中部署機(jī)器人用以收集訓(xùn)練數(shù)據(jù)的系統(tǒng)。AutoRT 可以同時(shí)指導(dǎo)多個(gè)配備了視頻攝像機(jī)和末端執(zhí)行器的機(jī)器人,在各種各樣環(huán)境中執(zhí)行多樣化的任務(wù)。
具體來說,每個(gè)機(jī)器人將根據(jù) AutoRT,使用視覺語言模型(VLM)來「看看四周」,了解其環(huán)境和視線內(nèi)的物體。接下來,大型語言模型會為其提出一系列創(chuàng)造性任務(wù),例如「將零食放在桌子上」,并扮演決策者的角色,為機(jī)器人選擇需要執(zhí)行的任務(wù)。
研究人員在現(xiàn)實(shí)世界中對 AutoRT 進(jìn)行了長達(dá)七個(gè)月的廣泛評估。實(shí)驗(yàn)證明,AutoRT 系統(tǒng)能夠同時(shí)安全地協(xié)調(diào)多達(dá) 20 個(gè)機(jī)器人,最多時(shí)共能協(xié)調(diào) 52 個(gè)機(jī)器人。通過指導(dǎo)機(jī)器人在各種辦公樓內(nèi)執(zhí)行各種任務(wù),研究人員收集了涵蓋 77,000 個(gè)機(jī)器人試驗(yàn),6,650 個(gè)獨(dú)特任務(wù)的多樣化數(shù)據(jù)集。
上圖呈現(xiàn)了 AutoRT 系統(tǒng)的運(yùn)作過程:(1)自主輪式機(jī)器人找到了一個(gè)有多個(gè)物體的位置。(2)VLM 向 LLM 描述場景和物體。(3)LLM 為機(jī)器人提出各種操作任務(wù),并決定哪些任務(wù)機(jī)器人可以獨(dú)立完成,哪些任務(wù)需要人類遠(yuǎn)程控制,哪些任務(wù)不可能完成,然后做出選擇。(4)機(jī)器人嘗試選擇要做的任務(wù),收集實(shí)驗(yàn)數(shù)據(jù),并對數(shù)據(jù)的多樣性和新鮮度進(jìn)行評分。機(jī)器人將不斷重復(fù)這個(gè)過程。
AutoRT 具有利用大型基礎(chǔ)模型的潛力,這對于機(jī)器人理解實(shí)際應(yīng)用中的人類指令至關(guān)重要。通過收集更全面的實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)和更多樣化的數(shù)據(jù),AutoRT 能夠擴(kuò)展機(jī)器人的學(xué)習(xí)能力,為現(xiàn)實(shí)世界的機(jī)器人訓(xùn)練帶來提升。
在機(jī)器人融入我們的日常生活之前,需要保證它們的安全性,這要求研究者做到負(fù)責(zé)任地開發(fā),并對機(jī)器人的安全性進(jìn)行深度研究。
雖然 AutoRT 現(xiàn)在只是一個(gè)數(shù)據(jù)收集系統(tǒng),但可以將其視為現(xiàn)實(shí)世界中自主機(jī)器人的早期階段。它具有安全護(hù)欄,其中一項(xiàng)是一套以安全為重點(diǎn)的提示詞,它能夠在機(jī)器人執(zhí)行基于 LLM 的決策時(shí)提供需要遵守的基本規(guī)則。
這些規(guī)則部分受到艾薩克?阿西莫夫的機(jī)器人三定律的啟發(fā),其中最重要的是機(jī)器人「不得傷害人類」。安全規(guī)則還要求機(jī)器人不得嘗試涉及人類、動(dòng)物、尖銳物體或電器的任務(wù)。
僅在提示詞方面下功夫,也無法完全保證機(jī)器人實(shí)際應(yīng)用中的安全問題。因此,AutoRT 系統(tǒng)還包含實(shí)用安全措施層這一機(jī)器人技術(shù)的經(jīng)典設(shè)計(jì)。例如,協(xié)作機(jī)器人的程序被設(shè)定為如果其關(guān)節(jié)上的力超過給定閾值,則自動(dòng)停止,并且所有自主控制的機(jī)器人都能夠通過物理停用開關(guān)被限制在人類監(jiān)督員的視線范圍內(nèi)。
SARA-RT:讓機(jī)器人 Transformer(RT)變得更快、更精簡
另一項(xiàng)成果 SARA-RT,可將機(jī)器人 Transformer(RT)模型轉(zhuǎn)換為更高效的版本。
谷歌團(tuán)隊(duì)開發(fā)的 RT 神經(jīng)網(wǎng)絡(luò)架構(gòu)已被用于最新的機(jī)器人控制系統(tǒng),包括 RT-2 模型。最好的 SARA-RT-2 模型在獲得簡短的圖像歷史記錄后,比 RT-2 模型的精確度高 10.6%,速度快 14%。谷歌表示,這是首個(gè)在不降低質(zhì)量的情況下提高計(jì)算能力的可擴(kuò)展注意力機(jī)制。
雖然 Transformer 功能強(qiáng)大,但它們可能會受到計(jì)算需求的限制,從而減慢決策速度。Transformer 主要依賴于二次復(fù)雜度的注意力模塊。這意味著,如果 RT 模型的輸入增加一倍(例如,為機(jī)器人提供更多或更高分辨率的傳感器),處理該輸入所需的計(jì)算資源就會增加四倍,從而導(dǎo)致決策速度減慢。
SARA-RT 采用了一種新穎的模型微調(diào)方法(稱為「向上訓(xùn)練」)來提高模型的效率。向上訓(xùn)練將二次復(fù)雜性轉(zhuǎn)換為單純的線性復(fù)雜性,從而大幅降低了計(jì)算要求。這種轉(zhuǎn)換不僅能提高原始模型的速度,還能保持其質(zhì)量。
谷歌希望許多研究人員和從業(yè)人員能將這一實(shí)用系統(tǒng)應(yīng)用于機(jī)器人技術(shù)及其他領(lǐng)域。由于 SARA 提供了加快 Transformer 速度的通用方法,無需進(jìn)行計(jì)算成本高昂的預(yù)訓(xùn)練,因此這種方法具有大規(guī)模推廣 Transformer 技術(shù)的潛力。SARA-RT 不需要任何額外的代碼,因?yàn)榭梢允褂酶鞣N開源的線性變體。
當(dāng) SARA-RT 應(yīng)用于擁有數(shù)十億個(gè)參數(shù)的 SOTA RT-2 模型,它能在各種機(jī)器人任務(wù)中實(shí)現(xiàn)更快的決策和更好的性能:
用于操縱任務(wù)的 SARA-RT-2 模型。機(jī)器人的動(dòng)作以圖像和文本指令為條件。
憑借其堅(jiān)實(shí)的理論基礎(chǔ),SARA-RT 可應(yīng)用于各種 Transformer 模型。例如,將 SARA-RT 應(yīng)用于點(diǎn)云 Transformer(用于處理來自機(jī)器人深度攝像頭的空間數(shù)據(jù)),其速度能夠提高一倍以上。
RT-Trajectory:幫助機(jī)器人泛化
人類可以直觀地理解、學(xué)會如何擦桌子,但機(jī)器人需要許多可能的方式將指令轉(zhuǎn)化為實(shí)際的物理動(dòng)作。
傳統(tǒng)上,對機(jī)械臂的訓(xùn)練依賴于將抽象的自然語言(擦桌子)映射到具體的動(dòng)作(關(guān)閉抓手、向左移動(dòng)、向右移動(dòng)),這使得模型很難推廣到新任務(wù)中。與此相反,RT - 軌跡模型通過解釋具體的機(jī)器人動(dòng)作(如視頻或草圖中的動(dòng)作),使 RT 模型能夠理解 「如何完成」任務(wù)。
RT-Trajectory 模型能自動(dòng)添加視覺輪廓,描述訓(xùn)練視頻中的機(jī)器人動(dòng)作。RT-Trajectory 將訓(xùn)練數(shù)據(jù)集中的每段視頻與機(jī)器人手臂執(zhí)行任務(wù)時(shí)抓手的 2D 軌跡草圖疊加在一起。這些軌跡以 RGB 圖像的形式,為模型學(xué)習(xí)機(jī)器人控制策略提供了低層次、實(shí)用的視覺提示。
在對訓(xùn)練數(shù)據(jù)中未見的 41 項(xiàng)任務(wù)進(jìn)行測試時(shí),由 RT-Trajectory 控制的機(jī)械臂的性能比現(xiàn)有的 SOTA RT 模型高出一倍多:任務(wù)成功率達(dá)到 63%,而 RT-2 的成功率僅為 29%。
該系統(tǒng)的用途十分廣泛,RT-Trajectory 還可以通過觀看人類對所需任務(wù)的演示來創(chuàng)建軌跡,甚至可以接受手繪草圖。而且,它還能隨時(shí)適應(yīng)不同的機(jī)器人平臺。
左圖:只使用自然語言數(shù)據(jù)集訓(xùn)練的 RT 模型控制的機(jī)器人,在執(zhí)行擦桌子這一新任務(wù)時(shí)受挫,而由 RT 軌跡模型控制的機(jī)器人,在經(jīng)過 2D 軌跡增強(qiáng)的相同數(shù)據(jù)集訓(xùn)練后,成功規(guī)劃并執(zhí)行了擦拭軌跡。右圖:訓(xùn)練有素的 RT 軌跡模型在接到新任務(wù)(擦桌子)后,可以在人類的協(xié)助下或利用視覺語言模型自行以多種方式創(chuàng)建 2D 軌跡。
RT 軌跡利用了豐富的機(jī)器人運(yùn)動(dòng)信息,這些信息存在于所有機(jī)器人數(shù)據(jù)集中,但目前尚未得到充分利用。RT-Trajectory 不僅代表著在制造面向新任務(wù)高效準(zhǔn)確移動(dòng)的機(jī)器人的道路上又邁進(jìn)了一步,而且還能從現(xiàn)有數(shù)據(jù)集中發(fā)掘知識。