當(dāng)前位置:區(qū)塊鏈 >區(qū)塊鏈 > 基礎(chǔ)模型+機(jī)器人:現(xiàn)在已經(jīng)走到哪一步了

基礎(chǔ)模型+機(jī)器人:現(xiàn)在已經(jīng)走到哪一步了

更新時(shí)間:2024-01-01 15:34:00 | 作者:佚名
機(jī)器人是一種擁有無(wú)盡可能性的技術(shù),尤其是當(dāng)搭配了智能技術(shù)時(shí)。近段時(shí)間創(chuàng)造了許多變革性應(yīng)用的大模型有望成為機(jī)器人的智慧大腦,幫助機(jī)器人感知和理解這個(gè)世界并制定決策和進(jìn)行規(guī)劃。近日,CMU的YonatanBisk和GoogleDeepMind的夏斐(FeiXia)領(lǐng)導(dǎo)的一個(gè)聯(lián)合團(tuán)隊(duì)發(fā)布了一篇綜述報(bào)告,介紹了基礎(chǔ)模型在機(jī)器人領(lǐng)域的應(yīng)用和發(fā)展情況。 原文來(lái)源:機(jī)器之...
機(jī)器人是一種擁有無(wú)盡可能性的技術(shù),尤其是當(dāng)搭配了智能技術(shù)時(shí)。近段時(shí)間創(chuàng)造了許多變革性應(yīng)用的大模型有望成為機(jī)器人的智慧大腦,幫助機(jī)器人感知和理解這個(gè)世界并制定決策和進(jìn)行規(guī)劃。近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)領(lǐng)導(dǎo)的一個(gè)聯(lián)合團(tuán)隊(duì)發(fā)布了一篇綜述報(bào)告,介紹了基礎(chǔ)模型在機(jī)器人領(lǐng)域的應(yīng)用和發(fā)展情況。

原文來(lái)源:機(jī)器之心

圖片來(lái)源:由無(wú)界 AI生成

開(kāi)發(fā)能自主適應(yīng)不同環(huán)境的機(jī)器人是人類一直以來(lái)的一個(gè)夢(mèng)想,但這卻是一條漫長(zhǎng)且充滿挑戰(zhàn)的道路。

之前,利用傳統(tǒng)深度學(xué)習(xí)方法的機(jī)器人感知系統(tǒng)通常需要大量有標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練監(jiān)督學(xué)習(xí)模型,而如果通過(guò)眾包方式來(lái)標(biāo)注大型數(shù)據(jù)集,成本又非常高。

此外,由于經(jīng)典監(jiān)督學(xué)習(xí)方法的泛化能力有限,為了將這些模型部署到具體的場(chǎng)景或任務(wù),這些訓(xùn)練得到的模型通常還需要精心設(shè)計(jì)的領(lǐng)域適應(yīng)技術(shù),而這又通常需要進(jìn)一步的數(shù)據(jù)收集和標(biāo)注步驟。類似地,經(jīng)典的機(jī)器人規(guī)劃和控制方法通常需要仔細(xì)地建模世界、智能體自身的動(dòng)態(tài)和 / 或其它智能體的動(dòng)態(tài)。這些模型通常針對(duì)各個(gè)具體環(huán)境或任務(wù)構(gòu)建,而當(dāng)情況有變時(shí),就需要重新構(gòu)建模型。這說(shuō)明經(jīng)典模型的遷移性能也有限。

事實(shí)上,對(duì)于很多用例,構(gòu)建有效模型的成本要么太高,要么完全無(wú)法辦到。盡管基于深度(強(qiáng)化)學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃和控制方法有助于緩解這些問(wèn)題,但它們?nèi)耘f會(huì)受到分布移位(distribution shift)和泛化能力降低的影響。

雖然在開(kāi)發(fā)通用型機(jī)器人系統(tǒng)上正面臨諸多挑戰(zhàn),但自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域近來(lái)卻進(jìn)展迅猛,其中包括用于 NLP 的大型語(yǔ)言模型(LLM)、用于高保真圖像生成的擴(kuò)散模型、用于零樣本 / 少樣本生成等 CV 任務(wù)的能力強(qiáng)大的視覺(jué)模型和視覺(jué)語(yǔ)言模型。

所謂的「基礎(chǔ)模型(foundation model)」其實(shí)就是大型預(yù)訓(xùn)練模型(LPTM)。它們具備強(qiáng)大的視覺(jué)和語(yǔ)言能力。近來(lái)這些模型也已經(jīng)在機(jī)器人領(lǐng)域得到應(yīng)用,并有望賦予機(jī)器人系統(tǒng)開(kāi)放世界感知、任務(wù)規(guī)劃甚至運(yùn)動(dòng)控制能力。除了將現(xiàn)有的視覺(jué)和 / 或語(yǔ)言基礎(chǔ)模型用于機(jī)器人領(lǐng)域,也有研究團(tuán)隊(duì)正針對(duì)機(jī)器人任務(wù)開(kāi)發(fā)基礎(chǔ)模型,比如用于操控的動(dòng)作模型或用于導(dǎo)航的運(yùn)動(dòng)規(guī)劃模型。這些機(jī)器人基礎(chǔ)模型展現(xiàn)出了強(qiáng)大的泛化能力,能適應(yīng)不同的任務(wù)甚至具身方案。

也有研究者直接將視覺(jué) / 語(yǔ)言基礎(chǔ)模型用于機(jī)器人任務(wù),這展現(xiàn)出了將不同機(jī)器人模塊融合成單一統(tǒng)一模型的可能性。

盡管視覺(jué)和語(yǔ)言基礎(chǔ)模型在機(jī)器人領(lǐng)域前景可期,全新的機(jī)器人基礎(chǔ)模型也正在開(kāi)發(fā)中,但機(jī)器人領(lǐng)域仍有許多挑戰(zhàn)難以解決。

從實(shí)際部署角度看,模型往往是不可復(fù)現(xiàn)的,無(wú)法泛化到不同的機(jī)器人形態(tài)(多具身泛化)或難以準(zhǔn)確理解環(huán)境中的哪些行為是可行的(或可接受的)。此外大多數(shù)研究使用的都是基于 Transformer 的架構(gòu),關(guān)注的重點(diǎn)是對(duì)物體和場(chǎng)景的語(yǔ)義感知、任務(wù)層面的規(guī)劃、控制。而機(jī)器人系統(tǒng)的其它部分則少有人研究,比如針對(duì)世界動(dòng)態(tài)的基礎(chǔ)模型或可以執(zhí)行符號(hào)推理的基礎(chǔ)模型。這些都需要跨領(lǐng)域泛化能力。

最后,我們也需要更多大型真實(shí)世界數(shù)據(jù)以及支持多樣化機(jī)器人任務(wù)的高保真度模擬器。

這篇綜述論文總結(jié)了機(jī)器人領(lǐng)域使用的基礎(chǔ)模型,目標(biāo)是理解基礎(chǔ)模型能以怎樣的方式幫助解決或緩解機(jī)器人領(lǐng)域的核心挑戰(zhàn)。

論文地址:https://arxiv.org/pdf/2312.08782.pdf

在這篇綜述中,研究者使用的「用于機(jī)器人的基礎(chǔ)模型(foundation models for robotics)」這一術(shù)語(yǔ)涵蓋兩個(gè)方面:(1) 用于機(jī)器人的現(xiàn)有的(主要)視覺(jué)和語(yǔ)言模型,主要是通過(guò)零樣本和上下文學(xué)習(xí);(2) 使用機(jī)器人生成的數(shù)據(jù)專門開(kāi)發(fā)和利用機(jī)器人基礎(chǔ)模型,以解決機(jī)器人任務(wù)。他們總結(jié)了用于機(jī)器人的基礎(chǔ)模型的相關(guān)論文中的方法,并對(duì)這些論文的實(shí)驗(yàn)結(jié)果進(jìn)行了元分析(meta-analysis)。

圖 1 展示了這篇綜述報(bào)告的主要組成部分。

圖 2 給出了這篇綜述的整體結(jié)構(gòu)。

預(yù)備知識(shí)

為了幫助讀者更好地理解這篇綜述的內(nèi)容,該團(tuán)隊(duì)首先給出了一節(jié)預(yù)備知識(shí)內(nèi)容。

他們首先將介紹機(jī)器人學(xué)的基礎(chǔ)知識(shí)以及當(dāng)前最佳技術(shù)。這里主要聚焦于基礎(chǔ)模型時(shí)代之前機(jī)器人領(lǐng)域使用的方法。這里簡(jiǎn)單說(shuō)明一下,詳情參閱原論文。?

機(jī)器人的主要組件可分為感知、決策和規(guī)劃、動(dòng)作生成三大部分。

該團(tuán)隊(duì)將機(jī)器人感知分為被動(dòng)感知、主動(dòng)感知和狀態(tài)估計(jì)。

在機(jī)器人決策和規(guī)劃部分,研究者分經(jīng)典規(guī)劃方法和基于學(xué)習(xí)的規(guī)劃方法進(jìn)行了介紹。

機(jī)器的動(dòng)作生成也有經(jīng)典控制方法和基于學(xué)習(xí)的控制方法。

接下來(lái)該團(tuán)隊(duì)又會(huì)介紹基礎(chǔ)模型并主要集中在 NLP 和 CV 領(lǐng)域,涉及的模型包括:LLM、VLM、視覺(jué)基礎(chǔ)模型、文本條件式圖像生成模型。

機(jī)器人領(lǐng)域面臨的挑戰(zhàn)

這一節(jié)總結(jié)了典型機(jī)器人系統(tǒng)的不同模塊所面臨的五大核心挑戰(zhàn)。圖 3 給出了這五大挑戰(zhàn)的分類情況。

泛化

機(jī)器人系統(tǒng)往往難以準(zhǔn)確地感知和理解其環(huán)境。它們也沒(méi)有能力將在一個(gè)任務(wù)上的訓(xùn)練成果泛化到另一個(gè)任務(wù),這會(huì)進(jìn)一步限制它們?cè)谡鎸?shí)世界中的實(shí)用性。此外,由于機(jī)器人硬件不同,將模型遷移用于不同形態(tài)的機(jī)器人也很困難。通過(guò)將基礎(chǔ)模型用于機(jī)器人,可以部分地解決泛化問(wèn)題。

而在不同機(jī)器人形態(tài)上泛化這樣更進(jìn)一步的問(wèn)題還有待解答。

數(shù)據(jù)稀缺

為了開(kāi)發(fā)出可靠的機(jī)器人模型,大規(guī)模的高質(zhì)量數(shù)據(jù)至關(guān)重要。人們已經(jīng)在努力嘗試從現(xiàn)實(shí)世界收集大規(guī)模數(shù)據(jù)集,包括自動(dòng)價(jià)值、機(jī)器人操作軌跡等。并且從人類演示收集機(jī)器人數(shù)據(jù)的成本很高。而由于任務(wù)和環(huán)境的多樣性,在現(xiàn)實(shí)世界收集足夠且廣泛的數(shù)據(jù)的過(guò)程還會(huì)更加復(fù)雜。此外,在現(xiàn)實(shí)世界收集數(shù)據(jù)還會(huì)有安全方面的疑慮。

為了解決這些挑戰(zhàn),許多研究工作都嘗試了在模擬環(huán)境中生成合成數(shù)據(jù)。這些模擬能提供真實(shí)感很強(qiáng)的虛擬世界,讓機(jī)器人可以在接近真實(shí)的場(chǎng)景中學(xué)習(xí)和使用自己的技能。但是,使用模擬環(huán)境也有局限性,尤其是在物體的多樣性方面,這使得所學(xué)到的技能難以直接用于真實(shí)世界情況。

另外,在現(xiàn)實(shí)世界中,大規(guī)模收集數(shù)據(jù)非常困難,而要收集到訓(xùn)練基礎(chǔ)模型所使用的互聯(lián)網(wǎng)規(guī)模級(jí)的圖像 / 文本數(shù)據(jù),那就更困難了。

一種頗具潛力的方法是協(xié)作式數(shù)據(jù)收集,即將不同實(shí)驗(yàn)室環(huán)境和機(jī)器人類型的數(shù)據(jù)收集到一起,如圖 4a 所示。但是,該團(tuán)隊(duì)深度研究了 Open-X Embodiment Dataset,發(fā)現(xiàn)在數(shù)據(jù)類型可用性方面還存在一些局限性。

模型和原語(yǔ)要求

經(jīng)典的規(guī)劃和控制方法通常需要精心設(shè)計(jì)的環(huán)境和機(jī)器人模型。之前的基于學(xué)習(xí)的方法(如模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí))是以端到端的方式訓(xùn)練策略,也就是直接根據(jù)感官輸入獲取控制輸出,這樣能避免構(gòu)建和使用模型。這些方法能部分解決依賴明確模型的問(wèn)題,但它們往往難以泛化用于不同的環(huán)境和任務(wù)。

這就引出了兩個(gè)問(wèn)題:(1) 怎么學(xué)習(xí)能很好泛化的與模型無(wú)關(guān)的策略?(2) 怎么學(xué)習(xí)好的世界模型,以便應(yīng)用經(jīng)典的基于模型的方法?

任務(wù)規(guī)范

為了得到通用型智能體,一大關(guān)鍵挑戰(zhàn)是理解任務(wù)規(guī)范并將其根植于機(jī)器人對(duì)世界的當(dāng)前理解中。通常而言,這些任務(wù)規(guī)范由用戶提供,但用戶只能有限地理解機(jī)器人的認(rèn)知和物理能力的局限性。這會(huì)帶來(lái)很多問(wèn)題,不僅包括能為這些任務(wù)規(guī)范提供什么樣的最佳實(shí)踐,而且還有起草這些規(guī)范是否足夠自然和簡(jiǎn)單。基于機(jī)器人對(duì)自身能力的理解,理解和解決任務(wù)規(guī)范中的模糊性也充滿挑戰(zhàn)。

不確定性和安全性

為了在現(xiàn)實(shí)世界中部署機(jī)器人,一大關(guān)鍵挑戰(zhàn)是處理環(huán)境和任務(wù)規(guī)范中固有的不確定性。根據(jù)來(lái)源的不同,不確定性可以分為認(rèn)知不確定性(由缺乏知識(shí)導(dǎo)致不確定)和偶然不確定性(環(huán)境中固有的噪聲)。

不確定性量化(UQ)的成本可能會(huì)高得讓研究和應(yīng)用難以為繼,也可能讓下游任務(wù)無(wú)法被最優(yōu)地解決。有鑒于基礎(chǔ)模型大規(guī)模過(guò)度參數(shù)化的性質(zhì),為了在不犧牲模型泛化性能的同時(shí)實(shí)現(xiàn)可擴(kuò)展性,提供能保留訓(xùn)練方案同時(shí)又盡可能不改變底層架構(gòu)的 UQ 方法至關(guān)重要。設(shè)計(jì)能提供對(duì)自身行為的可靠置信度估計(jì),并反過(guò)來(lái)智能地請(qǐng)求清晰說(shuō)明反饋的機(jī)器人仍然是一個(gè)尚未解決的挑戰(zhàn)。

近來(lái)雖有一些進(jìn)展,但要確保機(jī)器人有能力學(xué)習(xí)經(jīng)驗(yàn),從而在全新環(huán)境中微調(diào)自己的策略并確保安全,這一點(diǎn)依然充滿挑戰(zhàn)。

當(dāng)前研究方法概況

這一節(jié)總結(jié)了用于機(jī)器人的基礎(chǔ)模型的當(dāng)前研究方法。該團(tuán)隊(duì)將機(jī)器人領(lǐng)域使用的基礎(chǔ)模型分成了兩大類:用于機(jī)器人的基礎(chǔ)模型和機(jī)器人基礎(chǔ)模型(RFM)。

用于機(jī)器人的基礎(chǔ)模型主要是指以零樣本的方式將視覺(jué)和語(yǔ)言基礎(chǔ)模型用于機(jī)器人,也就是說(shuō)無(wú)需額外的微調(diào)或訓(xùn)練。機(jī)器人基礎(chǔ)模型則可能使用視覺(jué) - 語(yǔ)言預(yù)訓(xùn)練初始化來(lái)進(jìn)行熱啟動(dòng)和 / 或直接在機(jī)器人數(shù)據(jù)集上訓(xùn)練模型。

圖 5 給出了分類詳情。

用于機(jī)器人的基礎(chǔ)模型

這一小節(jié)關(guān)注的是視覺(jué)和語(yǔ)言基礎(chǔ)模型在機(jī)器人領(lǐng)域的零樣本應(yīng)用。這主要包括將 VLM 以零樣本方式部署到機(jī)器人感知應(yīng)用中,將 LLM 的上下文學(xué)習(xí)能力用于任務(wù)層面和運(yùn)動(dòng)層面的規(guī)劃以及動(dòng)作生成。圖 6 展示了一些代表性的研究工作。

機(jī)器人基礎(chǔ)模型(RFM)

隨著包含來(lái)自真實(shí)機(jī)器人的狀態(tài) - 動(dòng)作對(duì)的機(jī)器人數(shù)據(jù)集的增長(zhǎng),機(jī)器人基礎(chǔ)模型(RFM)類別同樣變得越來(lái)越有可能成功。這些模型的特點(diǎn)是使用了機(jī)器人數(shù)據(jù)來(lái)訓(xùn)練模型解決機(jī)器人任務(wù)。

這一小節(jié)將總結(jié)和討論不同類型的 RFM。首先是能在單一機(jī)器人模塊中執(zhí)行一類任務(wù)的 RFM,這也被稱為單目標(biāo)機(jī)器人基礎(chǔ)模型。比如能生成控制機(jī)器人的低層級(jí)動(dòng)作的 RFM 或可以生成更高層運(yùn)動(dòng)規(guī)劃的模型。

之后會(huì)介紹能在多個(gè)機(jī)器人模塊中執(zhí)行任務(wù)的 RFM,也就是能執(zhí)行感知、控制甚至非機(jī)器人任務(wù)的通用模型。

基礎(chǔ)模型能怎樣幫助解決機(jī)器人挑戰(zhàn)?

前面列出了機(jī)器人領(lǐng)域面臨的五大挑戰(zhàn)。這一小節(jié)將介紹基礎(chǔ)模型可以怎樣幫助解決這些挑戰(zhàn)。

所有與視覺(jué)信息相關(guān)的基礎(chǔ)模型(如 VFM、VLM 和 VGM)都可用于機(jī)器人的感知模塊。而 LLM 的功能更多樣,可用于規(guī)劃和控制。機(jī)器人基礎(chǔ)模型(RFM)通常用于規(guī)劃和動(dòng)作生成模塊。表 1 總結(jié)了解決不同機(jī)器人挑戰(zhàn)的基礎(chǔ)模型。

從表中可以看到,所有基礎(chǔ)模型都擅長(zhǎng)泛化各種機(jī)器人模塊的任務(wù)。LLM 尤其擅長(zhǎng)任務(wù)規(guī)范。另一方面,RFM 擅長(zhǎng)應(yīng)對(duì)動(dòng)態(tài)模型的挑戰(zhàn),因?yàn)榇蠖鄶?shù) RFM 都是無(wú)模型方法。對(duì)于機(jī)器人感知來(lái)說(shuō),泛化能力和模型的挑戰(zhàn)是相互耦合的,因?yàn)槿绻兄P鸵呀?jīng)具有很好的泛化能力,就不需要獲取更多數(shù)據(jù)來(lái)執(zhí)行領(lǐng)域適應(yīng)或額外微調(diào)。

另外,在安全挑戰(zhàn)方面還缺乏研究,這會(huì)是一個(gè)重要的未來(lái)研究方向。

當(dāng)前的實(shí)驗(yàn)和評(píng)估概況

這一節(jié)總結(jié)了當(dāng)前研究成果的數(shù)據(jù)集、基準(zhǔn)和實(shí)驗(yàn)。

數(shù)據(jù)集和基準(zhǔn)

僅依靠從語(yǔ)言和視覺(jué)數(shù)據(jù)集學(xué)到的知識(shí)是存在局限的。正如一些研究成果表明的那樣,摩擦力和重量等一些概念無(wú)法僅通過(guò)這些模態(tài)輕松學(xué)習(xí)到。

因此,為了讓機(jī)器人智能體能更好地理解世界,研究社區(qū)不僅在適應(yīng)來(lái)自語(yǔ)言和視覺(jué)領(lǐng)域的基礎(chǔ)模型,也在推進(jìn)開(kāi)發(fā)用于訓(xùn)練和微調(diào)這些模型的大型多樣化多模態(tài)機(jī)器人數(shù)據(jù)集。

目前這些工作分為兩大方向:從現(xiàn)實(shí)世界收集數(shù)據(jù)以及從模擬世界收集數(shù)據(jù)再將其遷移到現(xiàn)實(shí)世界。每個(gè)方向都各有優(yōu)劣。其中從現(xiàn)實(shí)世界收集的數(shù)據(jù)集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。

對(duì)當(dāng)前方法的評(píng)估分析

該團(tuán)隊(duì)的另一大貢獻(xiàn)是對(duì)本綜述報(bào)告中提到的論文中的實(shí)驗(yàn)進(jìn)行了元分析,這可以幫助作者理清以下問(wèn)題:

1. 人們研究解決的是哪些任務(wù)?

2. 訓(xùn)練模型使用了哪些數(shù)據(jù)集或模擬器?測(cè)試用的機(jī)器人平臺(tái)有哪些?

3. 研究社區(qū)使用了哪些基礎(chǔ)模型?解決任務(wù)的效果如何?

4. 這些方法中更常使用哪些基礎(chǔ)模型?

表 2-7 和圖 11 給出了分析結(jié)果。

該團(tuán)隊(duì)從中總結(jié)出了一些關(guān)鍵趨勢(shì):

  • 研究社區(qū)對(duì)機(jī)器人操作任務(wù)的關(guān)注不平衡
  • 泛化能力和穩(wěn)健性需要提升
  • 對(duì)低層動(dòng)作的探索很有限
  • 控制頻率太低,無(wú)法部署在真實(shí)機(jī)器人中
  • 缺乏統(tǒng)一的測(cè)試基準(zhǔn)

討論和未來(lái)方向

該團(tuán)隊(duì)總結(jié)了一些仍待解決的挑戰(zhàn)和值得討論的研究方向:

  • 為機(jī)器人具身設(shè)定標(biāo)準(zhǔn)基礎(chǔ)(grounding)
  • 安全和不確定性
  • 端到端方法和模塊化方法是否無(wú)法兼容?
  • 對(duì)具身的物理變化的適應(yīng)能力
  • 世界模型方法還是與模型無(wú)關(guān)的方法?
  • 新型機(jī)器人平臺(tái)和多感官信息
  • 持續(xù)學(xué)習(xí)
  • 標(biāo)準(zhǔn)化和可復(fù)現(xiàn)能力
本站提醒:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,本內(nèi)容不作為投資理財(cái)建議。