有結(jié)構(gòu)化推理和先驗知識,智能體變得更加通用了。
原文來源:機器之心
圖片來源:由無界 AI生成
自 AI 誕生以來,開發(fā)能夠解決和適應(yīng)復(fù)雜工作的多任務(wù)智能體(Agent)一直是個重要的目標。
AI 智能體對于許多應(yīng)用至關(guān)重要,研究者通常用強化學(xué)習(xí)方法通過環(huán)境交互來培養(yǎng)智能體的決策技能。基于模型和無模型的深度強化學(xué)習(xí)方法都已取得了廣為人們所知的成就,例如 AlphaZero、改進的排序和乘法算法、無人機競速以及聚變反應(yīng)堆中的等離子體控制。這些成功涉及一個標準的強化學(xué)習(xí)管道,智能體在其中學(xué)習(xí)我們所說的外在功能 —— 一種直接與外界交互的策略,即響應(yīng)環(huán)境刺激以最大化獎勵信號。該函數(shù)通常是參數(shù)化神經(jīng)網(wǎng)絡(luò),根據(jù)環(huán)境觀察生成動作。
經(jīng)典的強化學(xué)習(xí)方法使用單個映射函數(shù)來定義策略 π,但在復(fù)雜的環(huán)境中通常被證明是不夠的,這與通用智能體在多個隨機環(huán)境中交互、適應(yīng)和學(xué)習(xí)的目標相矛盾。
在強化學(xué)習(xí)中引入的先驗通常是特定于任務(wù)的,并且需要廣泛的工程和領(lǐng)域?qū)I(yè)知識。為了泛化,最近的研究已轉(zhuǎn)向?qū)⒋笮驼Z言模型(LLM)集成到智能體框架中,如 AutoGen、AutoGPT 和 AgentVerse 等工作。
近日,來自華為諾亞方舟實驗室、倫敦大學(xué)學(xué)院(UCL)、牛津大學(xué)等機構(gòu)的研究者提出了盤古智能體框架(Pangu-Agent)嘗試來解決 AI 智能體面臨的挑戰(zhàn)。該研究作者包括倫敦大學(xué)學(xué)院計算機系教授汪軍。
論文鏈接:https://arxiv.org/abs/2312.14878
該工作在兩個關(guān)鍵方面區(qū)別于先前的框架:i)將智能體的內(nèi)部思維過程形式化為結(jié)構(gòu)化推理的形式;ii)展示了通過監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)來微調(diào)智能體的方法。
標準強化學(xué)習(xí)側(cè)重于直接學(xué)習(xí)從感知中輸出行動的策略。雖然人們習(xí)慣于通過深度網(wǎng)絡(luò)架構(gòu)參數(shù)化策略,但作者認為,當(dāng)通過基礎(chǔ)模型策略跨任務(wù)擴展智能體時,標準 RL 管道中缺乏固有推理結(jié)構(gòu)可能會成為一個重大瓶頸,因為梯度無法為所有深度網(wǎng)絡(luò)提供足夠的監(jiān)督。
盤古 Agent 框架展示了結(jié)構(gòu)化推理如何幫助強化學(xué)習(xí)克服這些挑戰(zhàn),利用大規(guī)?;A(chǔ)模型提供先驗知識并實現(xiàn)跨廣泛領(lǐng)域的泛化能力。?
據(jù)介紹,該工作的主要貢獻包括:
- 證明了結(jié)構(gòu)化推理在智能體框架中的重要性,盤古 Agent 的通用性足以有效涵蓋現(xiàn)有智能體框架的任務(wù)范圍。作為一個元智能體框架,它可以利用內(nèi)部函數(shù)調(diào)用的順序進行調(diào)整或微調(diào),或者將決策委托給底層 LLM。使用者也可以輕松擴展智能體的功能,并組合或重用許多已經(jīng)實現(xiàn)的方法。
- 作者在七個 LLM 和六個不同領(lǐng)域上進行了評估。該評估可用于告知研究人員如何初始化其智能體以及如何收集微調(diào)步驟的數(shù)據(jù)。
- 研究證明了框架的監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)微調(diào)(RLFT)的影響。通過結(jié)構(gòu)化推理,該工作成功實現(xiàn)了基于拒絕采樣的 SFT 管道,大幅提高了 LLM 在 ALFWorld 領(lǐng)域的表現(xiàn),成功率從 27% 增加到 82%。盡管 SFT 的好處已趨于穩(wěn)定,但通過 RL 可以實現(xiàn)進一步增強,將 BabyAI 任務(wù)的成功率提高到 88%,甚至從 28% 提高到 91%。此外,跨領(lǐng)域?qū)嶒烇@示通過 RL 管道訓(xùn)練的單個 LLM 能夠同時在 ALFWorld (82%) 和 BabyAI(18 項任務(wù)中平均 58.7%)領(lǐng)域?qū)崿F(xiàn)高性能。
這些發(fā)現(xiàn)凸顯了結(jié)構(gòu)化推理在基于大模型的智能體訓(xùn)練方面存在不小潛力。
表 1:盤古 Agent 與最近一些大模型智能體的比較。
圖 2:三個內(nèi)在函數(shù)的可視化,展示了該工作提出的范式在提高代理的模塊化和靈活性方面的重要性。用戶可以重新定義和重新配置內(nèi)在函數(shù),例如 μ1 (?) 以 LLM 作為輸入來產(chǎn)生想法,或 μ2 (?) 利用工具來幫助改進推理。新智能體還支持嵌套這些內(nèi)在函數(shù)來構(gòu)建更通用的模塊,以完成復(fù)雜且具有挑戰(zhàn)性的決策任務(wù)。
Pangu-Agent 的范式
為了引入結(jié)構(gòu)化推理,我們假設(shè)一系列內(nèi)在函數(shù) μ(?) 作用于并轉(zhuǎn)換智能體的內(nèi)部記憶。引入這些內(nèi)在函數(shù)可以將典型的強化學(xué)習(xí)目標重新表述為支持多個「思考」步驟的目標。因此,典型的 RL 目標旨在找到一個以觀察 o→ 的歷史為條件的策略 π,以最大化回報 R,即 maxπ(?) R (π(?|o→)) 可以使用嵌套集重寫(參見圖 . 2) 內(nèi)函數(shù) μ→ (?) 為:
作者強調(diào)需要將這些函數(shù)與外部函數(shù)分開定義、學(xué)習(xí)和使用,這樣用戶就可以重新定義任何被認為對其任務(wù)有幫助的任意嵌套。我們可以根據(jù)方程重寫盤古智能體的優(yōu)化問題。更詳細的形式為:
其中 rt 是時間步 t 的獎勵,取決于環(huán)境觀察 ot 和行動 at。此外,γ ∈ [0, 1) 是一個折扣因子,指定獎勵隨時間折扣的程度。外部函數(shù)仍然充當(dāng)與外界交互的執(zhí)行器,而那些額外分層的內(nèi)部函數(shù)旨在封裝系統(tǒng)架構(gòu)師認為有益的任何內(nèi)部推理過程。
有關(guān) Pangu-Agent 的框架結(jié)構(gòu),內(nèi)在函數(shù)是對代理的內(nèi)存狀態(tài)進行操作的一系列函數(shù)。內(nèi)在函數(shù)對于塑造智能體的內(nèi)部狀態(tài)至關(guān)重要,并且可以影響其決策過程。通過利用這些功能,智能體可以根據(jù)觀察歷史和先前的知識調(diào)整其記憶狀態(tài),從而做出更明智且適合上下文的決策。
外部函數(shù)的目的是從語言模型中引發(fā)環(huán)境交互。與對智能體的內(nèi)存狀態(tài)進行操作的內(nèi)部函數(shù)不同,外部函數(shù)通過生成要執(zhí)行的動作來直接與環(huán)境交互。
盤古 Agent 公式的靈活性意味著可以分層創(chuàng)建許多復(fù)合方法。此外應(yīng)該指出的是,該工作在盤古 Agent 代碼庫中提供的這些復(fù)合方法的實現(xiàn)并不總是原始算法的忠實再現(xiàn),因為它們需要特定的任務(wù)細節(jié)。
受到最近搜索增強的 LLM 研究的啟發(fā),盤古 Agent 框架集成了三種樹搜索算法 – 廣度優(yōu)先 / 深度優(yōu)先搜索 (BFS/DFS) 和 蒙特卡洛樹搜索(MCTS),以提高 LLM 的生成和決策能力的規(guī)劃能力。具體來說,該框架利用 LLM 作為策略、模型和價值函數(shù)。通過與這個基于 LLM 的模擬環(huán)境交互,我們就可以構(gòu)建一個 rollout 樹,該樹將使用樹搜索算法進一步修剪,以實現(xiàn)更好的操作 / 生成效果。
盤古 Agent 兼容一系列任務(wù),例如 ALFWorld、GSM8K、HotpotQA、WebShop 等。它的交互界面與 OpenAI Gym 類似,是一種開放式設(shè)計。
最后,該框架包含一個模板系統(tǒng)來為 LLM 生成輸入提示詞(Prompt),使用模板增強了提示制作的靈活性。
評估
最后,研究者對 Pangu-Agent 支持的各種方法進行了廣泛評估。
首先,他們考慮用一階嵌套法和復(fù)合法來評估 Pangu-Agent 的結(jié)構(gòu)推理能力(圖 3);然后,使用監(jiān)督學(xué)習(xí)和 RL 在三種不同的環(huán)境中評估 Pangu-Agent 的微調(diào)能力。結(jié)果表明,就 Agent 取得的收益而言,復(fù)合方法往往優(yōu)于一階嵌套方法。研究者表示,SFT 和 RLFT 可以讓 Agent 實現(xiàn)專業(yè)化,并進一步提高其在 ALFWorld 和 BabyAI 任務(wù)中的收益。在整個評估過程中,研究者使用了多種 LLM,如 GPT、Llama 2、OpenChat、Vicuna 和 Mistral 進行測試。
結(jié)構(gòu)化推理評估
通過對內(nèi)在函數(shù)(Intrinsic Functions)的內(nèi)置支持,可以評估推理結(jié)構(gòu)中的不同設(shè)計選擇對 AI 智能體性能的影響。
首先在表 2 中,研究者評估了一階嵌套,即只通過觀察環(huán)境和對環(huán)境執(zhí)行的操作來修改智能體記憶的設(shè)置。在文獻中,這些方法被簡單地稱為不同的提示方法,例如:少樣本提示法 (FS)、少樣本思維鏈 (FS-CoT) 、零樣本思維鏈(ZS-CoT)。這些方法的詳細介紹見附錄 A.1。
需要注意的是,由于 LLM 文本生成的非確定性,不同的運行所獲得的回報可能會有很大差異。為了考慮這些差異,研究者將任務(wù) - 方法 - LLM 的每種組合運行三次,并報告平均標準偏差。但是,一階嵌套也有局限性,因為它們可能難以充分利用 LLM 的能力。正如此前所述,智能體需要能夠處理語言模型的輸出、重新查看其答案、更改其記憶,甚至使用工具。這里所說的復(fù)合方法是指在決定最終行動之前可能需要多個思考步驟的方法。
表 3 列出了四種復(fù)合方法的結(jié)果:具有自一致性的 FS-CoT(FS-CoTSC)、具有可選獨立思考步驟的 FS-CoT(如 React )、具有映射步驟的 FS-CoT(如 66)、SwiftSage 和 Least-to-Most(另見附錄 A.2)。所有這些方法都在每個環(huán)境時間步使用了多個固有函數(shù)步,縮略語的簡要說明可參見表 7。
研究者觀察到,結(jié)構(gòu)相似但提示內(nèi)容不同的方法為智能體帶來的收益卻大相徑庭,這說明了精心設(shè)計提示的重要性。同樣值得注意的是,不同的方法在某些 LLM 中比在其他 LLM 中效果更好,例如 React 在 OpenChat-3.2 中的平均表現(xiàn)比 FS 差,而 React 和 FS 在 GPT-3.5 中的平均收益表現(xiàn)類似。
值得注意的是,在所有 LLM 中,F(xiàn)S 在 GSM8K 中的性能比 Direct 差很多。這并不奇怪,因為 FS 只向 LLM 提供最終答案。因此,LLM 的目的是回答問題,而不需要生成中間步驟。然而,在 Direct 中,即使沒有明確要求,LLM 也會生成中間步驟,因為互聯(lián)網(wǎng)上類似的小學(xué)水平問題就是這樣呈現(xiàn)的,而這些問題很可能就包含在這些 LLM 的訓(xùn)練集中。在將 ZS-CoT 與 FS 進行比較時,也能得出類似的結(jié)論。
這一點在較小的 LLM 中尤為明顯,研究者推測,如果在提示中添加「逐步思考」(think step-by-step)的引語,模型就更有可能生成能夠正確解決當(dāng)前問題的推理步驟。
在 HumanEval 任務(wù)中,研究者觀察到 GPT-3.5 與其他模型的收益率差距明顯大于其他任務(wù)。這可能是由于 HumanEval 是一項編碼任務(wù),需要 LLM 提供結(jié)構(gòu)良好的響應(yīng)。然而,較小的開源 LLM 更容易出現(xiàn)這些結(jié)構(gòu)性錯誤,從而導(dǎo)致任務(wù)失敗并得到 0 的返回值。
妨礙 LLM 性能的另一個因素是有限的上下文長度。在 WebShop 等涉及相對較大觀測值的任務(wù)中,提示的長度需要截斷,以保持在允許的上下文長度范圍內(nèi)。因此,LLM 在這項任務(wù)中的表現(xiàn)會受到很大影響,特別是在 Reflect 等方法中,提示中還會包含額外的信息。這也解釋了為什么 Reflect 方法在 WebShop 中的表現(xiàn)往往不如其他方法。
在某些情況下,F(xiàn)S-CoT-SC 可以提高 LLM 的收益,尤其是在 GSM8K 中。但是,這需要付出額外的代價,即需要多次提示 LLM(本實驗中為 5 次)以執(zhí)行 SC 操作選擇。在 HumanEval 等任務(wù)中,答案包含較長的文本答案,可能會有多個答案產(chǎn)生正確的結(jié)果,研究者發(fā)現(xiàn)無法應(yīng)用 SC。這是因為 LLM 不會生成與之前相同的答案,而 SC 操作選擇器無法選擇最常見的答案。
外在函數(shù)評估:微調(diào)
上述結(jié)果表明,雖然 LLM 在實現(xiàn)各種任務(wù)的回報率方面表現(xiàn)出色,但在實現(xiàn) 100% 成功率方面仍有很大的改進空間。隨后,研究者探討了 SFT 和 RLFT 如何幫助 Pangu-Agent 提高成功率。
他們提出了兩種不同的流程:一種是由 multi-turn 軌跡生成和 SFT 組成的 Bootstrap SFT (BSFT),另一種是由軌跡生成、SFT 和 RLFT 組成的三步流程。在執(zhí)行 SFT 時,專家軌跡演示始終使用 OpenChat-3.5 LLM 收集,該 LLM 配備了 Pangu-Agent 框架的結(jié)構(gòu)化推理能力。研究者使用 OpenChat-3.5 LLM 執(zhí)行 BSFT,而 SFT-RLFT 管道則應(yīng)用于 Llama 2-7B LLM,并考慮了兩種不同的評估范式:為每個任務(wù)微調(diào)不同的 LLM,以及在多個任務(wù)中微調(diào)一個 LLM(例如多任務(wù)微調(diào))。
One Model per Domain
BSFT:第一個實驗展示了 Pangu-Agent 框架提供的固有函數(shù)和微調(diào)函數(shù)的結(jié)合。首先從一系列不同的提示方法中收集數(shù)據(jù),特別是 ZS-CoT、FS-CoT、FS-CoT-React 和 FS-CoT-Reflect。收集完數(shù)據(jù)后,運行一個拒絕采樣步驟,丟棄失敗的軌跡,只保留在折扣回報方面表現(xiàn)最好的軌跡。然后可以在該數(shù)據(jù)集上執(zhí)行 SFT 步驟,以進一步提高該方法的性能。表 4 中 「1-step SFT」一欄列出了經(jīng)過單一 SFT 步驟訓(xùn)練后的模型結(jié)果。
如表 4 ,經(jīng)過一輪拒絕采樣后,可以在 ALFWorld 中取得很好的性能,同時保持模型在行動前產(chǎn)生想法的能力。
SFT-RLFT: 盡管如此,對這些固有函數(shù)生成的完整軌跡進行微調(diào)的計算成本很高,而且很快就會達到收益遞減的地步。研究者建議使用 RL 在各種任務(wù)中實現(xiàn)更高的性能。
如表 5 ,研究者首先對成功演示進行 SFT 微調(diào),然后再進行 RL 微調(diào),成功率的提高幅度最大。對于像 ALFWorld 這樣的復(fù)雜領(lǐng)域,用于軌跡生成的 SFT 步驟和固有函數(shù)(FS-CoT)至關(guān)重要。這說明了 Pangu-Agent 框架的重要性,在該框架中,可以從固有函數(shù)和微調(diào)中獲益。