去年年底,ChatGPT橫空出世,在全球科技浪潮中掀起了驚濤駭浪,隨後,各個科技公司都開始著手打造自己的大模型,帶來各行各業(yè)效率的革命和體驗的升級。儘管大規(guī)模語言模型(LLMs,Large Language Models)可以進(jìn)行複雜的語言生成和對話交流,但ChatGPT多模態(tài)感知、長期的運(yùn)動規(guī)劃和行為交互能力有限,還不是人類理想的智能體?!妇呱碇悄堋?「機(jī)器人」有望成為AI的下一個潮水涌動的方向。
近年來,達(dá)闥在具身智能領(lǐng)域持續(xù)加大研發(fā)投入,上周發(fā)佈了海睿AGI平臺和機(jī)器人智能領(lǐng)域的多模態(tài)認(rèn)知大模型——RobotGPT。達(dá)闥還與中山大學(xué)智能工程學(xué)院副教授、博士生導(dǎo)師梁小丹(國家萬人青拔人才)展開緊密合作,共同探索具身智能前沿科技:為機(jī)器人開發(fā)非常真實的模擬環(huán)境,創(chuàng)建兩個基準(zhǔn)測試,助力機(jī)器人在自主推理和導(dǎo)航方面的研究更快地取得進(jìn)展。
「具身智能」(Embodied Intelligence)意指有身體並支持物理交互的智能體,標(biāo)桿產(chǎn)品是人形機(jī)器人。實現(xiàn)具身智能是指讓機(jī)器能夠像人一樣擁有身體感知、交互和行動的能力,這種能力使機(jī)器能夠更加自然地與物理世界進(jìn)行交互。但是,實現(xiàn)具身智能面臨著以下困難和挑戰(zhàn):
1 缺乏工業(yè)級真實感的機(jī)器人操作模擬器,缺少高質(zhì)量具身智能訓(xùn)練所需的海量數(shù)據(jù)
通過與模擬環(huán)境進(jìn)行交互生成大量豐富的多樣的訓(xùn)練數(shù)據(jù),並進(jìn)行端到端強(qiáng)化學(xué)習(xí)和模型學(xué)習(xí)是具身智能訓(xùn)練的常用手段,當(dāng)前業(yè)界的模擬器常常沒有將智能機(jī)器人製造技術(shù)考慮在內(nèi),也沒有足夠的關(guān)注真實機(jī)器人應(yīng)用的兼容性。這導(dǎo)致研究者在這種環(huán)境中開發(fā)的控制技術(shù)常常難以在真實場景中得到應(yīng)用。此外複雜多變的現(xiàn)實環(huán)境也給具身智能有效地理解和解析環(huán)境信息帶來了巨大的挑戰(zhàn)。
2 機(jī)器人(智能體)難以理解和執(zhí)行複雜且不明確的人類自然語言指令,同時缺乏機(jī)器人操作相關(guān)的漸進(jìn)式推理任務(wù)基準(zhǔn)測試
在具身智能研究中,人類的語言指令往往複雜多樣、模稜兩可、隨意性強(qiáng),機(jī)器難以猜測和推理人類的真實意圖。比如我們對機(jī)器人說:「我有點(diǎn)渴,請給我拿點(diǎn)喝的」,如下圖所示,機(jī)器人需要充分理解人的意圖和場景中每個對象概念所隱含的功能,才能做出準(zhǔn)確的判斷。因此,考慮如何讓機(jī)器人理解和執(zhí)行複雜和模糊的人類自然語言指令是體現(xiàn)具身智能研究的關(guān)鍵挑戰(zhàn)之一。
3 缺乏面向開放域零樣本視覺語言導(dǎo)航的多任務(wù)基準(zhǔn)測試
在具身智能領(lǐng)域,面對開放域零樣本視覺語言導(dǎo)航多任務(wù)基準(zhǔn)測試的明顯缺失,主要是因為:仿真真實性不足,真實的開放環(huán)境下因素變化多端,比如突然走過來的行人;零樣本視覺語言導(dǎo)航模型需要處理其以前未曾遇到過的環(huán)境和任務(wù),這要求基準(zhǔn)測試的環(huán)境儘可能地接近現(xiàn)實;相較於封閉環(huán)境,開放環(huán)境中的元素更加複雜且不斷變化,現(xiàn)有的自動標(biāo)註方法往往無法應(yīng)對。
為了有效應(yīng)對上述挑戰(zhàn),我們需要追求更為真實的仿真環(huán)境,開發(fā)更為有效的數(shù)據(jù)收集和標(biāo)註策略,制定更為全面的評估指標(biāo)。因此,達(dá)闥積極與中山大學(xué)展開了深度合作,在以下三方面取得了階段性成果:
研發(fā)並開放工業(yè)級真實感的機(jī)器人具身智能訓(xùn)練工具(HARIX RDK)
為了方便、公正地比較機(jī)器人在不同基線模型下理解和執(zhí)行人類自然語言指令的成功率,我們構(gòu)建了高度逼真的場景模擬與機(jī)器人具身智能訓(xùn)練工具(HARIX RDK),用於機(jī)器人具身智能的研究,特點(diǎn)有:①有真實光照,能夠高擬真產(chǎn)生照明陰影、鏡面反射、亮斑等。②仿真環(huán)境中加入了人類,這些人類或處於通道中阻擋路徑或走入機(jī)器人行進(jìn)路線。③環(huán)境可以通過讀取底層數(shù)據(jù)實現(xiàn)對各類物體進(jìn)行細(xì)緻的語義分割標(biāo)註,便於後續(xù)構(gòu)建基準(zhǔn)。④HARIX RDK可支持達(dá)闥公司研發(fā)的多種類型的機(jī)器人。
構(gòu)建了機(jī)器人操作相關(guān)的漸進(jìn)式推理任務(wù)基準(zhǔn)測試,促進(jìn)機(jī)器人漸進(jìn)式推理研究的快速發(fā)展
為方便分析和評估大語言模型在機(jī)器人操作中的應(yīng)用,我們創(chuàng)建了一個通用的框架,如下圖所示,主要由三部分組成:自動場景生成、指令生成和機(jī)器人操縱。自動場景生成負(fù)責(zé)生成豐富多樣的場景供agent進(jìn)行訓(xùn)練和測試。由於獲取大規(guī)模複雜且高質(zhì)量的人類自然語言指令既昂貴又困難,為此我們還設(shè)計了一個使用ChatGPT模擬人類自然語言指令生成的模塊,為機(jī)器人操作提供自然語言指令。最後,通過向機(jī)器人輸入生成的視覺場景和自然語言指令,控制機(jī)器人進(jìn)行相應(yīng)的操作。
根據(jù)指令的複雜性和操作的難易程度將任務(wù)分為四個級別,如下圖所示:
Level 1任務(wù)用於評估機(jī)器人的抓取能力。Level 2任務(wù)用於評估機(jī)器人在多目標(biāo)環(huán)境中的識別和抓取能力。Level 3任務(wù)側(cè)重於評估機(jī)器人理解簡單的人類自然語言的能力。Level 4任務(wù)主要用於評估機(jī)器人理解複雜、模糊的人類自然語言指令和推理人類意圖的能力。
構(gòu)建了面向開放域零樣本視覺語言導(dǎo)航的多任務(wù)基準(zhǔn)測試,促進(jìn)機(jī)器人視覺語言導(dǎo)航研究的快速發(fā)展
為了促進(jìn)開放式視覺語言導(dǎo)航的研究,我們在HARIX RDK中構(gòu)建了MO-VLN,一個面向開放域零樣本視覺語言導(dǎo)航的多任務(wù)基準(zhǔn)測試。MO-VLN專註于零樣本視覺與語言導(dǎo)航,涉及根據(jù)語言指令導(dǎo)航到特定的目標(biāo)對象、抽象對象和特定位置。具體來說,MO-VLN分為四個任務(wù),如下圖所示,即給定類別的對象導(dǎo)航、給定簡單指令的目標(biāo)導(dǎo)嚮導(dǎo)航、完全抽象指令和按步驟跟隨指令。
在HARIX RDK的仿真場景中讓智能體自主探索、結(jié)合其視覺自動構(gòu)建拓?fù)湔Z義地圖,將開放詞彙模型和大語言模型結(jié)合進(jìn)行指令和場景理解,預(yù)測目標(biāo)位置並逐步移動至目標(biāo)位置,如下圖所示:
這裏,我們利用預(yù)訓(xùn)練的視覺-語言模型如GLIP/ Grounding DINO進(jìn)行物體定位。在檢測到可能的物體位置后,我們將它們投影到語義地圖上。在環(huán)境探索上,我們只考慮zero-shot策略,如基於常識知識的探索。運(yùn)用GLIP檢測觀察並獲取關(guān)於周圍環(huán)境的信息,能力較強(qiáng)的LLM可以根據(jù)其常識知識和檢測結(jié)果更準(zhǔn)確地預(yù)測下一個可能的位置。我們還讓GPT-4在給定檢測到的周圍物體和區(qū)域的情況下完成常識推理。
項目網(wǎng)站:
https://necolizer.github.io/RM-PRT
https://mligg23.github.io/MO-VLN-Site
此次研究所用到的機(jī)器人產(chǎn)品是達(dá)闥自主研發(fā)的Cloud Ginger 1.0——柔美人形智能服務(wù)機(jī)器人,具有精準(zhǔn)的視覺抓取能力、全方位的聽、說、看、動等融合智能能力;開發(fā)平臺使用的是達(dá)闥HARIX RDK機(jī)器人開發(fā)套件,可以實現(xiàn)機(jī)器人在智能語音、行為控制、動作編輯、移動導(dǎo)航等方面的能力開發(fā),並完成數(shù)字孿生環(huán)境和真實機(jī)器人的虛實同步驗證。
校企合作是促進(jìn)創(chuàng)新和培養(yǎng)人才的有效機(jī)制,一直以來,達(dá)闥都很重視和高校的深度合作,近年來相繼與復(fù)旦大學(xué)、同濟(jì)大學(xué)、上海交大、上海大學(xué)、東北大學(xué)、安徽大學(xué)、西安理工大學(xué)、山東大學(xué)等多所高校,在人工智能課程設(shè)置、技術(shù)研發(fā)、人才培養(yǎng)等方面聯(lián)合開展了多項合作,促進(jìn)了學(xué)術(shù)研究與市場前沿的無縫結(jié)合,全方位發(fā)掘了雲(yún)端機(jī)器人背後的價值及潛能。在達(dá)闥和中山大學(xué)的合作下,具身智能正以強(qiáng)勁的勢頭邁向新的里程碑。相信隨著更多科學(xué)家和工程師的不懈努力,我們將迎來通用人工智能的嶄新時代,智能體與人類在互動和合作中共同創(chuàng)造美好未來。