

麻省理工學(xué)院素以頂尖的工程學(xué)和計(jì)算機(jī)科學(xué)而著名,該校的人工智能實(shí)驗(yàn)室研制出了很多可以改變?nèi)祟惿畹捻?xiàng)目。今日麻省理工學(xué)院又有了新成果,可以翻跟斗并且還能自行組裝。
麻省理工學(xué)院的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室為其小型立方體機(jī)器人提出了一種巧妙的方法,這些機(jī)器人可以自行移動(dòng),相互交流和協(xié)調(diào)以進(jìn)行自組裝。麻省理工學(xué)院的研究人員將這種行為描述為某種“蜂巢狀”。
用于解決機(jī)器人控制問(wèn)題的基于學(xué)習(xí)的方法最近有了顯著的發(fā)展,這是由模擬基準(zhǔn)(如dm_control或OpenAI-Gym)的廣泛可用和靈活的、可擴(kuò)展的強(qiáng)化學(xué)習(xí)技術(shù)(如DDPG, QT-Opt, 或 Soft Actor-Critic)的改進(jìn)推動(dòng)的。
雖然通過(guò)模擬學(xué)習(xí)很有效,但由于物理現(xiàn)象建模不準(zhǔn)確或系統(tǒng)延遲等因素,這些模擬環(huán)境在部署到真實(shí)機(jī)器人時(shí)經(jīng)常遇到困難。這激發(fā)了在真實(shí)世界中,在真實(shí)的物理硬件上直接開(kāi)發(fā)機(jī)器人控制解決方案的需求。
當(dāng)前,在物理硬件上的大多數(shù)機(jī)器人研究都是在高成本、工業(yè)級(jí)質(zhì)量的機(jī)器人(PR2、Kuka-arms、ShadowHand、Baxter等)上進(jìn)行的,目的是在受控環(huán)境中進(jìn)行精確的、受監(jiān)控的操作。此外,這些機(jī)器人是圍繞傳統(tǒng)的控制方法設(shè)計(jì)的,這些控制方法注重精度、可重復(fù)性和易于表征。
這與基于學(xué)習(xí)的方法形成了鮮明對(duì)比,基于學(xué)習(xí)的方法對(duì)于不完善的傳感和和驅(qū)動(dòng)具有魯棒性,并且要求(a)高度的適應(yīng)性以允許在現(xiàn)實(shí)世界中的反復(fù)試驗(yàn)學(xué)習(xí),(b)低成本且實(shí)現(xiàn)維護(hù),以通過(guò)復(fù)制實(shí)現(xiàn)可擴(kuò)展性,以及(c)可靠的重置機(jī)制以減輕嚴(yán)格的人工監(jiān)控要求。
來(lái)自麻省理工學(xué)院和谷歌大腦的研究人員解決了這個(gè)問(wèn)題,他們提出了一個(gè)開(kāi)源的低成本機(jī)器人學(xué)習(xí)平臺(tái)“ROBEL”(Robotics Benchmarks for Learning with Low-Cost Robots),旨在鼓勵(lì)快速實(shí)驗(yàn)和硬件強(qiáng)化學(xué)習(xí)。ROBEL還提供了主要用于促進(jìn)現(xiàn)實(shí)世界物理硬件研究和開(kāi)發(fā)的基準(zhǔn)任務(wù)。ROBEL是一個(gè)快速的實(shí)驗(yàn)平臺(tái),支持廣泛的實(shí)驗(yàn)需求和開(kāi)發(fā)新的強(qiáng)化學(xué)習(xí)和控制方法。
ROBEL由D’Claw和D'Kitty組成,D'Claw是一個(gè)有三只手臂的機(jī)械臂型機(jī)器人,可以幫助學(xué)習(xí)靈巧的操作任務(wù).
D'Claw
D'Kitty是一個(gè)有四條腿的機(jī)器人,可以幫助學(xué)習(xí)靈活的腿部運(yùn)動(dòng)任務(wù)。
D'Kitty
這個(gè)機(jī)器人平臺(tái)是低成本的,模塊化的,易于維護(hù),足夠強(qiáng)大,能夠支持從零開(kāi)始的硬件強(qiáng)化學(xué)習(xí)。
左:十二自由度D'Kitty;中:9 自由度D'Claw;右:功能齊全的 D'Claw 裝置D’Lantern。
為了使機(jī)器人成本便宜和易于構(gòu)建,研究人員基于現(xiàn)成的組件和常見(jiàn)的原型工具(3D打印或激光切割)設(shè)計(jì)了ROBEL。該設(shè)計(jì)很容易組裝,只需要幾個(gè)小時(shí)即可構(gòu)建。
ROBEL基準(zhǔn)
谷歌設(shè)計(jì)了一套對(duì) D’Claw and D’Kitty兩個(gè)平臺(tái)都適用的任務(wù),可用于對(duì)現(xiàn)實(shí)世界的機(jī)器人學(xué)習(xí)進(jìn)行基準(zhǔn)測(cè)試。
ROBEL的任務(wù)定義包括密集和稀疏任務(wù)目標(biāo),并在任務(wù)定義中引入硬件安全指標(biāo),例如,指示關(guān)節(jié)是否超過(guò)“安全”操作界限或作用力閾值。ROBEL還為所有任務(wù)提供模擬器,以促進(jìn)算法開(kāi)發(fā)和快速原型設(shè)計(jì)。D’Claw 任務(wù)主要圍繞三種常見(jiàn)的操作行為展開(kāi):擺形(Pose)、旋轉(zhuǎn)(Turn)和擰(Screw)。
左: Pose-擺出符合環(huán)境的形態(tài)。中:Turn-將物體旋轉(zhuǎn)到指定的角度。
D’Kitty的任務(wù)主要圍繞三種常見(jiàn)的移動(dòng)行為——站立、定向和行走。
左:站立-直立。右:走-移動(dòng)到目標(biāo)點(diǎn)。
針對(duì)這些基準(zhǔn)任務(wù),研究人員評(píng)估了幾種深度強(qiáng)化學(xué)習(xí)方法(on-policy, off policy, demo-accelerated, supervised),評(píng)估結(jié)果和最終策略被作為baseline包含在軟件包中以供比較。具體的任務(wù)細(xì)節(jié)和基線性能請(qǐng)查看論文。
可重復(fù)性和穩(wěn)健性
ROBEL平臺(tái)具有強(qiáng)大的功能,可以支持直接的硬件訓(xùn)練,迄今已積累了超過(guò)14000個(gè)小時(shí)的實(shí)際經(jīng)驗(yàn)。一年來(lái),這些平臺(tái)已經(jīng)非常成熟。由于設(shè)計(jì)的模塊化,對(duì)系統(tǒng)的維護(hù)變得非常簡(jiǎn)單,幾乎不需要領(lǐng)域內(nèi)的專業(yè)知識(shí)。
為了確保平臺(tái)和基準(zhǔn)方法的可重復(fù)性,兩個(gè)不同的研究實(shí)驗(yàn)室分別對(duì)ROBEL進(jìn)行了研究。本研究?jī)H使用軟件分發(fā)和文檔。不允許親自訪問(wèn)。利用ROBEL的設(shè)計(jì)文檔和組裝說(shuō)明,二者都可以復(fù)制兩個(gè)硬件平臺(tái)?;鶞?zhǔn)任務(wù)在兩個(gè)實(shí)驗(yàn)室分別構(gòu)建的機(jī)器人上進(jìn)行訓(xùn)練。
下圖所示在兩個(gè)不同地點(diǎn)打造的兩個(gè)D'Claw機(jī)器人,它們不僅訓(xùn)練進(jìn)度相似,而且最終收斂到了相同的性能,說(shuō)明ROBEL基準(zhǔn)具備良好的可重復(fù)性。
在不同實(shí)驗(yàn)室開(kāi)發(fā)的兩個(gè)真實(shí)D'Claw機(jī)器人執(zhí)行任務(wù)的訓(xùn)練性能
實(shí)驗(yàn)結(jié)果與性能展示
到目前為止,ROBEL在各種強(qiáng)化學(xué)習(xí)研究中都非常有用。下面我們重點(diǎn)介紹一些關(guān)鍵結(jié)果, D’Claw平臺(tái)是完全自主的,可以在很長(zhǎng)一段時(shí)間內(nèi)維持實(shí)驗(yàn)的可靠性,而且可以使用剛性和柔性對(duì)象的各種強(qiáng)化學(xué)習(xí)范例和任務(wù)改進(jìn)實(shí)驗(yàn)。
上圖:高靈活性目標(biāo):使用DAPG進(jìn)行的硬件訓(xùn)練有效學(xué)習(xí)了如何對(duì)靈活目標(biāo)進(jìn)行旋轉(zhuǎn)。實(shí)驗(yàn)中可以觀察到機(jī)器人對(duì)剛性更高的閥門中心部分進(jìn)行操縱。D'Claw對(duì)硬件訓(xùn)練的穩(wěn)健性很高,這有助于在難于模擬的任務(wù)上獲得成功。
重要的是,D'Claw平臺(tái)是高度模塊化的,而且具備高度可重復(fù)性,便于進(jìn)行擴(kuò)展實(shí)驗(yàn)。通過(guò)擴(kuò)展設(shè)置,我們發(fā)現(xiàn)多個(gè)D'Claws可以通過(guò)共享經(jīng)驗(yàn)更快地對(duì)任務(wù)進(jìn)行集體學(xué)習(xí)。
通過(guò)共享SAC的分布式版本的硬件訓(xùn)練流程,可以面向多個(gè)目標(biāo)任務(wù)實(shí)現(xiàn)任意角度的結(jié)合。在多任務(wù)定制中,完成五個(gè)任務(wù)只需要單個(gè)任務(wù)經(jīng)驗(yàn)的2倍即可。在視頻中,五只D'Claws機(jī)器人將不同的物體旋轉(zhuǎn)180度(這是出于視覺(jué)呈現(xiàn)的考慮,實(shí)際策略可以實(shí)現(xiàn)任意角度的旋轉(zhuǎn))
總之,ROBEL平臺(tái)成本低、性能強(qiáng)大、可靠性高,可以滿足新興的基于學(xué)習(xí)范式的需求,這些范式需要高度的可擴(kuò)展性和彈性。我們已經(jīng)將ROBEL發(fā)布到開(kāi)源社區(qū)中,相信可以推動(dòng)相關(guān)研究和實(shí)驗(yàn)的多樣性的提升。
以上就是托普仕帶來(lái)的麻省理工學(xué)院新成果介紹,想要了解更多留學(xué)資訊,敬請(qǐng)關(guān)注托普仕留學(xué)官網(wǎng),資深顧問(wèn)在線答疑,幫助力你的名校夢(mèng)。