百家乐官网 (中国)有限公司官网

澎湃Logo
下載客戶端

登錄

  • +1

搟面皮包餃子,MIT、CMU等的研究員讓機(jī)器人自己學(xué)會(huì)了

澎湃新聞?dòng)浾?邵文
2022-04-02 10:37
來源:澎湃新聞
? 科學(xué)湃 >
字號

你能想象讓機(jī)器人揉面團(tuán),搟面皮,包餃子嗎?對機(jī)器人來說,操縱衣物、面團(tuán)等柔軟無堅(jiān)固形狀的可形變材料一直是個(gè)棘手的問題。面團(tuán)的形狀可以以多種方式變化,而這些變化很難用方程式表示。

此外,從面團(tuán)中創(chuàng)建新形狀需要多個(gè)步驟并使用不同的工具。對于機(jī)器人來說,學(xué)習(xí)具有長步驟序列的操作任務(wù)尤其困難,因?yàn)閷W(xué)習(xí)通常是通過反復(fù)試驗(yàn)完成的,其中有許多可能的選擇。

當(dāng)?shù)貢r(shí)間3月30日,麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)和加州大學(xué)圣地亞哥分校的研究人員為這種任務(wù)提出了一種更好的方法。他們創(chuàng)造了一種“兩階段學(xué)習(xí)框架”,名為“Teacher”(老師)的算法解決機(jī)器人要完成任務(wù)所必需的每個(gè)步驟,然后它訓(xùn)練“Student”(學(xué)生)機(jī)器學(xué)習(xí)模型去學(xué)習(xí)關(guān)于何時(shí)及如何執(zhí)行任務(wù)所需的每項(xiàng)技能的抽象概念,比如用搟面杖。有了這些知識,系統(tǒng)就會(huì)推理出如何執(zhí)行技能來完成整個(gè)任務(wù)。

研究人員認(rèn)為,這種他們稱之為DiffSkill的方法可以在模擬中執(zhí)行復(fù)雜的操作任務(wù),例如切和揉面團(tuán),或從砧板周圍收集面團(tuán),同時(shí)優(yōu)于其他機(jī)器學(xué)習(xí)方法。

除了制作披薩、餃子外,這種方法還可以應(yīng)用于機(jī)器人需要操縱可形變物體的其他環(huán)境中,如為老年人或運(yùn)動(dòng)障礙者喂食、洗澡或穿衣的護(hù)理機(jī)器人。

“這種方法更接近我們?nèi)祟愑?jì)劃行動(dòng)的方式。當(dāng)一個(gè)人執(zhí)行一項(xiàng)長期任務(wù)時(shí),我們并沒有寫下所有的細(xì)節(jié)。我們有一個(gè)更高級別的計(jì)劃者,它大致告訴我們在此過程中需要實(shí)現(xiàn)哪些階段以及一些中間目標(biāo),然后我們執(zhí)行它們,”論文作者之一,MIT計(jì)算機(jī)科學(xué)與人工智能專業(yè)的研究生李云珠說道。

分開來看具體的工作原理。DiffSkill框架中的“Teacher”是一種軌跡優(yōu)化算法,可以解決物體初始狀態(tài)和目標(biāo)位置很接近的短視界(short-horizon)任務(wù)。軌跡優(yōu)化器在模擬現(xiàn)實(shí)世界的物理模擬器中工作(稱為可微物理模擬器,它將“Diff”放入“DiffSkill”中)。“Teacher”算法使用模擬器中的信息來學(xué)習(xí)面團(tuán)在每個(gè)階段必然如何移動(dòng),一次一個(gè),然后輸出這些軌跡。

然后“Student”神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)模仿老師的動(dòng)作。作為輸入,它使用兩個(gè)攝像頭圖像,一個(gè)顯示當(dāng)前狀態(tài)的面團(tuán),另一個(gè)顯示任務(wù)結(jié)束時(shí)的面團(tuán)。神經(jīng)網(wǎng)絡(luò)生成一個(gè)高級計(jì)劃,以確定如何將不同的技能聯(lián)系起來以達(dá)到目標(biāo)。然后,它為每個(gè)技能生成特定的、短視界的軌跡,并將命令直接發(fā)送到工具。

研究人員使用這種技術(shù)對三種不同的模擬面團(tuán)操作任務(wù)進(jìn)行了實(shí)驗(yàn)。在一項(xiàng)任務(wù)中,機(jī)器人使用抹刀將面團(tuán)舉到砧板上,然后使用搟面杖將其壓平。在另一個(gè)例子中,機(jī)器人使用抓手從柜臺上收集面團(tuán),將其放在抹刀上,然后將其轉(zhuǎn)移到砧板上。在第三個(gè)任務(wù)中,機(jī)器人用刀將一堆面團(tuán)切成兩半,然后使用夾具將每一塊面團(tuán)運(yùn)送到不同的位置。

“DiffSkill能夠勝過依賴強(qiáng)化學(xué)習(xí)的流行技術(shù),在強(qiáng)化學(xué)習(xí)中,機(jī)器人通過反復(fù)試驗(yàn)來學(xué)習(xí)任務(wù)。事實(shí)上,DiffSkill是唯一能夠成功完成所有三個(gè)面團(tuán)操作任務(wù)的方法。有趣的是,我們發(fā)現(xiàn)‘Student’神經(jīng)網(wǎng)絡(luò)甚至能夠勝過‘Teacher’算法,”卡內(nèi)基梅隆大學(xué) (CMU) 研究生林興宇說道。

林興宇認(rèn)為,這個(gè)框架為機(jī)器人獲得新技能提供了一種新穎的方式,可以將這些技能鏈接起來,以解決更復(fù)雜的任務(wù)。這些任務(wù)超出了以前的機(jī)器人系統(tǒng)的能力。

因?yàn)樗麄兊姆椒▊?cè)重于控制工具(抹刀、刀、搟面杖等),所以它可以應(yīng)用于不同的機(jī)器人,但前提是它們要使用研究人員定義的特定工具。未來,他們計(jì)劃將工具的形狀整合到“Student”網(wǎng)絡(luò)的推理中,以便將其應(yīng)用于其他設(shè)備。

研究人員打算通過使用3D數(shù)據(jù)作為輸入來提高DiffSkill的性能,而不是使用難以從模擬傳輸?shù)浆F(xiàn)實(shí)世界的2D圖像。他們還希望使神經(jīng)網(wǎng)絡(luò)規(guī)劃過程更高效,并收集更多樣的訓(xùn)練數(shù)據(jù),以增強(qiáng)DiffSkill對新情況的泛化能力。從長遠(yuǎn)來看,他們希望將 DiffSkill應(yīng)用到更多樣化的任務(wù)中,包括布料操作。

這項(xiàng)研究由卡內(nèi)基梅隆大學(xué)(CMU)研究生林興宇,加州大學(xué)圣地亞哥分校研究生黃志奧,麻省理工學(xué)院腦與認(rèn)知科學(xué)系認(rèn)知科學(xué)與計(jì)算職業(yè)發(fā)展教授Joshua B. Tenenbaum,CMU助理教授David Held,以及MIT-IBM Watson AI Lab的研究科學(xué)家 Chuang Gan合作完成。其得到了美國國家科學(xué)基金會(huì)、LG電子、麻省理工學(xué)院-IBM 沃森人工智能實(shí)驗(yàn)室、美國海軍研究辦公室和國防高級研究計(jì)劃局的部分支持。

    責(zé)任編輯:李躍群
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            星河百家乐现金网| 百家乐官网视频聊天软件| 四海资迅| 百家乐双面数字筹码| 百家乐官网视频麻将| 百家乐输惨了| 澳门百家乐官网网络游戏信誉怎么样 | 澳门档百家乐官网的玩法技巧和规则 | 网上百家乐骗局| 真人百家乐官网是啥游戏| 永利高官网| 做生意摆放龙龟方向| 百家乐官网娱乐城送分| 大发888资讯| 广州百家乐赌场| 澳门百家乐官网十大缆| 大发888娱乐场下载samplingid112| 百家乐官网QQ群娱乐| 万博88| 机器百家乐心得| 适合属虎做生意的名字| 老虎百家乐官网的玩法技巧和规则| 百家乐官网赢钱皇冠网| 顶级赌场是骗人的吗| 金樽百家乐的玩法技巧和规则| 什么叫百家乐官网的玩法技巧和规则| 百家乐官网怎么下注能赢| 龙口市| 大发888开户网址| 百家乐庄闲客户端| 百家乐官网大路小路三珠路| 筠连县| 德州扑克单机| 威尼斯人娱乐城首存优惠| 百家乐赌博娱乐城大全| 百家乐如何写路| 百家乐官网任你博娱乐| 凯时百家乐官网技巧| 利记| 网上棋牌赌博| 六盘水市|