百家乐官网 (中国)有限公司官网

澎湃Logo
下載客戶端

登錄

  • +1

讓機器人更像人類有了新方法!港科大新算法對齊人機動作形態,無需重復訓練,輕量模塊通用且適配

2025-04-12 12:42
來源:澎湃新聞·澎湃號·湃客
字號

HR-Align團隊 投稿

量子位 | 公眾號 QbitAI

“讓機器人看懂世界、聽懂指令、動手干活”正從科幻走向現實。

基于大規模人類視頻數據進行視覺預訓練,是開發真實場景可泛化機器人操作算法的有效途徑。

核心在于人類操作與機器人動作序列高度相似,因此從人類視頻習得的動態表征可遷移至機器人任務;然而 “從人到機器人” 的遷移面臨關鍵阻礙,即人 - 機器人數據域間差異(Human-Robot Domain Discrepancy)。盡管二者執行任務時動作看似相似,但其形態存在根本差異。

這種差異導致了一個重要問題:即便在海量人類數據上預訓練了模型,這些模型一旦直接用于機器人任務時,其表現卻往往大打折扣,甚至失敗。

來自香港科技大學(廣州)的團隊提出了一個核心問題:

如何減少人-機器人之間的數據域差異影響,使得從人類預訓練中獲得的視覺模型,能夠更有效地幫助機器人完成實際任務?

在這一問題之下,他們提出人類視頻預訓練遷移新范式,利用匹配的人類-機器人操作視頻,設計語義對齊方法彌合了這種跨域鴻溝。

其中第一作者周佳明,香港科技大學廣州二年級博士生,研究方向為人類視頻動作模仿以及可泛化的機器人操作;通訊作者是梁俊衛,是香港科技大學廣州助理教授。

傳統做法(如圖左)直接用在Ego4D等人類數據集上訓練的模型去處理機器人任務,這種直接遷移的方法自然會受到人類-機器人數據域差異的干擾。

本研究提出的新范式(如圖右)通過利用語義對齊的人類-機器人視頻對,在現有的人類視頻預訓練模型中插入Adapter微調模塊,通過對比損失將機器人數據上調整的模型的語義和預訓練模型中良好建模的人類動態語義進行對齊,從而減少域差異的干擾。

HR-Align跨越人機語義鴻溝的橋梁

根據提出的預訓練適配新范式,該工作設計了HR-Align(Human-Robot Semantic Alignment)方法。其核心思想非常簡潔:

如果能夠獲取“同一個任務”的人類操作視頻和機器人操作視頻,并用它們之間的對應關系來引導模型微調,那就有可能建立起一個人-機器人之間的語義對齊機制。

1. 從“獨立預訓練”到“配對視頻語義對齊”

傳統的視覺預訓練方法是在純人類視頻上進行訓練,然后將模型“凍結”,直接應用于機器人任務。這種方式忽略了人和機器人領域間的差異。HR-Align打破了這種“直接遷移”的壁壘,主張在預訓練和下游任務之間,引入一個“適配階段”。

在這個階段中,研究者使用了一個具有語義配對的人機數據集,這個數據集中每一個人類動作視頻,都有一個對應的機器人操作視頻。這種人-機器人視頻對提供了一個天然的“語義橋梁”。

2. 引入對比學習機制,實現語義對齊

HR-Align適配的關鍵是人-機器人對比對齊損失。在適配過程中,對于已有的人類視頻預訓練視覺編碼器,HR-Align分別從人類視頻和機器人視頻中提取凍結的語義特征。同時,使用另一分支在編碼器中引入輕量級Adapter模塊在機器人視頻上微調,從而提取機器人視頻的適配特征。模型適配的核心約束是,相比機器人視頻的凍結特征,機器人視頻的適配特征與匹配的人類視頻特征應當具有更加相似的語義;

3. 輕量高效,適配通用

與其他需要大規模重新訓練、或者為每種機器人環境單獨調整模型的方案不同,HR-Align具備如下優勢:

參數高效:僅適配小模塊,主模型無需大規模更新;

通用性強:同一個適配模型可泛化至多個任務和環境,無需逐一定制;

數據易得:越來越多的平臺提供人-機器人視頻對,為方法的可落地提供保障。

實驗結果

在RLBench的18個仿真任務下,通過HR-Align方法適配的D4R-Align模型相比原來的D4R預訓練模型,平均成功率提升了4.6%;而通過HR-Align方法適配的R3M-Align模型相比未調整的R3M模型,平均成功率提升了8.9%;

在五個真實場景的機器人任務上,D4R-Align和R3M-Align模型相比未適配的預訓練模型,平均成功率分別提升13%和11%;

這些顯著的提升不僅驗證了方法的有效性,也表明該適配策略具有極高的實際應用價值。

核心貢獻總結

提出新問題:從大規模人類視頻預訓練中學習可泛化機器人操作,人體-機器人數據的域差異問題不可忽視。

提出新范式:通過匹配的人-機器人動作視頻,實現人類動作與機器人操作的語義對齊,不再盲目依賴預訓練模型的泛化能力。

高效適配方法:引入輕量級Adapter模塊,僅需極少參數微調,即可將模型適配到機器人任務中。

充分實驗驗證:在20個仿真任務與5個真實機器人任務中均取得超過7%平均成功率提升,適配模型顯著優于未適配版本。

論文鏈接: https://arxiv.org/pdf/2406.14235

項目主頁: https://jiaming-zhou.github.io/projects/HumanRobotAlign/

開源倉庫: https://github.com/jiaming-zhou/HumanRobotAlign

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            湾仔区| 太阳城网上娱乐城| 大发888真人网址| 新乐市| 新手百家乐指点迷津| 黔东| 大发888娱乐场官网官方下载| 免费百家乐官网计划软件| 皇冠足球开户| 百家乐输钱的原因| 百家乐官网赌神| 巢湖市| 百家乐翻天快播粤语| 百家乐官网园云鼎娱乐平台| 娱乐城注册送18体验金| 百家乐怎样玩的| 游戏百家乐官网押金| 战神国际| 百家乐真钱在线| 百家乐官网洗码| 百家乐在线娱乐网| 赌博百家乐官网游戏| 澳门顶级赌场手机在线登陆| 聚宝盆百家乐的玩法技巧和规则| 至尊百家乐官网吕文婉| 百家乐官网视频游戏界面| 博王国际娱乐| 香港六合彩开奖记录| 百家乐平注法到6568| 网上百家乐心得| 百家乐官网出闲几率| 新乐界娱乐城| bet365滚球| 百家乐园云鼎娱乐平台| 百家乐官网娱乐平台备用网址| 最新皇冠网| 大发888娱乐城加速器| 女神百家乐娱乐城| 先锋百家乐的玩法技巧和规则| 百家乐断缆赢钱| 玩百家乐高手支招篇|