讓機器人更像人類有了新方法！港科大新算法對齊人機動作形態，無需重復訓練，輕量模塊通用且適配

2025-04-12 12:42

來源：澎湃新聞·澎湃號·湃客

HR-Align團隊投稿

量子位 | 公眾號 QbitAI

“讓機器人看懂世界、聽懂指令、動手干活”正從科幻走向現實。

基于大規模人類視頻數據進行視覺預訓練，是開發真實場景可泛化機器人操作算法的有效途徑。

核心在于人類操作與機器人動作序列高度相似，因此從人類視頻習得的動態表征可遷移至機器人任務；然而 “從人到機器人” 的遷移面臨關鍵阻礙，即人 - 機器人數據域間差異（Human-Robot Domain Discrepancy）。盡管二者執行任務時動作看似相似，但其形態存在根本差異。

這種差異導致了一個重要問題：即便在海量人類數據上預訓練了模型，這些模型一旦直接用于機器人任務時，其表現卻往往大打折扣，甚至失敗。

來自香港科技大學（廣州）的團隊提出了一個核心問題：

如何減少人-機器人之間的數據域差異影響，使得從人類預訓練中獲得的視覺模型，能夠更有效地幫助機器人完成實際任務？

在這一問題之下，他們提出人類視頻預訓練遷移新范式，利用匹配的人類-機器人操作視頻，設計語義對齊方法彌合了這種跨域鴻溝。

其中第一作者周佳明，香港科技大學廣州二年級博士生，研究方向為人類視頻動作模仿以及可泛化的機器人操作；通訊作者是梁俊衛，是香港科技大學廣州助理教授。

傳統做法（如圖左）直接用在Ego4D等人類數據集上訓練的模型去處理機器人任務，這種直接遷移的方法自然會受到人類-機器人數據域差異的干擾。

本研究提出的新范式（如圖右）通過利用語義對齊的人類-機器人視頻對，在現有的人類視頻預訓練模型中插入Adapter微調模塊，通過對比損失將機器人數據上調整的模型的語義和預訓練模型中良好建模的人類動態語義進行對齊，從而減少域差異的干擾。

HR-Align跨越人機語義鴻溝的橋梁

根據提出的預訓練適配新范式，該工作設計了HR-Align（Human-Robot Semantic Alignment）方法。其核心思想非常簡潔：

如果能夠獲取“同一個任務”的人類操作視頻和機器人操作視頻，并用它們之間的對應關系來引導模型微調，那就有可能建立起一個人-機器人之間的語義對齊機制。

1. 從“獨立預訓練”到“配對視頻語義對齊”

傳統的視覺預訓練方法是在純人類視頻上進行訓練，然后將模型“凍結”，直接應用于機器人任務。這種方式忽略了人和機器人領域間的差異。HR-Align打破了這種“直接遷移”的壁壘，主張在預訓練和下游任務之間，引入一個“適配階段”。

在這個階段中，研究者使用了一個具有語義配對的人機數據集，這個數據集中每一個人類動作視頻，都有一個對應的機器人操作視頻。這種人-機器人視頻對提供了一個天然的“語義橋梁”。

2. 引入對比學習機制，實現語義對齊

HR-Align適配的關鍵是人-機器人對比對齊損失。在適配過程中，對于已有的人類視頻預訓練視覺編碼器，HR-Align分別從人類視頻和機器人視頻中提取凍結的語義特征。同時，使用另一分支在編碼器中引入輕量級Adapter模塊在機器人視頻上微調，從而提取機器人視頻的適配特征。模型適配的核心約束是，相比機器人視頻的凍結特征，機器人視頻的適配特征與匹配的人類視頻特征應當具有更加相似的語義；

3. 輕量高效，適配通用

與其他需要大規模重新訓練、或者為每種機器人環境單獨調整模型的方案不同，HR-Align具備如下優勢：

參數高效：僅適配小模塊，主模型無需大規模更新；

通用性強：同一個適配模型可泛化至多個任務和環境，無需逐一定制；

數據易得：越來越多的平臺提供人-機器人視頻對，為方法的可落地提供保障。

實驗結果

在RLBench的18個仿真任務下，通過HR-Align方法適配的D4R-Align模型相比原來的D4R預訓練模型，平均成功率提升了4.6%；而通過HR-Align方法適配的R3M-Align模型相比未調整的R3M模型，平均成功率提升了8.9%；