為應對人機協作(HRC)的快速發展,一個研究團隊近日發表了一款全新的大型資料集。此資料集專注於人機共存環境中的人類組裝與拆卸動作,包含超過 10,000 筆樣本,由 33 位不同特徵的參與者貢獻。所有數據均透過多視角攝影機同步錄製,提供 RGB 影片及 2D/3D 人體骨架資料。
此資料集的核心價值,在於它填補了現有研究的關鍵缺口。它特別突顯了真實工業場景中的挑戰,例如機器人移動時對人類造成的「部分遮蔽」(Partial Occlusions)、難以區分的相似重複性動作,以及不同參與者的多變行為模式,這些都是過去資料集所忽視的。
研究人員指出,現有的人體動作資料集多半有局限性。許多資料集(如 Kinetics)僅關注「揮手」等簡單日常活動,缺乏任務順序;而部分 HRC 相關資料集要不依賴穿戴式裝置,硬體門檻高,要不就缺乏人機互動干擾(如遮蔽)的真實動態情境。
為克服這些限制,新資料集在設計上強調實用性與泛化能力。首先,它僅使用三臺市售的網路攝影機(Webcams)進行非接觸式拍攝,大幅降低了硬體門檻。其次,數據來自 33 位不同性別、身高、體型的參與者,有助於訓練出更穩健、泛化能力更強的模型。
在任務設計上,團隊採用了一套可 3D 列印重現的齒輪組裝系統,方便全球研究者重現實驗。此資料集不僅反映了真實世界的不確定性(如遮蔽),更提供了原始影片、精確註釋及 Python 腳本,確保了研究的透明度與可重現性。
團隊利用 13 種先進的深度學習模型進行了基準測試。結果顯示,模型的「離線」分析與「線上」即時推論間存在顯著性能差距,這為未來研究指明了方向。此資料集的開放,預期將大力推動人體動作預測、機器人任務規劃及人機協作策略的進一步發展。