- +1
Light | 呼之欲出:裸眼3D時代終要到來
從維多利亞時期的立體鏡(stereoscope)到高度電子化的 Oculus Quest 2,光學顯示與電氣工程領域的一次次進步正在逐漸模糊虛擬與現實的邊界。
計算全息(CGH)通過數字化記錄虛擬或真實存在物體的光波振幅與相位,可以復現具有物理景深效果且能夠裸眼觀看的真實三維場景。這令其成為虛擬現實以及增強現實領域的下一個變革性技術與研究熱點。
為了獲取計算全息圖,傳統方法通常采用光波仿真加相位編碼,或基于迭代的相位檢索(phase retrieval)以滿足相位型空間調制器無法調制強度的約束。
前者快捷,但相位編碼需要針對不同場景手動調節最優濾波強度,以獲得清晰無散斑的三維顯示,且當三維場景遠離全息圖所在平面時,需要更強的濾波消除散斑,因此將犧牲一定的空間分辨率。后者可實現無人工干預的端到端生成,但迭代算法非常耗時。
近來基于監督學習與無(半)監督學習訓練的神經網絡被分別用來加速前后兩類算法。這些算法雖然取得了顯著的進步,但改進后的兩類算法相對的優劣勢依然存在。
為了突破這一局限,來自麻省理工學院的研究團隊提出了兩階段(監督+無監督)訓練法以融合兩類方法的優勢,并首次引入了分層深度圖像(Layered Depth Image,LDI)以替代體素與 RGB-D 圖片作為神經網絡的輸入表征,實現了完整且渲染高效的三維信息傳遞。
該研究成果以“End-to-end Learning of 3D Phase-only Holograms for Holographic Display”為題在線發表于 Light: Science & Applications。通訊作者為麻省理工學院計算機與人工智能實驗室 Wojciech Matusik 教授,第一作者/共同通訊作者史亮博士生,第二作者李北辰博士生。該工作得到了 MIT.nano NCSOFT Seed Grant 的支持。

圖1:分層深度圖像與體素的三維編碼效率對比:(a)分層深度圖像的渲染邏輯,(b)分層深度圖像的渲染結果,三層即可記錄相機視角下幾乎完整的三維信息,(c)體素渲染結果,高質量三圍編碼需要使用細粒度的體素間隔,導致結果稀疏,編碼效率相對低下,且深度信息被量化。

圖2:兩階段神經網絡訓練管線
相較課題組前期的工作(Nature 2021, 591, 7849),研究者引入了基于LDI和掩膜分層法(silhouette-mask layer-based method)計算的全新大規模全息圖數據集 MIT-CGH-4K-V2,以實現更為逼真的 3D 景深效果。研究者同時提出了基于第二階段無監督學習的深度雙相位編碼(deep double-phase method),可以針對距離全息圖平面不同傳播距離的三維場景實現端到端高質量純相位全息圖生成。

圖3:(a)三維投影拍攝結果展示,相較前期工作,本文改善了前景背景邊界的失真,實現了更逼真的景深效果,(b)神經網絡同時實現全息投影像差矯正
研究結果顯示,該方法能夠穩健地處理非完美深度圖的真實采集輸入,且通過用戶閉環(user-in-the-loop)校準數據集,可以實現端到端生成光學像差矯正后的三維投影,已達到去除用戶佩戴矯正眼鏡的需求。
| 論文信息 |
Shi, L., Li, B. & Matusik, W. End-to-end learning of 3D phase-only holograms for holographic display. Light Sci Appl 11, 247 (2022).
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司