- +1
博士答辯人沒來,導(dǎo)師還贊不絕口?
原創(chuàng) 關(guān)注前沿科技 量子位
邊策 蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
疫情之下,我們已經(jīng)看慣了線上的一切:云畢業(yè)典禮、云學(xué)術(shù)會議、云發(fā)布會。
但這些“云”終究讓人感覺沒“內(nèi)味”。
因?yàn)闆]有身后的PPT投影、手舞足蹈的演講,終歸都是沒有靈魂的!
所以,上海交大ACM班校友、南加州大學(xué)在讀博士黃锃用專業(yè)知識,給自己辦了場特殊的博士論文答辯。
他只有一個(gè)攝像頭,家里沒有投影儀,卻把自己的答辯會辦得像在禮堂演講一樣。演講人從2D變成3D,臥室背后的白墻也變成自己展示論文PPT的幕布。
右上角就是真實(shí)的黃锃同學(xué),他一邊演講,電腦實(shí)時(shí)把他變成3D模型投影到場景中,導(dǎo)師們看到這一幕不禁笑了,隨手就是一個(gè)轉(zhuǎn)發(fā)。
在黃锃同學(xué)的主頁上,我們發(fā)現(xiàn)了他的學(xué)弟李瑞龍?jiān)缇烷_始“整活”,驗(yàn)證了3D論文答辯的可行性。現(xiàn)在黃锃同學(xué)的這項(xiàng)研究已經(jīng)被ECCV 2020收錄。背后的技術(shù)
黃锃過去就一直從事3D圖像重建的研究工作,去年他參與的一項(xiàng)研究PIFu(像素對齊隱式函數(shù))可以從單張圖片重建完全紋理的3D人體圖像。
但是因?yàn)镻IFu對硬件的要求很高,導(dǎo)致該技術(shù)并不能用于實(shí)時(shí)的圖像重建。為此,黃锃和團(tuán)隊(duì)里的李瑞龍、修宇亮等一起提出了一種新穎的分層表面定位算法,和一種無需顯式提取表面網(wǎng)格的直接渲染方法。
通過從粗到細(xì)的方式選擇不必要的區(qū)域進(jìn)行評估,成功地將3D重建速度提高了兩個(gè)數(shù)量級,同時(shí)沒有降低質(zhì)量。
結(jié)果證明,這種從單攝像頭實(shí)時(shí)重建3D視頻的方法,處理速度可達(dá)15fps,3D空間分辨率為2563。
為了減少實(shí)時(shí)3D重建所需的計(jì)算量,作者引入了兩種新穎的加速技術(shù):基于八叉樹的魯棒表面定位、無網(wǎng)格渲染。由于算法流水線的主要瓶頸,是要在過多的3D位置上進(jìn)行估計(jì),因此,減少要估計(jì)的點(diǎn)數(shù)將大大提高性能。
八叉樹是用于有效形狀重構(gòu)的通用數(shù)據(jù)表示,它可以分層減少存儲數(shù)據(jù)的節(jié)點(diǎn)數(shù)量。
作者提出的這種表面定位算法,保留了原來靠蠻力重建的準(zhǔn)確性,而且復(fù)雜度與基于樸素八叉樹的重建算法相同。
此外,作者通過直接從PIFu生成的視圖渲染,來繞過顯式網(wǎng)格重建階段。下圖展示了無網(wǎng)格渲染算法的原理,虛線和實(shí)線分別表示真實(shí)表面和重建表面。
結(jié)合這兩種算法,可以實(shí)時(shí)從任意角度快速渲染3D圖像。該算法還面臨一個(gè)問題,那就是有些特殊的姿勢和視角很難恢復(fù),因?yàn)樗鼈冎辉谟?xùn)練數(shù)據(jù)集中占據(jù)很小的一部分。
一般的方法是進(jìn)行數(shù)據(jù)擴(kuò)展,但是對于這種3D數(shù)據(jù)來作擴(kuò)增是很困難的。
然而,之前的研究證明,改變數(shù)據(jù)采樣分布會直接影響重建的質(zhì)量,于是作者找到了一種解決訓(xùn)練數(shù)據(jù)偏差的方法OHEM。
其關(guān)鍵思想,是讓網(wǎng)絡(luò)自動(dòng)發(fā)現(xiàn)困難的樣本,自適應(yīng)地更改采樣概率。
最后,作者的方法在沒有任何超參數(shù)的情況下實(shí)現(xiàn)了最快加速,在保持原始重建精度的同時(shí),處理速度從30秒減少到0.14秒。
與無網(wǎng)格渲染技術(shù)相結(jié)合后,處理一幀圖像的時(shí)間只需0.06秒。系統(tǒng)的總體延遲平均為0.25秒。
這種方法不需要搭建搭建具有多個(gè)視角攝像頭的工作室,讓普通人也能用上實(shí)時(shí)的3D演講視頻。作者指出,本文的主要貢獻(xiàn)點(diǎn)在于:
1、從單眼視頻中實(shí)時(shí)生成3D全身視頻,可以在各種姿勢和服裝類型下構(gòu)造出完全紋理的衣服,而不受拓?fù)浼s束。
2、提出一種漸進(jìn)式表面定位算法,可使表面重建比基線快兩個(gè)數(shù)量級,而且不會影響重建精度,在速度和正確性之間做了很好的取舍。
3、提出無需明確提取表面網(wǎng)格即可直接用于視圖合成的渲染技術(shù),進(jìn)一步提高了整體性能。
4、提出一種有效的訓(xùn)練技術(shù),可解決合成生成的訓(xùn)練數(shù)據(jù)不平衡問題。
和全息投影相比?
乍一看投影效果,是不是想到了馬云今年在人工智能大會上,利用商湯全息投影完成的演講?
△ 來源于微博@澎湃新聞雖然也是將人的影響投影到另一處場景中,不過二者的性質(zhì)完全不同。
全息投影成像的原理,是利用光的干涉和衍射,再現(xiàn)出物體真實(shí)的三維圖像記錄。
而這次的虛擬答辯效果,實(shí)際上是利用AI將攝像頭拍到的2D人物圖像,轉(zhuǎn)換成3D的效果。
也就是說,二者無論是從原理、還是從設(shè)備需求來說都不一樣。
不僅如此,應(yīng)用的場景也有所不同。
全息投影更側(cè)重于真實(shí)場景下「互動(dòng)」的效果,也就是說,你在線下場景中,可以與一個(gè)投影出的3D版「真人」互動(dòng)、或是聽一場3D全息投影的演唱會等。
但這次的虛擬3D生成技術(shù),則是側(cè)重于在電子設(shè)備上將2D圖像視頻模擬出3D效果。無論是單薄的2D視頻、還是無法利用視頻呈現(xiàn)的2D照片,利用這項(xiàng)技術(shù)都可以還原出仿真的人物形象。
也就是說,一臺攝像機(jī)拍出來的普通2D效果,利用這項(xiàng)技術(shù)就能轉(zhuǎn)換成效果斐然的3D圖像。
關(guān)于作者
用這項(xiàng)技術(shù)答辯的黃锃,本科畢業(yè)于上海交通大學(xué)ACM班。而這項(xiàng)實(shí)時(shí)技術(shù)的主要貢獻(xiàn),則來自他合作的兩位學(xué)弟。
這篇論文的兩個(gè)同等貢獻(xiàn)的第一作者,分別是兩位黃锃的博士一年級學(xué)弟李瑞龍、修宇亮。李瑞龍畢業(yè)于清華基礎(chǔ)科學(xué)班,在清華獲得了物理和數(shù)學(xué)學(xué)士學(xué)位,以及計(jì)算機(jī)科學(xué)碩士學(xué)位。
修宇亮則畢業(yè)山東大學(xué)軟件工程學(xué)院數(shù)字媒體技術(shù)專業(yè),本科期間他還是專業(yè)第一,之后進(jìn)入上海交大獲得計(jì)算機(jī)碩士學(xué)位。至于黃锃自己,他在高中時(shí)就曾獲得全國中學(xué)生物理奧賽金牌,進(jìn)入上海交大ACM班就讀后,本科四年均獲獎(jiǎng)學(xué)金,還順便在數(shù)學(xué)建模美賽(MCM)上拿了個(gè)一等獎(jiǎng)。本科期間,黃锃曾在微軟亞洲研究院實(shí)習(xí),師從首席研究員曾文軍,參與機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)相關(guān)的科研課題中。
△ 曾文軍,圖源:微軟亞洲研究院也是在這里,他開始深入地認(rèn)識和掌握深度學(xué)習(xí)的核心概念和技巧,也開始認(rèn)真思考機(jī)器學(xué)習(xí)的現(xiàn)狀和發(fā)展。
李瑞龍、修宇亮、黃锃均師從計(jì)算機(jī)圖形學(xué)領(lǐng)域有名的黎顥教授,主要研究方向是結(jié)合幾何處理和深度學(xué)習(xí)的虛擬人體重建。
△ 黎顥博士期間,黃锃曾在Facebook實(shí)習(xí),共有9篇論文發(fā)表在論文頂會上,其中SIGGRAPH 1篇,ECCV 2篇,CVPR 2篇,ICCV 3篇,ICLR 1篇。
黃锃最近的一項(xiàng)研究ARCH,則發(fā)表在CVPR 2020上,這項(xiàng)研究主要是關(guān)于穿著衣服人的3D可動(dòng)畫化重構(gòu)。
而黃锃最「出圈」的研究,是一項(xiàng)名為PIFu的2D圖像轉(zhuǎn)3D技術(shù),在國外的社交媒體上被網(wǎng)友拿來模擬了各種2D物體圖像。有日本網(wǎng)友利用PIFu的技術(shù),將照片上的奧黛麗·赫本和坂本龍馬「請」到了自己的家里。
3D的效果還是很不錯(cuò)的。(就是,黑白的圖像看起來略有點(diǎn)陰森…)論文地址:
https://arxiv.org/abs/2007.13988
視頻介紹:
https://www.bilibili.com/video/av753971174/
黃锃個(gè)人主頁:
https://zeng.science/
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。
原標(biāo)題:《博士答辯人沒來,導(dǎo)師還能贊不絕口!上海交大ACM校友實(shí)力演繹學(xué)以致用》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2024 上海東方報(bào)業(yè)有限公司