- +1
跟你一塊卷的同事,確定是個人嗎?
原創 關注前沿科技 量子位
金磊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
一群人圍坐在一間會議室里,他們的目光全部聚焦在大屏幕中播放的視頻。
這其實是《每日經濟新聞》再日常不過的一次內容審核會議。
但這一次的背后,卻有一場較量在“暗流涌動”。
內容團隊和往常一樣,仔細地端詳著灰度測試視頻中主播播報的新聞。
但與此同時,同一屋檐下的技術團隊同事,這一刻卻在緊握雙拳、捏著一把冷汗:
“千萬不要發現任何端倪……”
沒錯,正是這樣一段看似再正常不過的新聞播報,卻成為了這場“較量”的根本所在——
因為視頻里的主播N小黑,TA并不是個人,而是由AI技術合成的數字虛擬人。
當眾人反應過來之后,這件事情在《每日經濟新聞》內部迅速炸開了鍋,后來甚至有人還問“視頻里的哪部分是AI”?
技術團隊給出的解釋則是:
從表情到姿態,再到文字,全部都是。
而后來,這項技術更是悄悄地上線了70天,然而就連眼尖的觀眾們都沒有發現異常。
當真相公之于眾之際,結果可想而知,瞬間引發了大量的關注。
《每日經濟新聞》更是把它置頂到了其官方微博之上,重視程度可見一斑。
而這一切背后的技術,正是來自小冰團隊的小冰框架 (Xiaoice Avatar Framework)。
但講真,這還真不是小冰團隊第一次讓虛擬人驚艷于公眾面前。
你是不是個人,我已經感知不到了
小冰在打造N小黑的同時,其實還公布了另一個AI——N小白。
他倆在虛擬主播界的自然程度,可以說是第一次提高到了與人類較為接近的程度。
從他們在視頻的表現中不難看出,在播報新聞時的表情神態、嘴部變化,甚至是肢體動作的配合,都是具有一致性。
而且與N小黑一樣,N小白也是在被“公之于眾”前,連續70天、24小時不間斷地做著新聞直播,也是沒被發現的那種。
但也正如剛才提到的,N小黑和N小白只是小冰眾多虛擬人中的一隅。
這不最近,一名叫做崔筱盼的萬科員工獲得總部優秀新人獎的消息,刷爆了朋友圈。
原因無他,因為崔筱盼也并不是個人,同樣也是小冰框架下打造的虛擬人。
據介紹,崔筱盼其實早在2021年的2月份便入職萬科,在職期間主要負責各種應收/逾期提醒及工作異常偵測相關工作。
在系統算法的加持下,她能夠以驚人的速度學會人類在流程和數據中發現問題的方法。
她最終的工作成績,便是人類效率的千百倍,更是在催辦預付應收逾期單據核銷率達到91.44%。
而且崔筱盼的形象也是成為此次爆火的原因之一。
很多網友對她的形象評價為“知性美”,更有甚者“傻傻分不清”她是真人形象還是AI創造出來的。
但比起逼真和美貌,崔筱盼形象上更獨特的一點便是相由心生。
沒錯,小冰框架在創造她的形象時,并非是憑空而造,而是與她自身具備的業務能力相匹配的。
(也難怪崔筱盼會散發出職場女強人的氣息了)
當然,除了上述的虛擬人之外,諸如操著一口濃郁方言的“山東大哥”:
從央美畢業、最近代表中國參加迪拜世博會的夏語冰,它們均是出自小冰框架之手:
……
不難看出,這些小冰創造出來的眾多虛擬人,他們都具備各自的“看家本領”。
那么接下來的一個問題便是——
既能做到逼真,又富有多樣性,還能批量工廠式生產,小冰是如何做到的?
像個人,并不容易
小冰現在做出來的虛擬人,無論是靜態的照片,或者是動態的新聞主播,都可以說是真假難辨。
但講真,尤其是在打造N小黑和N小白的時候,小冰團隊最初也遇到了許多挑戰。
因為在此之前,大家能夠看到的所謂AI虛擬人主播還是比較假的。
例如主播的表情不夠自然,下半身幾乎不動,以及播報出來的語言也是帶有“機械味”。
甚至《每日經濟新聞》團隊的成員都對此舉打出了大大問號:
我們為什么要放上去這么假的虛擬人呢?
對此,小冰團隊為了首次能夠達到人類無法區分的程度,便在技術路線上做出了核心改變。
先從整體來看,小冰框架依然是核心。
而這一次的技術關鍵改變,在于對視覺上的優化。
以往我們在電影中能夠看到的逼真效果,要么采用的是傳統3D建模方法,要么就是CG后期渲染。
但這兩種方法在時間周期和資金成本上的缺點也是非常明顯。
基于這種現狀,小冰團隊便提出了一種新的方法——深度神經網絡渲染技術 (XNR)。
簡單來說,這項技術主要包含三個步驟。
第一步是構建兩個專家模型。
第一個是語音專家模型,基本的思路便是利用很大量的數據來學習、理解人類的語音。
例如人類在講話講到激動的時候,他的嘴型都會有比較明顯的變化,而語音專家模型就是學會這項技能。
第二個是專家模型,則是通過采集攝像機等設備拍出來的人物視頻數據,學習人類在說話過程中,嘴部的變化與眼睛、臉部其它肌肉之間如何產生微妙的聯動變化。
如此一來,就能會讓虛擬人在說話時,整個面部表情能夠變得自然流暢。
第二步便來到了渲染的環節。
也就是將語音輸入到深度神經網絡渲染模型,而后會一幀一幀地渲染出自然的臉,并形成動態的過程。
但在這個過程中,前兩個專家模型也會起到一個監督的作用,目的還是讓整體效果能夠自然。
第三步,則是一個自動化的過程。
也就是當把文字輸入進來的時候,就會通過TTS(TextToSpeech)的方式,將文本變成語音。
而當機器接收到這些語音信號后,又會將其聯動虛擬人的所有姿態、動作、表情等,最終生成一個完整的視頻。
也正是在這種技術路線上的改變,最終才得以讓小冰的虛擬人“瞞天過海”地騙過了人眼。
……
聊完了背后的技術,不少友友們肯定也要發問了:
做得這么像人,小冰要干什么?
我們還是拿N小黑/N小白的例子來看。
他們的效果一出來,便讓《每日經濟新聞》內容團隊的態度,發生了三百六十度的改變——
從最開始的質疑和抵觸,直接轉變成了積極去接受。
他們后來直接主動拿著需求,找到小冰團隊的技術人員說:
我們現在需要讓AI來播報這些內容……
這是因為他們發現虛擬人播報新聞,原來不僅可以做得像人一樣逼真,而且還能做到7 x 24小時不間斷的那種。
如此一來,便讓播報新聞這個本身就極具時效性的事情,變得異常精準高效,還釋放了大量的人力和物力。
甚至《每日經濟新聞》的同行都會私下問他們:“你們什么時候變成24小時制了?”
……
而不僅僅是新聞主播這一件事,若是上升到更高的角度來觀察,我們也不難發現AI虛擬人已然成為一種大趨勢。
例如前一陣子在短視頻平臺一夜爆火的虛擬人柳夜熙,僅發布一條視頻便受到了全民圍觀。
△圖源:柳夜熙官方短視頻號
她做為一名虛擬人美妝博主,不僅是故事的精彩性,更是因為其高超的捏臉技術,讓她呈現出了東方古典與現代時尚元素完美結合的效果。
再如虛擬人AYAYI,僅憑一張“證件照”,在網絡上瞬間爆紅(當天便有224萬瀏覽量)。
△圖源:AYAYI官方平臺
與以往虛擬形象不同的是,她擁有更加貼近人類的外貌,無論是膚質、發質亦或是微表情等,都做到了對真人的高度還原。
這是AI虛擬人,正在逐步迎合大眾審美、口味的一種印證。
再從商業層面上來看,僅是2021年,虛擬人賽道上便有超過10筆的融資,嗅覺敏銳的VC們可謂是紛紛拋出了橄欖枝,著手布局。
除了這種視覺形象的虛擬人,在語音方面,Gartner預測到了 2023 年,員工與應用程序的互動中,將有 25% 是透過語音進行,但這一數值在2019年這個才不到 3%。
而這一切的背后的原因,表面上看是因為虛擬人技術不斷迭代和發展。
但再深挖一層來看,還是其能夠帶來和創造的價值。
除了像虛擬主播能夠釋放人力和物力,像夏語冰所具備的繪畫、創作能力,更是能夠打破人類有限的創造力。
總而言之,站在現階段來歸納虛擬人,或許有三大趨勢,已經再明顯不過:
虛擬人從長的逼真,到語音、姿態方方面面的逼真;
虛擬人從“騙得過一時”到也可以“騙得過一世”發展;
虛擬人已經從黑科技、秀肌肉等詞語跳出,踏進各行各業。
而三大趨勢匯集在一起,實際也在指向另一個更大的趨勢——
虛擬人正在迎來質變的時刻。
如果說2021年“有虛擬人是新聞”,那么2022年,或許就是“哪個領域誰還沒有虛擬人”了。
One More Thing
縱觀小冰這幾次虛擬人的亮相,背后規律實際也不難發現:
小冰總是“先做后說”,也就是讓虛擬人先偷偷“上崗”,然后再悄悄拿結果驚艷所有人。
而小冰團隊也透露,在已經公開“認領”的之外,現在還有一個虛擬人在人類中間“潛伏”已久。
很快,就又會帶來一次恍然大明白。
所以小冰這究竟是對虛擬人技術極度自信?還是如此反復之后,讓所有人對虛擬人“脫敏”,從而成功實現“AI和人類混居”?
你不妨也猜猜?感興趣的人多了,我們找小冰團隊求解去~
— 完 —
原標題:《跟你一塊卷的同事,確定是個人嗎?》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司