下載客戶端

登錄

跟你一塊卷的同事，確定是個人嗎？

2022-01-08 17:35

來源：澎湃新聞·澎湃號·湃客

原創關注前沿科技量子位

金磊發自凹非寺

量子位報道 | 公眾號 QbitAI

一群人圍坐在一間會議室里，他們的目光全部聚焦在大屏幕中播放的視頻。

這其實是《每日經濟新聞》再日常不過的一次內容審核會議。

但這一次的背后，卻有一場較量在“暗流涌動”。

內容團隊和往常一樣，仔細地端詳著灰度測試視頻中主播播報的新聞。

但與此同時，同一屋檐下的技術團隊同事，這一刻卻在緊握雙拳、捏著一把冷汗：

“千萬不要發現任何端倪……”

沒錯，正是這樣一段看似再正常不過的新聞播報，卻成為了這場“較量”的根本所在——

因為視頻里的主播N小黑，TA并不是個人，而是由AI技術合成的數字虛擬人。

當眾人反應過來之后，這件事情在《每日經濟新聞》內部迅速炸開了鍋，后來甚至有人還問“視頻里的哪部分是AI”？

技術團隊給出的解釋則是：

從表情到姿態，再到文字，全部都是。

而后來，這項技術更是悄悄地上線了70天，然而就連眼尖的觀眾們都沒有發現異常。

當真相公之于眾之際，結果可想而知，瞬間引發了大量的關注。

《每日經濟新聞》更是把它置頂到了其官方微博之上，重視程度可見一斑。

而這一切背后的技術，正是來自小冰團隊的小冰框架（Xiaoice Avatar Framework）。

但講真，這還真不是小冰團隊第一次讓虛擬人驚艷于公眾面前。

你是不是個人，我已經感知不到了

小冰在打造N小黑的同時，其實還公布了另一個AI——N小白。

他倆在虛擬主播界的自然程度，可以說是第一次提高到了與人類較為接近的程度。

從他們在視頻的表現中不難看出，在播報新聞時的表情神態、嘴部變化，甚至是肢體動作的配合，都是具有一致性。

而且與N小黑一樣，N小白也是在被“公之于眾”前，連續70天、24小時不間斷地做著新聞直播，也是沒被發現的那種。

但也正如剛才提到的，N小黑和N小白只是小冰眾多虛擬人中的一隅。

這不最近，一名叫做崔筱盼的萬科員工獲得總部優秀新人獎的消息，刷爆了朋友圈。

原因無他，因為崔筱盼也并不是個人，同樣也是小冰框架下打造的虛擬人。

據介紹，崔筱盼其實早在2021年的2月份便入職萬科，在職期間主要負責各種應收/逾期提醒及工作異常偵測相關工作。

在系統算法的加持下，她能夠以驚人的速度學會人類在流程和數據中發現問題的方法。

她最終的工作成績，便是人類效率的千百倍，更是在催辦預付應收逾期單據核銷率達到91.44%。

而且崔筱盼的形象也是成為此次爆火的原因之一。

很多網友對她的形象評價為“知性美”，更有甚者“傻傻分不清”她是真人形象還是AI創造出來的。

但比起逼真和美貌，崔筱盼形象上更獨特的一點便是相由心生。

沒錯，小冰框架在創造她的形象時，并非是憑空而造，而是與她自身具備的業務能力相匹配的。

（也難怪崔筱盼會散發出職場女強人的氣息了）

當然，除了上述的虛擬人之外，諸如操著一口濃郁方言的“山東大哥”：

從央美畢業、最近代表中國參加迪拜世博會的夏語冰，它們均是出自小冰框架之手：

……

不難看出，這些小冰創造出來的眾多虛擬人，他們都具備各自的“看家本領”。

那么接下來的一個問題便是——

既能做到逼真，又富有多樣性，還能批量工廠式生產，小冰是如何做到的？

像個人，并不容易

小冰現在做出來的虛擬人，無論是靜態的照片，或者是動態的新聞主播，都可以說是真假難辨。

但講真，尤其是在打造N小黑和N小白的時候，小冰團隊最初也遇到了許多挑戰。

因為在此之前，大家能夠看到的所謂AI虛擬人主播還是比較假的。

例如主播的表情不夠自然，下半身幾乎不動，以及播報出來的語言也是帶有“機械味”。

甚至《每日經濟新聞》團隊的成員都對此舉打出了大大問號：

我們為什么要放上去這么假的虛擬人呢？

對此，小冰團隊為了首次能夠達到人類無法區分的程度，便在技術路線上做出了核心改變。

先從整體來看，小冰框架依然是核心。

而這一次的技術關鍵改變，在于對視覺上的優化。

以往我們在電影中能夠看到的逼真效果，要么采用的是傳統3D建模方法，要么就是CG后期渲染。

但這兩種方法在時間周期和資金成本上的缺點也是非常明顯。

基于這種現狀，小冰團隊便提出了一種新的方法——深度神經網絡渲染技術（XNR）。

簡單來說，這項技術主要包含三個步驟。

第一步是構建兩個專家模型。

第一個是語音專家模型，基本的思路便是利用很大量的數據來學習、理解人類的語音。

例如人類在講話講到激動的時候，他的嘴型都會有比較明顯的變化，而語音專家模型就是學會這項技能。

第二個是專家模型，則是通過采集攝像機等設備拍出來的人物視頻數據，學習人類在說話過程中，嘴部的變化與眼睛、臉部其它肌肉之間如何產生微妙的聯動變化。

如此一來，就能會讓虛擬人在說話時，整個面部表情能夠變得自然流暢。

第二步便來到了渲染的環節。

也就是將語音輸入到深度神經網絡渲染模型，而后會一幀一幀地渲染出自然的臉，并形成動態的過程。

但在這個過程中，前兩個專家模型也會起到一個監督的作用，目的還是讓整體效果能夠自然。

第三步，則是一個自動化的過程。

也就是當把文字輸入進來的時候，就會通過TTS（TextToSpeech）的方式，將文本變成語音。

而當機器接收到這些語音信號后，又會將其聯動虛擬人的所有姿態、動作、表情等，最終生成一個完整的視頻。

也正是在這種技術路線上的改變，最終才得以讓小冰的虛擬人“瞞天過海”地騙過了人眼。

……

聊完了背后的技術，不少友友們肯定也要發問了：

做得這么像人，小冰要干什么？

我們還是拿N小黑/N小白的例子來看。

他們的效果一出來，便讓《每日經濟新聞》內容團隊的態度，發生了三百六十度的改變——

從最開始的質疑和抵觸，直接轉變成了積極去接受。

他們后來直接主動拿著需求，找到小冰團隊的技術人員說：

我們現在需要讓AI來播報這些內容……

這是因為他們發現虛擬人播報新聞，原來不僅可以做得像人一樣逼真，而且還能做到7 x 24小時不間斷的那種。

如此一來，便讓播報新聞這個本身就極具時效性的事情，變得異常精準高效，還釋放了大量的人力和物力。

甚至《每日經濟新聞》的同行都會私下問他們：“你們什么時候變成24小時制了？”

……

而不僅僅是新聞主播這一件事，若是上升到更高的角度來觀察，我們也不難發現AI虛擬人已然成為一種大趨勢。

例如前一陣子在短視頻平臺一夜爆火的虛擬人柳夜熙，僅發布一條視頻便受到了全民圍觀。

△圖源：柳夜熙官方短視頻號

她做為一名虛擬人美妝博主，不僅是故事的精彩性，更是因為其高超的捏臉技術，讓她呈現出了東方古典與現代時尚元素完美結合的效果。

再如虛擬人AYAYI，僅憑一張“證件照”，在網絡上瞬間爆紅（當天便有224萬瀏覽量）。

△圖源：AYAYI官方平臺

與以往虛擬形象不同的是，她擁有更加貼近人類的外貌，無論是膚質、發質亦或是微表情等，都做到了對真人的高度還原。

這是AI虛擬人，正在逐步迎合大眾審美、口味的一種印證。

再從商業層面上來看，僅是2021年，虛擬人賽道上便有超過10筆的融資，嗅覺敏銳的VC們可謂是紛紛拋出了橄欖枝，著手布局。

除了這種視覺形象的虛擬人，在語音方面，Gartner預測到了 2023 年，員工與應用程序的互動中，將有 25% 是透過語音進行，但這一數值在2019年這個才不到 3%。

而這一切的背后的原因，表面上看是因為虛擬人技術不斷迭代和發展。

但再深挖一層來看，還是其能夠帶來和創造的價值。

除了像虛擬主播能夠釋放人力和物力，像夏語冰所具備的繪畫、創作能力，更是能夠打破人類有限的創造力。

總而言之，站在現階段來歸納虛擬人，或許有三大趨勢，已經再明顯不過：

虛擬人從長的逼真，到語音、姿態方方面面的逼真；

虛擬人從“騙得過一時”到也可以“騙得過一世”發展；

虛擬人已經從黑科技、秀肌肉等詞語跳出，踏進各行各業。

而三大趨勢匯集在一起，實際也在指向另一個更大的趨勢——

虛擬人正在迎來質變的時刻。

如果說2021年“有虛擬人是新聞”，那么2022年，或許就是“哪個領域誰還沒有虛擬人”了。

One More Thing

縱觀小冰這幾次虛擬人的亮相，背后規律實際也不難發現：

小冰總是“先做后說”，也就是讓虛擬人先偷偷“上崗”，然后再悄悄拿結果驚艷所有人。

而小冰團隊也透露，在已經公開“認領”的之外，現在還有一個虛擬人在人類中間“潛伏”已久。