下載客戶端

登錄

專訪唐杰：萬億參數大模型只是一個開始

2021-08-01 07:30

來源：澎湃新聞·澎湃號·湃客

原創聞菲機器之心

機器之心原創

作者：聞菲

智源悟道團隊不僅會在「大」這條路上走下去，還將對構建「神經-符號結合模型」進行更深入和底層的探索。

圖靈寫于 1950 年的論述《計算機器與智能》被譽為人工智能的開山之作，他在文中不僅提出了「機器會思考嗎？」這一經典問題，還給出了著名的「圖靈測試」用以判斷一臺機器是否擁有「智能」。

但經過詳細論證，在文章趨于收尾時，他又補充說：「與其嘗試制作一個程序模擬成人的大腦（mind），何不嘗試制作一個模擬兒童大腦的程序呢？」

在題為「會學習的機器」（Learning Machines）這最后一小節中，圖靈寫道，兒童的大腦就好比剛從文具店里買來的筆記本，里面沒有任何結構（mechanism），全是大量空白的表格（sheets）。從計算機科學研究者的角度看，這樣的形容簡直再直白不過。

三四歲的孩子已經能夠舉一反三，簡單推理，模仿父母最細微的姿態和動作，并且知道如何通過自己的行為影響他人。而這正是人工智能研究者迫切希望其構建的AI系統所能具備的。

如今，機器學習不僅是人工智能領域研究的重點，也正在成為整個計算機科學研究的熱點。2020 年 5 月，OpenAI 發布了無監督轉化語言模型 GPT-3，其展現出的從海量未標記數據中「學習」且不限于某一特定任務的「通用」能力，讓 AI 研究者看到了基于大規模預訓練模型探索通用人工智能的可能。

2021 年 6 月，，以 1.75 萬億的參數量成為迄今全球規模最大的預訓練模型。不僅如此，悟道團隊還基于 GPT 與 BERT 各自在自然語言生成（NLG）和自然語言理解（NLU）任務上的優點，成功將兩者融合并提出通用語言模型 GLM，將所有自然語言任務都化歸為生成任務進行統一處理，GLM 也成為首個在 NLU、NLG、Seq2Seq、不定長填空等任務中全部登頂的語言模型。

超大規模預訓練模型是否代表了圖靈所說的「會學習的機器」？不斷增大的模型（以及不斷增加的算力）最終能把我們帶到哪里？預訓練模型究竟從數據中學到了什么？未來的機器智能是否會改變我們對數據、信息、知識乃至智慧的定義？帶著這些疑問，機器之心專訪了智源研究院學術副院長、悟道項目負責人、清華大學計算機系教授唐杰。

智源研究院學術副院長、悟道項目負責人、清華大學教授唐杰，在 2021 北京智源大會上發布悟道 2.0。來源：智源研究院

唐杰早先從事數據挖掘和知識工程方面的研究，他曾經不愿意也不敢相信機器智能可以超越人，但大規模預訓練模型改變了他的想法；如今，他開始反問為何機器智能不可以超越人。

唐杰表示，萬億參數大模型只是一個開始，作為一種科學上的探索，智源悟道團隊將堅持在「大」這條路上走下去，探索其邊界，因為他們已經在大模型上觀察到了以往小模型上所不曾有過的現象。

但他同時也指出，單靠增加訓練數據量或模型參數規模不足以實現「智能」，悟道團隊目前踐行的「知識+數據雙輪驅動」，正是嘗試將知識這種符號信息與神經網絡相結合，構建所謂的「神經-符號結合模型」，從而賦予機器認知能力。

在更遠期的規劃中，唐杰希望讓悟道模型擁有自學習的能力，以及作為一個主體與現實世界交互的能力，正如人類兒童在成長中所經歷的那樣。

至于眼下，一個重點將是基于悟道 2.0 構建一個平臺和生態，讓企業、開發者和研究人員真正用起來——用他的話說就是「大規模預訓練模型不是用來作秀的」，并根據用戶的反饋優化和迭代。不過，這方面的工作將由其他團隊牽頭完成。

悟道團隊將持續聚焦，這也是唐杰個人的研究風格——專注、專注再專注，直到拿出嚴謹、可靠和有力的成果。

他說：「更重要的是各種任務精度的提升，算法的優化，運行效率，以及對整個人工智能軟件和硬件應用及架構的再考察。」

要讓機器從數據中學出所有的人類知識，現在所謂的「大數據」根本少得可憐

深度學習常為人詬病的一點在于其不可解釋性。然而，存儲在人類大腦中的知識亦然，只不過我們能夠借助語言進行表達。

但即便如此，還是有很多無法用言語描述進而抽象為知識的東西。

英國皇家結構工程師學會的某位大師曾在演講中自嘲：「結構工程是這樣一門藝術，將我們尚未充分理解的材料，做成我們無法精確分析的形狀，去承受我們無法正確評估的力，以致公眾沒有理由懷疑我們的無知程度。」據他自己所說，每次他在演講中提及這句話時，都能從現場觀眾那里得到不錯的反應。果然懂的人都懂。

很大程度上，現階段的深度學習也是如此，大規模預訓練模型確實從數據中學到了什么，但其具體過程或數理機制尚不明晰。

在擁有 1.75 萬億參數的悟道 2.0 上，唐杰團隊觀察到模型不需要訓練數據，可以自動從未標記的數據中學出一些人類知識，有的機器學習出的知識圖譜比人工標注的質量還要好。

「只要模型足夠大，也許會達到一個奇點，不需要人類知識，機器只用數據就能學出人類有史以來所有的知識，」唐杰說：「因為人類的知識也是經過歷史慢慢演化，經過案例學習和不斷試錯總結歸納出來的。」

但他認為，這種純數據驅動的方法還有很長的路要走，至少未來十年都難以見到突破。原因也很簡單，就看一點，如果真要讓機器從數據中學出所有的人類知識，現在所謂的「大數據」根本少得可憐——計算機發明至今也不過 70 多年，物聯網數據才剛剛興起，還有其他各種類型的數據，光是要收集那么多的數據就需要很長的時間。

悟道團隊采用「知識+數據雙輪驅動」方法，因為人類知識經過高度抽象，不僅精度高且質量好，利用好了能大幅加速機器學習的過程，有效提升訓練效果。

或許有一天我們就從預訓練模型中探索到類似牛頓三大定律這樣的東西呢？

不同于傳統意義上的知識，存儲在神經網絡中的知識由模型的參數及架構決定，一般難以被人理解。

唐杰與他在清華和智源的合作者將這種從數據中學習獲取，存儲于神經網絡模型中的知識稱之為「連續型知識」，而他們則嘗試從「連續型知識的存儲和管理」角度來展開對超大規模預訓練模型的探索。

換句話說，超大規模預訓練模型就好比一種全新的知識庫，只不過里面存儲的是不能直接被人所理解的連續型知識。這些連續型知識可以像 OpenAI 的 GPT 那樣，存在一個超強的大模型里，也可以像 Google AI 的 Switch Transformers 那樣，由多個混合專家模型（MoE）合并而成。但是，這兩種方法都對算力和存儲提出了巨大的需求，而且無論是數據還是知識，都是在不斷增加和更新的。

對此，清華大學的研究人員提出了「通用連續型知識庫」的概念。這個通用連續型知識庫存儲的不是模型，而是模型中的連續型知識。通過將不同模型中的連續型知識都存儲在這樣一個庫里，一定程度上能減輕對計算和存儲的負擔。但這需要先把連續型知識從模型中分離出來，還涉及不同模型的連續型知識的導入和導出。因此，通用連續型知識庫存儲架構和接口的設計，還有各種連續型知識的融合與區分，都需要更深入的探索。

對于超大規模預訓練模型的發展，唐杰認為有三個方面值得注意。首先，算法還有很大的改進空間，包括效率的提升，如何將知識這種符號信息與神經網絡相結合，構建「神經-符號結合模型」，以及如何更高效地從數據中提煉出連續型知識。

「GPT 本身是很簡單的，但事實證明簡單并不一定不好，或許有一天我們就從預訓練模型中探索到了類似牛頓三大定律這樣的東西呢？然后再把這些喂給模型，不斷優化，最終實現大一統也不是沒有可能。」他說。

「雖然很多人反對這種大一統的模型架構，但算法本身是有很大探索空間的，也值得我們去探索。在牛頓三大定律出現之前，我們也在認識這個世界，后來愛因斯坦的相對論出來推翻了前者，我們又重新認識了世界，算法也是這樣，會經歷一個長期演化的過程，而且不一定非得達到終點才能使用。」

二是預訓練模型走向更多的應用，把信息和人、車、物等等都聯系起來，尤其是加入人的動態，由此帶來的復雜度和搜索空間都會指數級提升，這就要求研究人員在構建模型時考慮更多的維度。

在更長遠的未來，唐杰認為模型需要具有自學習的能力，因為人是會不斷反思、不斷復盤的，模型也要能夠自我優化，并且作為一個主體與世界交互，通過外界的反饋不斷改進和持續學習。

悟道團隊會在一直往「大」做上去，直至其邊界

從悟道 1.0 到 2.0，歷時不到 3 個月，模型參數量增長了千倍，規模也做到了全球引領。

有人問唐杰為什么他們能在這么短的時間內拿出這么多成果，「因為我們早就開始做了呀」，他笑著說。

「作為一種科學研究，悟道團隊會在一直往『大』做上去，直至其邊界，以探索人工智能所能達到的極致。」

不過，他認為沒有必要在「大」這件事情上過分糾結。模型并非越大越好，尤其在實際應用場景，要優先考慮成本和速度，而最關鍵的是精度，如何用 10 億級別的小模型在某些任務上取得更優的性能，加快實際部署，也是悟道團隊當前的一個研究重點。

對于悟道 2.0 做平臺化跟產業界對接，唐杰表示大力支持，「因為大規模預訓練模型不是用來作秀的，要把模型真正用起來，我們需要業界的反饋」。

悟道 2.0 也確實在產業界引起了反響，作為一個證明，唐杰告訴機器之心：「1.0 發布的時候很多企業都在觀望，今天 2.0 發布，我臺上剛講完，就有好幾家公司表示愿意加入，積極性很強。」

不過，企業也并非完全沒有門檻，，所有參與方都是帶著資源與情懷參與到悟道項目中來，本著開源開放，合作共享的精神與理念。目前，悟道團隊大約百人，對于這樣一個大型科研項目而言，在人手和資源上其實并不算多。因此，應用開發和產業化落地相關的工作，將由合作企業和智源的其他團隊牽頭完成。

從悟道 1.0 到 2.0，唐杰作為項目負責人，感受最深的地方是如今科研試錯的成本更大了，因此戰略布局的眼光也要更精準。例如，以前模型有了問題可以重頭再來，而現在不管是時間成本還是經濟成本都不允許方向性的誤判。在什么階段決定做什么也很重要，一方面是預判技術或產業的發展，另一方面是資源有限，什么都做很可能什么都做不好。

此外，悟道 2.0 全部在國產 CPU 上完成訓練，唐杰認為這也表明了超大規模預訓練模型從應用層面拉動了對超算和智能計算的探索，從某種程度上補齊了我國在超算應用方面的短板，也有助于未來智能超算中心的規劃和建設。

他并不擔心國內其他團隊在超大規模預訓練模型上的跟進，對于眼下大模型頻出的狀況也十分理解。「當你從事一個方向，有人跟進總比沒人跟進要好，對吧？」唐杰反問說：「而且大部分的事情發展都這樣，起先熱一點，然后有些太過了，就自然會冷靜下來，往回收一些。」

悟道出現在北京并非偶然，「因為這里有最高的人工智能軟件和硬件人才密度」，與建設超算中心一樣，構建超大規模預訓練模型也要因地制宜，量力而行。「要想清楚為什么做，你的條件適不適合做。」唐杰說。

2020年，ACM SIGKDD 將「時間檢驗應用科學獎」授予了唐杰等人在 2008 年寫的論文「ArnetMiner」。經過十幾年的發展，這個最初跑在唐杰筆記本上的算法，已經成為如今的在線科技情報挖掘平臺 AMiner。

接下來，唐杰將專注于超大規模預訓練模型的研究，至于是否能由此實現通用人工智能，有一點可以肯定，只要我們對「通過計算能夠實現智能」這個大前提沒有弄錯的話，剩下的應該只是時間問題。

? THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin.com

原標題：《專訪唐杰：萬億參數大模型只是一個開始》

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。