下載客戶端

登錄

谷歌新模型突破BERT局限：NLP版芝麻街新成員長這樣

2020-07-31 16:07

來源：澎湃新聞·澎湃號·湃客

蕭簫發自凹非寺

量子位報道 | 公眾號 QbitAI

最新消息，谷歌推出了NLP系列「芝麻街」的新成員Big Bird。

這個在外界眼中看起來有點可愛的動漫小鳥，搖身一變，解決了BERT模型中的全注意力機制帶來的序列長度二次依賴限制，可以兼顧更長的上下文。

△ 「芝麻街」中的Big Bird

眾所周知，谷歌開發的BERT，曾經被稱為「地表最強」NLP模型。

而BERT，則與美國知名動畫片「芝麻街」（Sesame Street）里的虛擬人物同名。

此前，谷歌的「芝麻街」系列已經有5個成員（論文鏈接見傳送門），現在Big Bird的到來，意味著谷歌在NLP的研究上更進一步。

△ 少了一位ELMo

來看看Big Bird實現了什么。

突破全注意力機制的局限

在NLP模塊表現最好的幾種深度學習模型，例如BERT，都是基于Transformer作為特征抽取器的模型，但這種模型有它的局限性，核心之一就是全注意力機制。

這種機制會帶來序列長度二次依賴限制，主要表現在存儲方面。

為了解決這個問題，團隊提出了一種名為Big Bird的稀疏注意力機制。

作為更長序列上的Transformers，Big Bird采用稀疏注意力機制，將二次依賴降至線性。

下面這張圖片，展示了Big Bird所用的注意力機制模塊構建。

其中，白色的部分代表著注意力的空缺。

圖（a）表示r=2的隨機注意力機制，圖（b）表示w=3的局部注意力機制，圖（c）表示g=2的全局注意力機制，圖（d）則是前三者融合起來的Big Bird模型。

之所以提出這樣的模型，是因為團隊希望能在將二次依賴降至線性的同時，Big Bird的模型還能最大程度上接近并保持BERT模型的各項指標。

從下圖來看，無論是單一采用隨機注意力機制、局部注意力機制，還是二者結合的方式，都沒有將三者進行結合的效果好。

也就是說，隨機+局部+全局的注意力機制融合，最大程度上接近了BERT-base的各項指標。

不僅如此，這種稀疏注意力機制的一部分，還包括了采用O(1)的全局詞例（global token），例如CLS。

這部分使得長程注意力開銷從O(N√N)降至O(N)。

NLP問答和摘要任務中超越了SOTA

模型采用Books、CC-News、Stories和Wikipedia幾種數據集對四類模型進行了訓練，根據留出法評估，BigBird-ETC的損失達到了最低。

從結果來看，Big Bird在問答任務中展示出的精度非常不錯。

下圖是Big Bird與RoBERTa和Longformer對比所展現出來的精度效果，可以看見，在各項數據及上，BigBird的兩個模型都展現出了更高的精度。

而在對模型進行微調后，可以看見，BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。

與此同時，Big Bird在NLP的摘要任務中表現也比較亮眼。

摘要，顧名思義是從一段長文字中提煉出這段話的核心思想和意義。下面是從三個長文章數據集Arxiv、PubMed和BigPatent中測試的效果。

從圖中來看，與其他非常先進的NLP模型相比，BigBird極大地提高了摘要任務的各項精度，性能表現非常優異。

不僅如此，Big Bird被證明是圖靈完備的，這也就意味著，一切可以計算的問題，Big Bird都能計算，理論上，它能夠用來解決任何算法。

此外，Big Bird在基因組數據處理方面也極具潛力。

但雖然如此，也有網友認為，這樣的模型與Longformer在概念上并無本質區別，不能算是一個大突破。

你怎么看？

作者介紹

論文的兩位共同一作是Manzil Zaheer和Guru Guruganesh，均來自谷歌。

△ Manzil Zaheer

Manzil Zaheer，CMU機器學習博士，3篇論文曾經發表于NIPs上，除此之外，在ACL和EMNLP等頂會上也發表過相應文章。

△ Guru Guruganesh

Guru Guruganesh，CMU機器學習博士，主要在近似算法、拉姆齊定理、半正定規劃等方向有所研究。

傳送門

「芝麻街」系列論文列表：

ELMo:https://arxiv.org/abs/1802.05365

BERT:https://arxiv.org/abs/1810.04805

ERNIE:https://arxiv.org/abs/1904.09223

Grover:https://arxiv.org/abs/1905.12616

KERMIT:https://arxiv.org/abs/1906.01604

Big Bird:https://arxiv.org/abs/2007.14062

— 完 —

本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容，未經賬號授權，禁止隨意轉載。

量子位 QbitAI · 頭條號簽約作者

?'?' ? 追蹤AI技術和產品新動態

原標題：《谷歌新模型突破BERT局限：NLP版「芝麻街」新成員Big Bird長這樣》

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#芝麻街

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業務經營許可證：滬B2-2017116

? 2014-2025 上海東方報業有限公司

反饋

百家乐官网 (中国）有限公司官网

谷歌新模型突破BERT局限：NLP版芝麻街新成員長這樣

掃碼下載澎湃新聞客戶端