- +1
人工智能的負效應:沒有大語言模型的語種未來會消亡
//
隨著大語言模型技術的不斷發展,解決語言表示和效率的不平衡問題變得至關重要。
“ en-US ”一直是美式英語的語言標識符,在ChatGPT橫空出世之后,有了新的含義:英語/美國作為大語言模型(Large Language Model)的超級指令語言和超級大國,逐漸在新一輪AI競爭中領先世界其他語種和國家。
在長期使用ChatGPT和其他大語言模型的過程中,我一直想探索這些模型對世界其他語種支持的邊界。
比如說:
1.為什么ChatGPT能在各個語種中自由切換,支持自如?
2.到底ChatGPT支持多少種語言?
3.ChatGPT對中文的支持和英文一樣好嗎?
4.在大語言模型中,是不是有一些“二等公民”和“一等公民”?
分析的結果令人瞠目結舌。美國人訓練出來的模型對美式英文有壓倒性的支持,而世界上幾千種語言其實能支持的好也就不過十來種。這也解釋了為什么每個國家或者語種都需要自己的大語言模型,才能在新一輪人工智能的工業革命中跟上其他國家前進的步伐。
這篇文章結合了我的實踐經驗和定量分析,最終得出以下結論:
1.大語言模型可以兼容Unicode中的所有161種語言。
2.英語占GPT-3訓練數據的90%以上。
3.英語是大語言模型最有效的提示語言——它比西班牙語有效1.3倍、比法語有效1.5倍、比CJK(中文、日語、韓語)有效2倍。
4.大約10種高資源語言得到了大語言模型的充分支持。
5.Unicode中其他150種語言資源匱乏,代表性不足。
6.全球有近7,000種語言缺乏大語言模型支持。
1
你講的語言是高資源還是低資源
傳統自然語言處理(NLP, Natural Language Processing)研究會把語言分類成高資源(high resource)語言和低資源(low resource)語言。前者涵蓋約20種語言,包括英語、中文、西班牙語、法語、德語、日語、俄語、葡萄牙語、阿拉伯語、印地語、意大利語、韓語、荷蘭語、土耳其語、波斯語、瑞典語、波蘭語、印度尼西亞語、越南語、希伯來語。
這些高資源語言有著豐富的語言資源,例如廣泛的文本、用于機器翻譯的平行語料庫、綜合詞匯詞典、句法注釋和用于監督學習的標記語料庫。
也有一些高資源語言,如荷蘭語,可能沒有大量的使用者,但有著強大的語言研究學者和成果,產出了重要的語言語料庫和工具,于是也成了高資源語言。相反,某些低資源語言,例如尼日利亞皮欽語(Nigerian Pidgin),有超過 1 億人使用,但缺乏大量的研究和開發,使其處于低資源狀態。
學術界一直苦于低資源語種的投資不足。如果一個語言有足夠多的人使用還好,至少還能世代流傳下去。有些低資源語種,本來使用者就不多,又缺乏足夠的研究,使得它們也逐漸變成了“瀕危語種”。
以ChatGPT為代表的大語言模型的出現,仿佛給世界語言帶來了一束光。大家發現,不需要訓練專門的機器翻譯系統,ChatGPT也能在不同語種之間自由翻譯和轉換。
用ChatGPT做翻譯,或者使用其他語言去給ChatGPT發指令,往往給非英語說話人留下深刻的第一印象。很多人對語言智能的認知還停留在金山詞霸階段 —— 有個多語種的電子詞典可以做雙語種互相翻譯。可是如果有這么個ChatGPT神器,可以接受我用母語輸入,并能夠用我看得懂的語言智能地做出回答,可真是太神奇了。
于是很多人不禁要問,既然大語言模型這么神奇,是不是這世界上的低資源語言也有救了?
語言學鼻祖Noam Chomsky畢生致力于發展一門世界通用語法(Universal Grammar)。他有一段非常出名的比喻:如果外星人來到地球,他們能夠聽懂讀懂地球上的所有語言。因為在他們看來,地球上每一種語言都遵循同樣的語法,只不過大家說的是不同的“方言”而已。
如果ChatGPT能在多種語言之間切換自如,那它是否破解了這世界通用語法的奧秘?
2
低資源語言在大語言模型中的代表性仍然不足
盡管大語言模型具有變革潛力,但現實仍然是大語言模型主要迎合英語和少數其他高資源語言。對GPT-3等模型使用的訓練語料庫進行仔細檢查后發現,各語種存在明顯的不平衡:
●英語占主導地位:GPT-3的訓練語料絕大多數是英語,占數據的92.6% 。ChatGPT(基于 GPT-3.5)等后續模型延續了這一趨勢。
●有限代表的語言(分析僅限于GPT-3語料庫):
●只有兩種語言占GPT-3語料庫的1%以上,即法語 (1.8%) 和德語 (1.5%)。
●另外14種語言落在0.1%到1%的范圍內,包括西班牙語、意大利語、葡萄牙語、荷蘭語、俄語、羅馬尼亞語、波蘭語、芬蘭語、丹麥語、瑞典語、日語、挪威語。
●值得注意的是,像中文和印地語這樣的語言,總共有超過20億人使用,甚至沒有達到語料庫0.1% 的門檻。
●訓練數據集中度:GPT-3訓練語料庫中排名前16位的語言有明顯的頭部效應:加起來一共占99.24%。
●單詞覆蓋范圍有限:GPT-3訓練語料庫中只有65種語言的單詞數超過100萬,其中第65種語言是高棉語。雖然在柬埔寨有1700萬人使用高棉語,但它在GPT-3的訓練語料庫中只有區區100萬個詞。
ChatGPT對英語和精選高資源語言的偏向并非OpenAI(ChatGPT的母公司)有意為之;因為語料大部分來自互聯網,而互聯網反映的是一個國家和語種的富裕、開放、和活躍程度。
大語言模型在很大程度上忽略了世界上7,000 種現存語言中的大多數。例如,以下使用人數眾多的語言貢獻了不到 1% 的互聯網文本內容,因此很難收集足夠的數據來訓練一個專門針對這門語言的大語言模型:
1.印地語:6.02 億使用者
2.阿拉伯語:2.74億使用者
3.孟加拉語:2.73億使用者
4.烏爾都語:3.21億使用者
語言使用者和可用文本數據之間的差異導致了語言多樣性之間的不平衡。這個問題的源頭更多的是一個國家的發展情況和投資力度,我們會在下篇博文中詳述。
對于旨在支持更廣泛語言的大語言模型來說,這也是一個根本性的挑戰:如果一種語言在網絡上只有少量文本,那就沒有適合這門語言的大語言模型。如果一種語言在網絡有大量文本,也需要其代表國家加大投資力度才能發展出有本身語言特色的大語言模型。
于是我根據ChatGPT的支持力度對世界語言進行了分類:
ChatGPT-3.5 對高資源和低資源語種的支持情況
3
英語是大語言模型最有效的“編程語言”
大語言模型有一個輸入和輸出的限制,以token數目表示。如果token數太少,比如只有區區1000個,那能做的事情就很有限。這有點像早期的個人電腦,只有16KB的內存,跑不了“大程序”。而如今有一些智能手機都有了16GB的內存,是以前的1000倍。至于一個token是多少個英文單詞或者漢字,我們在后文解釋。
GPT-3.5-turbo和GPT-4-turbo等語言模型的token長度一直在增長。截至 2024年5月, GPT-4-turbo已經支持多達128K個token 。這里K代表一千(Kilo)。128K也就是12萬8千個token。如何去優雅又節省地給大語言模型寫提示語已成為一門手藝。
截至2024年5月的GPT Turbo模型及其上下文長度限制
給大語言模型下指令有點像往早期計算機里輸入指令,在鍵盤發明之前,需要在一條穿孔紙帶(punched cards)上一點一點把指令喂給計算機。比爾蓋茨和保羅阿蘭最早開始合作編程的時候就是這么操作計算機的。
早期IBM穿孔紙帶:12行80列,大致能輸入80字節的指令。GPT-4可以輸入128K字節的指令
那么問題來了:哪種語言能夠用最少的token表達最多的意思?中文嗎?咱們老祖宗留給我們的瑰寶一向言簡意賅呀。這是否意味著可以使用中文作為 ChatGPT的指令提示語言?
如果再深入一步,這個世界上還有比中文更“簡潔”的語言嗎?的
語言簡潔度排名:從中文到英語到西班牙語到日語
有很多研究從不同角度探討了如何確定世界上各種語言的簡潔度。在這里我們引用兩個研究供大家參考。
翻譯同一文本后的長短
有人對公共互聯網上谷歌隱私政策的不同語言翻譯進行了評估。
以下是按字符總數排名的語言示例:
1.繁體中文:101個字符
2.簡體中文:124個字符
3.日語:215 個字符
4.英語:345 個字符
5.西班牙語:376 個字符
6.法語:417 個字符
7.越南語:403 個字符
8.印地語:500 個字符
這樣可以把各個語種的信息密度量化:繁體和簡體中文確實是非常簡潔的語言!(但ChatGPT不這么認為。)
最有效的語言是什么?這張表展示了對谷歌隱私政策片段的不同語言的翻譯。
語速和簡潔度
另一項研究測量了說話的速度,基本假設是“不簡潔的語言要更快的說”。
研究發現,說西班牙語和日語的人語速很快,而說漢語和越南語的人語速很慢。如果以越南語的簡潔度為1,那語言簡潔度有以下排名:
1.越南語:1
2.中文:0.94
3.英語:0.91
4.西班牙語:0.63
5.日語:0.49
當然,這項研究并不一定準確。因為一種語言的語速快慢也和當地人的生活節奏有關。
結合這個排名和上面的表看,這也可以從側面解釋為什么西班牙語聽起來更快。
基于以上結果,是不是說我們只要用中文寫大語言模型的指令提示就可以了?根本不是。
4
ChatGPT的詞匯主要是英語
盡管英語形態復雜,但由于以下幾個關鍵因素,英語仍然是大語言模型最青睞的“編程”語言:
●詞匯優勢:像ChatGPT這樣的大語言模型主要接受英語文本的訓練,具備強大的英語詞匯和并能理解到語言中用詞的細微差別。
●提示效率:英語通常也是效率最高的提示語言。
●文化和語義豐富性:英語在許多領域都是一種通用語,提供了廣泛的文化參考和語義深度。
對于大多數大語言模型來說,英語是最有效的提示語言,原因來自OpenAI 如何給每種語言編碼的。
一般的規則是:
1.對英語原生支持:英語在ChatGPT中被認為是“一等公民”并有深度優化。
2.Unicode編碼支持:Unicode語言共有161種,使用了字節對編碼(byte pair encoding),以確保與ChatGPT處理框架的兼容性。
3.非Unicode無法編碼:遺憾的是,ChatGPT和眾多大語言模型都不支持非 Unicode語言,因為這些語言無法用計算機通用的字節(byte)代表。
您聽說過ChatGPT-3.5詞匯表嗎?它包含100,261個詞,大部分來自英語。
下面是該詞匯表的節選:
1.Token舉例
a.token 0 是感嘆號!
b.第32至57個token是大寫字母 A ... Z
c.token 67853 是單詞后綴 “-ish”
d.token 75459 是“battery”
e.不幸的是,“GPT”這個詞并不在詞匯表中
2.變體和同義詞
a.英文二月的各種token代表:“February”(token 7552)、“Feb”(token 13806)、“February”(token 33877)、“Feb”(token 41691)、“feb”(token 78471)“-Feb”(token 94871)。請注意,有些token帶有空格前綴。
ChatGPT 詞匯概覽
ChatGPT詞匯表專門用于英語,以至于它有9個專用于“Twitter”的token!遺憾的是,其他語言在這個100K大小的詞匯表中沒有獲得應有的token份額。這至少表明英語對于GPT模型來說是多么占主導地位。
ChatGPT的100,261個token詞匯表中有9個token代表Twitter
寫作效率 != 提示效率
ChatGPT對語言的編碼凸顯在了在token的使用效率上。例如,中文字符“貓”由三個token(十六進制值:\xe7、\x8c、\xab)表示,而英語單詞“cat”則僅需一個token表示。
Unicode字符如何分解為字節并轉換為ChatGPT token
這種標記化差異強調了ChatGPT中寫入效率和提示效率之間的重要區別。當面臨token限制(例如 GPT-3.5-turbo的 16,385個token上限)時,英語成為比中文或韓語更有效的提示語言。
各種語言“貓”的token效率比較:
●英語:cat (貓)= 1 個token
●中文:貓 = 3 個token
●韓語:???(貓)= 4 個token
在向ChatGPT表達“貓”這個狹義的例子里,英語的效率是中文的3倍,是韓語的 4 倍。
在Unicode的UTF-8編碼中,字符通常為1到4個字節,而世界上大多數語言字符占用2到3個字節。
因此,非英語語言的標記長度往往平均每個單詞有2到3個token,與英語相比,提示效率較低。
考慮到GPT-4-turbo的擴展上下文長度最多支持128,000個token,語言效率的差異會變得更加明顯。128k個token大概是多少個單詞?
下面是一個平均值:
●英語:約 96,000 個單詞
●簡體中文:約54,000個字符
●韓語:約 41,000 個字符
英語在提示詞效率方面是中文的1.8倍,韓語的2.3倍
綜上所述,英語是ChatGPT最高效的提示語言,其提示效率是CJK(中、日、韓)語言的約2倍。
兩個其他語言的例子:克林貢語(Klingon)和爪哇語(Javanese)
大語言模型對一個語種的支持取決于該語種是否被包含在標準字符編碼系統 Unicode中。如果Unicode缺少了某種語言,那大語言模型也不會支持這種語言。
以下是Unicode不支持的語言示例:
●唐薩語——印度和緬甸唐薩族使用的語言。
●托托語——印度西孟加拉邦托托部落所使用語言。
●阿伊努語 - 日本阿伊努人使用,對片假名區中的一些字符的支持有限。
●Pahawh Hmong 文——一種用于書寫苗語的文字,創建于20世紀中葉。
●Chakma——印度和孟加拉國的Chakma人使用。
●Kpelle——利比里亞和幾內亞的Kpelle人使用。
●瓦伊語——利比里亞瓦伊語使用的音節文。
●巴薩瓦語——一種用于書寫利比里亞巴薩語的文字。
克林貢語(Klingon)
克林貢語是《星際迷航》宇宙中的一種人造語言,但Unicode中卻沒有這種語言。
因此,由于缺乏Unicode支持,ChatGPT等大語言模型無法讀取或處理克林貢語腳本。如果人類在ChatGPT基礎上實現了通用人工智能(AGI),那在馬斯克發往火星的飛船上聽到了克林貢語是理解不了的。
克林貢文字不屬于 Unicode,因此不受大語言模型支持
爪哇語(Javanese)
印度尼西亞爪哇島有6800萬人口使用爪哇語,它與編程語言Java有著獨特的歷史聯系。
盡管Java在推動Unicode在編程語言中的采用方面發揮著關鍵作用,但爪哇語言本身直到2009年才得到Unicode的正式支持(Unicode 5.2版)。這種延遲的納入凸顯了非西方語言在獲得 Unicode 等全球標準認可方面所面臨的挑戰。
截至Unicode15.1版,該版本涵蓋了161種文字和近15萬個字符,而全球共有7,000余種語言。
展望未來,確保Unicode和相關標準中包含多種語言對于促進語言多樣性和在大語言模型 等新興技術中提供全面的語言支持至關重要。
5
甚至美國參議員也認識到“en”與其他語言的不平衡
2023年5月16日,美國參議員Padilla在與OpenAI首席執行官山姆·奧特曼Sam Altman舉行的參議院人工智能聽證會上表達了他的擔憂
參議員亞歷克斯·帕迪拉:
“現在,隨著語言模型變得越來越普遍,我想確保重點關注確保不同人口群體的公平待遇。
我的理解是,大多數評估和減輕公平性損害的研究都集中在英語上,而非英語語言受到的關注或投資相對較少。我們以前也見過這個問題。我會告訴你我為什么提出這個問題。
例如,社交媒體公司沒有對其非英語語言的內容審核、工具和資源進行充分投資。我分享這一點不僅是出于對非美國用戶的擔憂,而且許多美國用戶在交流時更喜歡英語以外的語言。
因此,我非常擔心社交媒體在人工智能工具和應用程序中重蹈覆轍。問 Altman先生和Montgomery女士,OpenAI和IBM如何確保他們在大型語言模型中的語言和文化包容性,是否是您產品開發的重點領域”
(令人遺憾的是,參議員帕迪拉(Padilla)從他想要緩和非英語語言的立場出發,因此詢問ChatGPT對其他語言的支持。)
山姆·奧特曼:
我們認為這非常重要。其中一個例子是,我們與冰島政府合作,以確保他們的語言被納入我們的模型中。冰島語是一種使用人數較少的語言,與互聯網上許多代表性語言相比,使用人數較少。我們已經進行過許多類似的對話。我期待與許多資源較少的語言建立類似的合作伙伴關系,將它們納入我們的模型。GPT-4與我們之前的模型不同,之前的模型擅長英語,而對其他語言則不太擅長。
現在,GPT-4在大量語言方面表現相當不錯。你可以在按使用者數量排名的列表中往后看,仍然可以獲得良好的表現。但對于這些非常小眾的語言,我們很高興能與定制合作伙伴將該語言納入我們的模型運行中。你問到的問題中關于價值觀和確保文化被納入其中的部分,我們同樣關注這一點。
(您聽說過 OpenAI 在日本開設辦事處的消息嗎?也許這是定制合作伙伴關系的一部分。)
6
總結
回顧ChatGPT等大語言模型(LLM)中對語言表征和效率的探索,我們得出了幾個關鍵結論:
1.英語占主導地位:英語仍然是提示大語言模型(如 ChatGPT)的最有效語言,因為它在模型詞匯表中具有廣泛的token覆蓋率。這種主導地位凸顯了在提示工程中利用英語的實際優勢。
2.token效率:大語言模型中的token化過程揭示了不同語言之間效率的顯著差異。英語提示通常需要較少的token,而亞洲語言需要多個token來表達同樣的意思,從而影響整體提示效率。英語是ChatGPT最高效的提示語言,其提示效率是CJK (中、日、韓)語言的約2倍。
3. Unicode 和語言支持:大語言模型對Unicode進行語言編碼的依賴凸顯了標準化在實現語言包容性方面的重要性。Unicode中沒有的語言(如克林貢語)在獲得大語言模型支持方面面臨巨大障礙。
4.語言多樣性的挑戰:Unicode覆蓋的161種文字與世界7000種語言之間仍然存在巨大差距。Unicode中語言的代表性有限,這對保存和理解語言多樣性提出了挑戰。
5.未來前景:隨著大語言模型技術的不斷發展,解決語言表示和效率的不平衡問題變得至關重要。努力增強Unicode的包容性并擴大大語言模型架構內的語言支持對于促進語言平等和文化保護至關重要。
總之,應對大語言模型課程中語言效率和語言表達的復雜性,既是推進語言多樣性和包容性語言技術的挑戰,也是每個語種的機遇。每一個單一語種或者多語種的國家,都應該把大語言模型當作一個戰略資源,在提示效率和兼容性上研制出對本國語言支持最好的人工智能。
當今的現狀是,以token計算,ChatGPT-3.5對英文提示詞和輸出的支持效率是中文的近兩倍。當未來的人機交互語言從編程語言變成每天說的語言時,中文這么言簡意賅的語言應該享有對其支持更好更高效的大語言模型。
寫完此文,不由感嘆,這世界上的語言本來各有特色,并無“貧富貴賤”之分。
可是當語言成為大語言模型的指令,成為人工智能桂冠上的明珠后,每個國家,每個語種,要重新審視自己的語言戰略。應該聚集全世界說同一種語言的國家與民族的力量,大力發展最能代表自己的語言人工智能。
原標題:《人工智能的負效應:沒有大語言模型的語種未來會消亡》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司