百家乐官网 (中国)有限公司官网

澎湃Logo
下載客戶端

登錄

  • +1

當見未萌|不要讓大模型變成一場華麗的煙花秀

肖仰華/復旦大學教授、上海市數(shù)據(jù)科學重點實驗室主任
2023-05-09 08:27
來源:澎湃新聞
? 未來2% >
字號

·通用人工智能是人類歷史上第一次關于智能本身的革命,是一種元革命,是歷次某個技術革命難以比擬的。大模型的誕生宣告了整個人工智能進入全新的重工業(yè)時代。

·反觀國內(nèi)大模型產(chǎn)業(yè),從表象上看是熱鬧非凡、模型林立,但是剝開外殼,從內(nèi)里看是發(fā)展無序與內(nèi)核空虛,不免讓人擔憂。大模型產(chǎn)業(yè)發(fā)展應該極力避免再走大煉鋼鐵的舊路,需要統(tǒng)一規(guī)劃,合作協(xié)同,立法保障、有序發(fā)展、健康發(fā)展。

自2022年12月OpenAI發(fā)布ChatGPT以來,國內(nèi)外人工智能產(chǎn)業(yè)界掀起了軒然大波,一場以生成式人工智能為核心的通用人工智能產(chǎn)業(yè)風暴席卷而來。國內(nèi)相關研發(fā)機構(gòu)與企業(yè)紛紛跟進,投入巨大資源發(fā)展類ChatGPT的各種大模型與產(chǎn)品。據(jù)不完全統(tǒng)計,在ChatGPT發(fā)布后的短短4個月時間里,已經(jīng)有至少30個國內(nèi)研發(fā)機構(gòu)與企業(yè)在ChatGPT發(fā)布之后紛紛推出自己品牌的大模型與相關產(chǎn)品。一時間,整個產(chǎn)業(yè)圈熱鬧紛呈、爭先恐后, “類ChatGPT”漫天飛舞,“國內(nèi)首發(fā)”比比皆是,資本市場聞風而動、風起云涌。然而,越是表面熱鬧,越容易掩蓋內(nèi)里的空虛;越是噱頭不斷,越需要冷靜的思考。熱鬧景象背后是一系列令人擔心的問題,只有不斷發(fā)現(xiàn)問題、總結(jié)問題、解決問題,才有可能保障這個產(chǎn)業(yè)健康有序的發(fā)展。

作為親身經(jīng)歷者,我們正在見證著由通用人工智能所帶來的前所未有的技術革命。通用人工智能是人類歷史上第一次關于智能本身的革命。歷次技術突破只是人類智能的產(chǎn)物,而唯獨通用人工智能是‘智能’本身的革命。我們有可能在人類歷史上首次見證一個全新智能物種的出現(xiàn),它具備人類水平的智能,甚至有可能超越人類的智能。這樣一種關乎智能本身的革命是一種元革命,是歷次某個技術革命難以比擬的。我們見證了生成式語言模型,以ChatGPT為代表已經(jīng)席卷全球,兩個月之內(nèi),吸引了數(shù)億的用戶;我們見證了Midjourney以假亂真的文圖生成;我們甚至還見證了谷歌最近發(fā)布的PaLM-E,第一個多模態(tài)的具身的大規(guī)模語言模型,它能夠用語言模型操控機械臂并完成復雜的操控任務。機器已經(jīng)從單純的模擬人類大腦的智能逐步發(fā)展到與身體相結(jié)合的智能,這將引發(fā)機器智能持續(xù)的連鎖的革命。如果機器智能僅限于實現(xiàn)人類的大腦,即便是超級大腦,其作用僅限于邏輯世界,起到輔助決策作用,但是一個武裝了身體的大腦,就完全具備對物理世界進行肆意改造的可能。出于保障人類安全的考慮,必須足夠重視通用人工智能,極力規(guī)范與控制其發(fā)展。

這一波通用人工智能產(chǎn)業(yè)浪潮始發(fā)于大規(guī)模生成式語言模型,也就是人們常說的大模型。最近幾個月,國內(nèi)人工智能各大廠商紛紛發(fā)布自己的大模型,可以說是熱點紛呈。以往人類歷史重大事件的發(fā)生一般會用年、月來作為度量單位,從來沒有像今天這樣,需要用天為單位記錄某個變革事件。這一現(xiàn)象本身就已意味深遠,人類社會可能已經(jīng)經(jīng)歷了未來學家們曾預言過的奇點時刻,回過頭來看可能是人類歷史發(fā)展史上非常重大的歷史事件。最近幾個月,我們也看到了諸多的產(chǎn)業(yè)界巨頭紛紛布局自己的大模型戰(zhàn)略,可以說“不入局就出局”已經(jīng)成為人工智能企業(yè)發(fā)展的基本態(tài)勢。

大模型的誕生宣告了整個人工智能進入全新的重工業(yè)時代。回顧人類歷史上的歷次技術革命,多始于初始的相對低級的“手工作坊”模式,經(jīng)過漫長的發(fā)展周期,最終形成了成熟的重工業(yè)發(fā)展模式。比如紡織業(yè),早期的紡織業(yè)是典型的家家戶戶都可以從事的手工作坊模式,為了進一步提高質(zhì)量與規(guī)模,最終演變成為重工業(yè)化的生產(chǎn)模式。人工智能產(chǎn)業(yè)發(fā)展也正在經(jīng)歷這樣的模式轉(zhuǎn)變。傳統(tǒng)的人工智能產(chǎn)業(yè)發(fā)展多采取場景與任務特異的研發(fā)與產(chǎn)品模式,需要精心的設計、審慎的論證,需要領域定制與客戶適配,很難形成通用的產(chǎn)品或平臺。但是,伴隨著AGI(Artificial General Intelligence,通用人工智能)的發(fā)展,使用大模型作為統(tǒng)一底座,再經(jīng)領域知識注入、任務指令調(diào)優(yōu)、人類價值對齊,就可以形成解決領域中特定任務的求解能力,并具備一定的倫理與價值安全性。這種統(tǒng)一架構(gòu)、統(tǒng)一范式是人工智能技術規(guī)模化的強勁推進器。這樣一種新的生產(chǎn)模式完全是一種重工業(yè)化的生產(chǎn)模式。我們要花大量的設備、人力、數(shù)據(jù)去煉制一個重型的裝備,這就是起著底座作用的大模型。底座大模型作為智能的通用平臺賦能各種各樣的應用。

重工業(yè)化的人工智能有三個鮮明的特征:大模型、大算力和大數(shù)據(jù)。

大模型的名稱本身表達的就是大規(guī)模參數(shù)化的模型。作為人工智能最為重要的分支之一,機器學習,旨在讓機器模擬人類從經(jīng)驗進行學習的能力,在過去二十多年獲得了長足的進步,帶動了整個人工智能產(chǎn)業(yè)的發(fā)展。機器學習經(jīng)歷了從傳統(tǒng)統(tǒng)計模型到深度神經(jīng)網(wǎng)絡、從單一學習方式到綜合學習方式、從有監(jiān)督到無監(jiān)督等一系列轉(zhuǎn)變,最終集中地呈現(xiàn)在從小模型到大模型的演變。為什么模型會越來越大?這本身就是個值得深入思考與嚴肅回答的問題。20世紀以來,現(xiàn)代科學與人文經(jīng)歷上百年的充分發(fā)展之后,變革了人類對于世界的理解,世界圖景逐漸從確定性轉(zhuǎn)變?yōu)椴淮_定性、認知方式從分析轉(zhuǎn)變?yōu)榫C合、建模范式從線性轉(zhuǎn)變?yōu)榉蔷€性。這些轉(zhuǎn)變?yōu)槿斯ぶ悄堋C器學習的進步與發(fā)展奠定了必要的思想基礎。近十年,數(shù)據(jù)的充分準備、算力的持續(xù)發(fā)展,最終為大模型的到來做好了最后的嫁妝。可以說大模型的到來是技術發(fā)展的必然。

重工業(yè)化的人工智能的第二個鮮明特點是大算力。隨著大模型參數(shù)量的持續(xù)增長,大模型對于算力的需求越來越迫切。算力已經(jīng)成為大模型玩家的準入門檻,已經(jīng)成為制約大模型發(fā)展的主要瓶頸。如果說模型和數(shù)據(jù)都是虛擬化、數(shù)字化的軟資源,那么算力則是實體化、現(xiàn)實性的硬實力。數(shù)字世界的發(fā)展從本質(zhì)上來講是建立在實體世界的基礎之上的。實體決定數(shù)字是二者的基本關系。數(shù)字經(jīng)濟的發(fā)展與競爭歸根結(jié)底將是算力的競爭。算力就是國家競爭力,就是企業(yè)競爭力。幾乎所有的大模型玩家都缺算力,大家要么在買算力,要么在買算力的路上。大模型行業(yè)生態(tài)最穩(wěn)定的贏家必然是算力供應方。夯實算力基礎,實現(xiàn)算力自主可控,具有全局戰(zhàn)略意義。

重工業(yè)化的人工智能的第三個鮮明特點是大數(shù)據(jù)。大模型需要數(shù)據(jù)作為原料。過去的大數(shù)據(jù)時代為大模型的發(fā)展奠定了必要的數(shù)據(jù)基礎。大數(shù)據(jù)時代的發(fā)展為人工智能時代大模型的煉制準備了充分的煉制原料。大模型也成為了大數(shù)據(jù)價值變現(xiàn)的重要方式之一。傳統(tǒng)的數(shù)據(jù)挖掘與分析方法需要極大的專家成本,需要專家標注樣本、設計特征、構(gòu)建模型、評測評價,才能捕捉大數(shù)據(jù)的統(tǒng)計規(guī)律、構(gòu)建有效的預測模型,進而實現(xiàn)數(shù)據(jù)驅(qū)動的價值變現(xiàn)。很多甲方客戶不單單要出資,還需要積極投入巨大精力輸入行業(yè)知識。可以說傳統(tǒng)大數(shù)據(jù)的價值變現(xiàn)之路是艱難的,是成本高昂的。而今天,大模型無疑成為了大數(shù)據(jù)價值變現(xiàn)最有效的方式之一,使得用戶不再需要重度參與就能享受技術價值。躺在若干服務器上“沉睡”的大數(shù)據(jù),經(jīng)過必要的清洗與加工就可丟進大模型的冶煉爐里。最終通過煉制出的大模型實現(xiàn)行業(yè)統(tǒng)一賦能。大模型為大數(shù)據(jù)的價值變現(xiàn)趟出了一條“端到端”(無人干預,至少是無客戶干預)的道路,加快了大數(shù)據(jù)的價值變現(xiàn)進程,為大數(shù)據(jù)價值變現(xiàn)提供了一條新路徑。基于大模型的大數(shù)據(jù)價值變現(xiàn)給我國數(shù)字化轉(zhuǎn)型帶來全新契機。

除了以上這三個特征或者要素之外,我想強調(diào)第四個十分重要但是還未引起足夠重視的因素,那就是工藝過程。工藝過程是所有重工業(yè)發(fā)展的至關重要的因素之一。傳統(tǒng)的制造業(yè)給過我們很多有益的啟發(fā)。我國是制造業(yè)大國,但在某些領域我們的制造水平仍然有限,限制其發(fā)展水平的往往不是原料、不是設備,而是工藝過程。也就是說,相同的生產(chǎn)原料與設備,經(jīng)過不同的工藝過程會得到不同質(zhì)量的產(chǎn)品。重工業(yè)的高質(zhì)量發(fā)展離不開先進工藝。當前我國大模型產(chǎn)業(yè)發(fā)展在數(shù)據(jù)方面是有優(yōu)勢的,在算力方面是有基礎的,在模型方面也不存在什么秘密,唯獨大模型煉制的先進工藝過程是我們所缺乏的,是短期之內(nèi)難以跟上或者超越的,是需要付出巨大代價進行摸索的。幾乎所有核心部件的關鍵工藝過程,比如芯片封裝,企業(yè)都是束之高閣視作最高機密。企業(yè)的核心競爭力往往就是成熟的、先進的工藝過程。OpenAI真正秘而不宣的核心關鍵就是它的工藝過程,包括數(shù)據(jù)配方、數(shù)據(jù)清洗、參數(shù)設置、流程設計、質(zhì)量控制等等,從根本上決定了大模型的效果。所以任何重工業(yè),包括人工智能,一旦進入重工業(yè)模式,都要尤為關注其工藝過程。

放眼世界,我們看到西方世界圍繞著大模型已經(jīng)初步形成相對完整的產(chǎn)業(yè)生態(tài)。根據(jù)http://theresanaiforthat.com(該網(wǎng)站的取名本身就值得仔細玩味,任意一個現(xiàn)實問題或應用總有個AI能解決)統(tǒng)計,截至2023年5月5日,國際上涌現(xiàn)出了近4000家AI創(chuàng)新企業(yè)。自從2022年9月以來,新的AI企業(yè)的誕生數(shù)量隨著時間呈指數(shù)增長。這些創(chuàng)新企業(yè)有相當數(shù)量是圍繞大模型周邊產(chǎn)品的生態(tài)企業(yè)。這些有如雨后春筍般涌現(xiàn)的生態(tài)企業(yè),多圍繞著大模型落地的最后一公里中的應用痛點問題進行市場定位,解決特定場景的大模型落地痛點問題,解決大模型在行業(yè)應用中的痛點問題。可以說大模型對于整個生態(tài)發(fā)展的引領與帶動作用是十分巨大的。生態(tài)企業(yè)的發(fā)展進一步反哺大模型自身,周邊與核心雙向拉通、連鎖反應,勢必帶動整個人工智能行業(yè)的發(fā)展。可以說ChatGPT的出現(xiàn)是人工智能產(chǎn)業(yè)發(fā)展的分水嶺。ChatGPT之前,人工智能產(chǎn)業(yè)處于手工作坊階段,需要經(jīng)歷漫長的原始積累與技術儲備,不斷消磨人們的耐心與觀望。ChatGPT之后,人工智能產(chǎn)業(yè)進入了重工業(yè)時代,迎來了快速發(fā)展、規(guī)模化聚集的新階段,躬身入局、時不我待或許是當前從業(yè)者心態(tài)的最真實寫照。此刻,以全部的熱情與經(jīng)歷投身于人工智能輝煌發(fā)展的新時代都是不過分的。

反觀國內(nèi)大模型產(chǎn)業(yè),從表象上看是熱鬧非凡、模型林立,但是剝開外殼,從內(nèi)里看是發(fā)展無序與內(nèi)核空虛,不免讓人擔憂。一方面,幾乎所有國內(nèi)人工智能產(chǎn)業(yè)的重要企業(yè)與研發(fā)機構(gòu)紛紛推出了自己的類ChatGPT大模型。這說明,大家都意識到了生成式大模型的重要意義,意識到了短板與落后,發(fā)奮圖強,奮力追趕。另一方面卻是大模型產(chǎn)業(yè)發(fā)展已經(jīng)出現(xiàn)一些問題,包括同質(zhì)化嚴重、數(shù)據(jù)生態(tài)不完善、算力掣肘、模型創(chuàng)新有限。當前的大模型產(chǎn)業(yè)發(fā)展很像上世紀50年代的“大煉鋼鐵”運動,轟轟烈烈的全民大煉鋼鐵運動造成了人力、物力、財力的極大浪費。不同的是當年的運動是自上而下,今天的運動是自下而上。大模型產(chǎn)業(yè)發(fā)展應該極力避免再走大煉鋼鐵的舊路,需要統(tǒng)一規(guī)劃,合作協(xié)同,立法保障、有序發(fā)展、健康發(fā)展。全民大煉模型的后果一定是大模型成為一場代價高昂的華麗的煙花秀。

首先,技術路線同質(zhì)化嚴重。比如說很多機構(gòu)都是基于Stanford Alpaca的工藝過程去做基座模型微調(diào),并利用ChatGPT等當前相對廉價的API(應用程序編程接口)生成數(shù)據(jù)來喂養(yǎng)自己的大模型。同質(zhì)化的技術路線導致同質(zhì)化的大模型。如果大家去問一問國內(nèi)的大模型“你是誰”,很多回答就是“我是ChatGPT”。雖然跟隨是戰(zhàn)略發(fā)展的必經(jīng)階段,但是絕不能停留在這一階段,要盡快形成自己的特色與核心,才有可能最終形成超越或者特色。

其次,數(shù)據(jù)生態(tài)不完善。我國仍然要以優(yōu)先發(fā)展中文大模型為主要目標。然而,中文大模型研發(fā)生態(tài)還存在很多問題。首先是中文數(shù)據(jù)規(guī)模與質(zhì)量仍存在不足。有數(shù)據(jù)統(tǒng)計,在互聯(lián)網(wǎng)公開語料中,中文數(shù)據(jù)大概只占百分之一點幾。這極大地限制了中文大模型的效果。除了規(guī)模有限之外,中文數(shù)據(jù)的質(zhì)量也存在問題。互聯(lián)網(wǎng)開放環(huán)境的中文語料數(shù)據(jù),其質(zhì)量遠不如深網(wǎng)或者企業(yè)內(nèi)部的數(shù)據(jù)。然而中文數(shù)據(jù)中的這些問題本身也孕育著新的機遇。行業(yè)數(shù)據(jù)、企業(yè)數(shù)據(jù)通常較為優(yōu)質(zhì),但大都是私域數(shù)據(jù),不對外開放。如何充分利用這些私域數(shù)據(jù)激發(fā)中文大模型的潛在價值是發(fā)展中文大模型過程中值得深思的重要問題。我們已然欣喜地看到一些數(shù)據(jù)聯(lián)盟組織(比如非盈利數(shù)據(jù)聯(lián)盟組織:MNVBC)正在積極推動中文高質(zhì)量數(shù)據(jù)的匯聚與清洗。總體而言,完善的數(shù)據(jù)生態(tài)需要大家的共同努力。

第三,算力掣肘。英偉達高端GPU對中國供應受限,例如:新型H100顯卡對我國禁運。我們的國產(chǎn)算力雖然也很爭氣,總體來言與國外算力仍有差距。這些差距表現(xiàn)在國產(chǎn)算力生態(tài)不完善、單核算力總體而言性能相對較弱、對16位浮點數(shù)運算等底層計算技術支持不完善等諸多方面。其中,盡快健全國產(chǎn)算力生態(tài)尤為重要。從硬件到軟件、從廠商到用戶,算力生態(tài)需要各種角色共同努力與積極營造,才能讓國產(chǎn)算力變得更可用、更易用。

第四,模型創(chuàng)新有限。我們現(xiàn)有的模型多依賴國外開源社區(qū)的模型實現(xiàn),在Transformers結(jié)構(gòu)基礎上進行微量創(chuàng)新,或是針對特定硬件和底層軟件的Transformers模型結(jié)構(gòu)優(yōu)化。如果開源社區(qū)的模型實現(xiàn)對我們限制,或者存在底層調(diào)用鏈安全隱患,都會對國產(chǎn)大模型產(chǎn)業(yè)帶來損耗。必須防患于未然,積極發(fā)展自主可控的中文大模型開源社區(qū)。

針對以上問題,我們應該如何應對呢?我們需要系統(tǒng)性地回應這個問題,需要從數(shù)據(jù)共享、算力協(xié)作、開源生態(tài)、人才培養(yǎng)、評測體系、成本控制、應用探索與技術研究等各方面推動大模型發(fā)展。

1.積極推動數(shù)據(jù)聯(lián)盟(數(shù)據(jù)交易)的建設,促進優(yōu)質(zhì)數(shù)據(jù)的共享與傳播。事實上我國在數(shù)據(jù)流通和交易方面,還是走在國際前列的。我們成立了很多數(shù)據(jù)交易中心、數(shù)據(jù)交易所。政策方面還有“數(shù)據(jù)二十條”(即中共中央、國務院于2022年12月19日印發(fā)的《關于構(gòu)建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》)來保障數(shù)據(jù)的規(guī)范化交易與開放。那么依托我國相對完善的數(shù)據(jù)交易體系,為大模型產(chǎn)業(yè)發(fā)展量身定制相應的數(shù)據(jù)聯(lián)盟與交易機制,就是個值得優(yōu)先發(fā)展的思路。同時在數(shù)據(jù)交易的過程中,應該做好頂層統(tǒng)一規(guī)劃,規(guī)范數(shù)據(jù)格式。大模型發(fā)展對于統(tǒng)一規(guī)范的數(shù)據(jù)標準要求尤為迫切,比如統(tǒng)一的語料格式、統(tǒng)一的指令(Instruction)格式、統(tǒng)一的標注數(shù)據(jù)格式。數(shù)據(jù)的規(guī)范化可以極大地降低大模型的數(shù)據(jù)治理代價。

2.大力推動算力聯(lián)盟,促進優(yōu)質(zhì)算力共享與協(xié)作。對于大模型產(chǎn)業(yè)發(fā)展而言,當前算力呈現(xiàn)出分散與異構(gòu)的顯著問題。在實際大模型研發(fā)中, GPU(大模型計算的主流算力)往往分散在不同機房、不同數(shù)據(jù)中心,有著不同的網(wǎng)絡架構(gòu),不同的權(quán)限歸屬,對大模型的分布式聯(lián)合訓練提出了較高要求。傳統(tǒng)超算中心往往存在多卡互聯(lián)帶寬不足的問題,制約了算力效能的發(fā)揮。迫切需要將傳統(tǒng)集群網(wǎng)絡升級為使用了多卡鏈接新技術的NVLINK、IB等網(wǎng)卡。同時需要加快推進大模型在異構(gòu)網(wǎng)絡環(huán)境下的分布式訓練等關鍵技術的研究。對于國產(chǎn)算力,應制定相關政策鼓勵發(fā)展。國產(chǎn)算力總體而言可以走一條數(shù)量換質(zhì)量、空間換時間的戰(zhàn)略。單卡能力不足則通過多卡來提升,以構(gòu)建更大規(guī)模的顯卡集群。為顯卡設計超一般規(guī)格的顯存,以容納更大模型,避免模型切分,來加速模型訓練。大模型的算力發(fā)展也要考慮到我國算力網(wǎng)絡建設的整體發(fā)展戰(zhàn)略。

3.推動模型實現(xiàn)開源,完善國產(chǎn)大模型的開源生態(tài)。在圖像生成領域,既有Midjourney這樣的封閉的公司化運作的成功案例,也有開源社區(qū)自發(fā)維護和研究的Stable Diffusion模型。且開源模型由于參與者眾多,結(jié)果更可控、應用場景更豐富、模型演變更迅速。圖文生成領域的發(fā)展對于大模型發(fā)展具有重要參考意義。唯有開源生態(tài)才能對抗以ChatGPT為代表的封閉生態(tài)。凝聚國內(nèi)外一切有志于開源運動的力量形成開放的大模型技術社區(qū),打造中文大模型統(tǒng)一底座,積極開展基于底座模型的各種應用實踐,充分發(fā)揮我國數(shù)據(jù)資源豐富、應用場景豐富的優(yōu)勢,著力提升AGI的可控性、功能性,以應對來自OpenAI的挑戰(zhàn)。

4.創(chuàng)新培養(yǎng)方式,培育大模型產(chǎn)業(yè)人才。人才匱乏是當前制約大模型產(chǎn)業(yè)發(fā)展的關鍵問題之一。有業(yè)內(nèi)人士預計:“國內(nèi)能夠進行相關技術研發(fā)的人才應該不超過1000人,保守一點來說僅有兩三百號人”。客觀來講,AGI的到來速度是始料不及的。即便放眼全球,學術界與工業(yè)界都沒做好迎接準備。除了OpenAI和微軟等少數(shù)贏家之外,大部分企業(yè)和研發(fā)機構(gòu)都是倉促應對AGI的挑戰(zhàn)。而人才培養(yǎng)最需要的恰是時間。短期之內(nèi)是無法培養(yǎng)能夠從事大模型產(chǎn)業(yè)的專業(yè)人才。當前“煉鋼爐林立”唯一的正面作用在于培養(yǎng)一批有模型煉制經(jīng)驗的專業(yè)人才。在大模型人才培養(yǎng)方面,尤為要注重跨學科、跨專業(yè)的復合型人才培養(yǎng)。不僅要培養(yǎng)涉及大模型訓練、調(diào)優(yōu)、評測、應用等各個環(huán)節(jié)的專業(yè)技術人才,更要培養(yǎng)兼通行業(yè)知識的提示工程師,培養(yǎng)兼通人文社科背景的大模型評測與分析專家,培養(yǎng)兼通大模型技術與產(chǎn)品設計的產(chǎn)品經(jīng)理。在大模型人才培養(yǎng)中要注重產(chǎn)學研聯(lián)動的育人體系。育人與產(chǎn)業(yè)的邊界日益模糊,做產(chǎn)品的過程也是培養(yǎng)人的過程,要在實戰(zhàn)中育人,要上馬能作戰(zhàn),下馬能讀書。人工智能產(chǎn)業(yè)發(fā)展的極高速度對于傳統(tǒng)的育人與產(chǎn)業(yè)脫節(jié)的專業(yè)人才培養(yǎng)思路提出了全新挑戰(zhàn)。

5.建立大模型的診斷與評測體系,保障大模型產(chǎn)業(yè)健康發(fā)展。這是保障大模型健康發(fā)展的關鍵舉措,同時具有戰(zhàn)略意義。掌握話語權(quán)的關鍵在于眼光不能停留在只做運動員(煉制大模型),更要積極投身于裁判員的事業(yè)之中(評價大模型)。大模型的發(fā)展需要系統(tǒng)性的診斷與評測,大模型的認知能力、解決問題能力、價值觀、政治傾向、安全性等等需要進行全方位評測。同時要注重建立面向研發(fā)環(huán)節(jié)的診斷體系,需要建立大模型的效用指征體系,建立相應的度量機制,建立大模型的健康評價體系,識別大模型煉制工藝過程的關鍵因素,建立大模型的診斷與優(yōu)化模型。從診斷與評測兩個視角,建立與健全大模型的診斷與評價體系,建立大模型的評測基準,是大模型產(chǎn)業(yè)發(fā)展所亟需的,是形成差異化發(fā)展路線的關鍵。

6.研究綠色可持續(xù)的大模型煉制與應用技術,降低大模型落地成本。大模型的成本問題也是大模型技術形成產(chǎn)業(yè)應用閉環(huán)的關鍵問題。大模型成本巨大,是限制其應用的關鍵因素。大模型的成本首先是訓練成本。雖然互聯(lián)網(wǎng)開放環(huán)境中存在大量語料,但是高質(zhì)量語料相對匱乏。因此,大模型所需要的大數(shù)據(jù)、大語料,仍需付諸巨大的人工成本進行清洗。第二類成本是算力。目前主流算力是英偉達的A100或A800顯卡,千億參數(shù)模型至少都需要千張A800顯卡,一張A800約9萬元人民幣,再考慮配套設備成本,千億參數(shù)的硬件成本至少是上億人民幣。訓練過程中還存在一定的硬件故障,進一步加重此開銷。第三項成本是能源。有報道稱“大模型訓練成本中60%是電費”(華為云人工智能首席科學家田奇語);知名計算機專家吳軍也曾說:“ChatGPT每訓練一次,相當于3000輛特斯拉電動汽車每輛跑20萬英里(約32.19萬公里)”。第四項成本是部署成本。相較于訓練,部署時的顯卡需求量可能更大,才可能應對極高的并發(fā)訪問量。國內(nèi)早期公開的類ChatGPT模型常因為算力有限遭遇巨大的瞬時訪問量而系統(tǒng)崩塌。此外,還需要考慮大模型的維護成本。大模型的持續(xù)學習、可控編輯、安全防護、價值對齊等等仍需深入研究。綠色、可持續(xù)發(fā)展、低成本的大模型技術是大模型進一步落地過程中的關鍵問題。

7.積極探索大模型的應用模式,豐富大模型的應用場景。大模型的應用模式也仍然面臨著若干問題。ChatGPT比較好地實現(xiàn)了機器與人類的開放式對話,也就是閑聊。然而實際應用場景多需機器的復雜決策能力,比如故障排查、疾病診斷、投資決策,對于錯誤有著較低的容忍程度,需要豐富的專業(yè)知識、復雜的決策邏輯,需要具備宏觀態(tài)勢的研判能力、綜合任務的拆解能力、精細嚴密的規(guī)劃能力、復雜約束的取舍能力、未知事物的預見能力、不確定場景的推斷能力等。可以說,從開放閑聊到復雜決策仍有漫長的道路要走。大模型如何在千行百業(yè)復雜的商務決策中應用仍是有待探索的問題。我們不能只是盲目跟隨ChatGPT,要對其能做什么不能做什么有清醒認識。要在領域的復雜決策場景中形成核心競爭力,要重新奪回戰(zhàn)略競爭中的主動權(quán)。

8.持續(xù)研究大模型煉制與應用關鍵技術,完善大模型技術體系。大模型從煉制到應用仍存在很多技術問題需要解決。首先是大模型的數(shù)據(jù)治理問題,這是大模型煉制過程中的關鍵問題。訓練數(shù)據(jù)的有效清洗、偏見消除、隱私保護、數(shù)據(jù)配比、提示增強、領域適配等仍是大模型煉制的關鍵技術問題。其次是大模型的可控編輯問題,這是大模型應用的關鍵問題。如何實現(xiàn)大模型事實、知識與信念的可控編輯?此外,還包括大模型的高并發(fā)服務與低成本部署、大模型的推理優(yōu)化,以及生成式大模型幻象問題。此外,一個長遠的研究目標是持續(xù)提升大模型的類人認知能力,比如提升大模型的長文本理解以及全局約束理解能力,提升大模型的高級認知能力,比如自省、自識、規(guī)劃、記憶等。另一個長遠研究目標在于大模型之間的有效協(xié)同。

最后我想圍繞大模型的產(chǎn)業(yè)發(fā)展,提出一些開放性問題供大家思考。

問題一:我們能否定義一條具備中國特色的大模型產(chǎn)業(yè)發(fā)展道路?大模型熱潮源自美國,我們除了要加速完成技術追趕之外,能否提出一條具有中國特色的大模型發(fā)展道路,以形成差異化的發(fā)展路線和競爭格局?特別地,對于上海的企業(yè)而言,我們能否提出一條具有上海特色的大模型發(fā)展之路?在通用人工智能時代,往往只有第一沒有第二。所以利用中國特色,比如通過舉國體制統(tǒng)籌資源共享,是形成競爭優(yōu)勢的關鍵所在。

問題二:傳統(tǒng)的 “先研發(fā)再產(chǎn)品”軟件系統(tǒng)研發(fā)模式是否能勝任大模型驅(qū)動的智能系統(tǒng)軟件?基于大模型的軟件系統(tǒng)目前呈現(xiàn)的態(tài)勢是:“先產(chǎn)品再研發(fā)”,或“邊產(chǎn)品邊研發(fā)”。從研發(fā)到應用的節(jié)奏顯著加快,甚至已經(jīng)沒有了傳統(tǒng)意義上的研發(fā)環(huán)節(jié)了,“研發(fā)就是產(chǎn)品,產(chǎn)品就是研發(fā)”。因此,大模型的帶動下,會不會形成一種全新的產(chǎn)品化模式?我們?nèi)绾巫龀鲎兏镆赃m應“產(chǎn)研一體化”的全新研發(fā)模式?這是未來產(chǎn)品化過程需要深思的問題。

問題三:如何統(tǒng)籌規(guī)劃大模型產(chǎn)業(yè)發(fā)展布局?當前國內(nèi)的大模型研發(fā)處于各自為政的階段,總體處于跟隨階段,同質(zhì)化產(chǎn)品多、特色創(chuàng)新不鮮明。而隨著大模型規(guī)模的持續(xù)增大,單一團隊和機構(gòu)往往缺少足夠的數(shù)據(jù)資源與算力來完成大模型的煉制與優(yōu)化。那么,我們?nèi)绾纹瞥斍按竽P桶l(fā)展過程中小爐子林立的問題?如何有效地促進數(shù)據(jù)聯(lián)盟、算力聯(lián)盟甚至人才聯(lián)盟?政府、市場、企業(yè)、科研院所、高校在整個規(guī)劃布局中各自發(fā)揮怎樣的功能與作用?

問題四:大模型會對當前的消費者市場形成怎樣的影響?傳統(tǒng)To C產(chǎn)品都是功能性的、面向?qū)S妙I域及專用任務的。而當前的AI正在向通用人工智能方向突飛猛進,最近一些研究工作也讓大模型具備了全網(wǎng)信息檢索與應用接口調(diào)用的能力。大模型發(fā)展到今天就好比是一個全科醫(yī)生,什么都知道一些,但是一旦到了專業(yè)問題可能還是需要咨詢某一個專科醫(yī)生。換言之,大模型的入口功能顯著。入口的本質(zhì)是用戶接入、交互與分流。這恰恰就是ChatGPT類產(chǎn)品最擅長的能力。那么,當前的很多互聯(lián)網(wǎng)專用功能性平臺(比如購物、打車、訂票等)是否會被這個全新的統(tǒng)一入口所取代而只剩下一個基于ChatGPT的統(tǒng)一門戶?每一次互聯(lián)網(wǎng)入口的變換都是互聯(lián)網(wǎng)行業(yè)的一次變革,ChatGPT類的通用聊天大模型是否會成為各類互聯(lián)網(wǎng)生活服務的統(tǒng)一入口?大模型時代的未來To C產(chǎn)品的基本形態(tài)是否會發(fā)生變革?

問題五:大模型會對當前的企業(yè)端市場形成怎樣的影響?企業(yè)端市場也就是我們常說的To B市場也將會因為ChatGPT的到來而迎來一場全新變革。如果與傳統(tǒng)的汽車制造業(yè)類比,大模型對于To B市場的首要意義在智能引擎升級。To B產(chǎn)品是建立在智能引擎基礎之上的,傳統(tǒng)數(shù)據(jù)驅(qū)動、知識驅(qū)動或者二者聯(lián)合驅(qū)動的智能引擎,將會被全新的大模型引擎所重塑。然而正如前文所述,大模型在領域復雜決策應用場景上仍然有明顯的短板與不足,尚達不到領域?qū)<业哪芰ΑR虼耍?strong>我認為未來仍是以大模型為代表的數(shù)據(jù)驅(qū)動與領域知識圖譜為代表的知識驅(qū)動相結(jié)合的雙引擎驅(qū)動模式。由大模型實現(xiàn)領域?qū)<业闹庇X決策,由知識圖譜實現(xiàn)領域?qū)<业倪壿嫑Q策,唯有兩者結(jié)合才能復現(xiàn)領域?qū)<医鉀Q問題的能力。如果與傳統(tǒng)的操作系統(tǒng)類比,大模型可以作為To B產(chǎn)品的控制器。作為具有一定的領域通識能力的大模型,有能力勝任企業(yè)級智能系統(tǒng)的控制器,協(xié)調(diào)傳統(tǒng)的IT系統(tǒng)(比如數(shù)據(jù)庫、知識庫、CRM、ERP、BI系統(tǒng)等)。然而在上述遠景產(chǎn)品研發(fā)中,我們?nèi)匀幻媾R許多具有挑戰(zhàn)性的問題。比如,如何協(xié)同領域知識與大模型?如何實現(xiàn)領域?qū)<业闹庇X推理?如何實現(xiàn)領域知識與邏輯增強的大模型?如何實現(xiàn)領域大模型的安全與可控?

問題六:ChatGPT為何沒有誕生在中國?如何避免錯失下一個ChatGPT?我相信這兩個問題會觸發(fā)大家太多的思考與感嘆。我們鼓勵創(chuàng)新,卻極少能夠?qū)捜菔。晃覀冏鹬厝瞬牛瑓s又不斷建立條條框框;我們在太多無意義的事情上內(nèi)卷與消耗,卻極少愿意停下腳步花上片刻欣賞路邊的芬芳;我們每個人都似陀螺一樣不停旋轉(zhuǎn),每一步都是最優(yōu)的理性決策,卻錯失了可貴的原始創(chuàng)新。久而久之,我們似乎習慣了追趕的驚心動魄,失去了引領的自信與大度。我們需要徹底反思我們的科研文化、科研生態(tài),要避免在盲目追趕中變得麻木與沉淪,要更多地以閑暇與從容的姿態(tài)去思考去批判。

由ChatGPT所引發(fā)的通用人工智能產(chǎn)業(yè)變革,相信才剛剛開始。我們需要以更深切的思考、更扎實的實踐,牢牢抓住大模型以及其他通用認知智能技術給我國數(shù)字化轉(zhuǎn)型與高質(zhì)量發(fā)展所帶來的全新機遇。同時,我們也要正視發(fā)展過程中出現(xiàn)的問題,積極規(guī)范與引導大模型產(chǎn)業(yè)的健康發(fā)展。大模型絕不是宣傳文案中的噱頭,也絕不能成為一場華麗的煙花秀,而要成為實實在在的能夠推動社會發(fā)展與進步的先進生產(chǎn)力。

(作者肖仰華,系復旦大學教授、上海市數(shù)據(jù)科學重點實驗室主任。二八法則,是工業(yè)時代的邏輯;而在智能時代,則是2%/98%的邏輯。如何成為智能時代2%的受益者?“當見未萌”,讓我們加入浪潮吧。本專欄由計算機學界專業(yè)人士為澎湃科技讀者特供。)

    責任編輯:鄭潔
    圖片編輯:樂浴峰
    校對:徐亦嘉
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            百家乐游戏解密| OK娱乐城| 广东省| 如何玩百家乐赢钱技巧| 海威百家乐官网赌博机| 百家乐官网打法心得| 网络博彩qq群| 威尼斯人娱乐城好不好| 赌百家乐的下场| 百家乐官网赌博策略| 赌百家乐官网波音备用网| 德州扑克桌| 百家乐看大路| 百家乐官网代理| 澳门百家乐官网娱乐注册| 破解百家乐| 大发888下载大发888娱乐城| 百家乐赌博公司| 百家乐代理网址| 百家乐官网小九梭哈| 真钱百家乐官网赌博| 亚洲赌博网站| 大众娱乐城| 亿酷棋牌世界官方下载| 百家乐庄闲出现几| 百家乐赌的是心态吗| 百家乐网站东方果博| 大发888皇家赌场| 百家乐图形的秘密破解| 百家乐在线娱乐可信吗| 百家乐破解版下载| 百家乐官网代理合作| 零点棋牌下载| 大发888下载官网| 大发888网络赌博害人| 大发888娱乐平台| 太阳城ktv| 大发888官方下| 大发888游戏在线客服| 大发888老虎机平台| 大发888娱乐场金沙|