MOSS大模型負(fù)責(zé)人邱錫鵬：大模型不僅僅是工程問題

澎湃新聞?dòng)浾?邵文

2023-09-11 12:59

來源：澎湃新聞

? 未來2% >

·“很多人認(rèn)為大模型是工程問題，但事實(shí)上并不是。大模型里存在很多科學(xué)問題，比如智能涌現(xiàn)、復(fù)雜推理、知識(shí)融合以及學(xué)習(xí)策略等等。”

·“大模型的平民化”，即最終要讓應(yīng)用大模型的每個(gè)人都覺得成本可以接受，包括微調(diào)、預(yù)訓(xùn)練、推理部署。

復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS大模型負(fù)責(zé)人邱錫鵬在外灘大會(huì)見解論壇。

“現(xiàn)在的大模型比較耗資源，但總體而言它的資源消耗都集中在預(yù)訓(xùn)練階段。除了算力需求大之外，很多人認(rèn)為大模型是工程問題，但事實(shí)上并不是。大模型里存在很多科學(xué)問題，比如智能涌現(xiàn)、復(fù)雜推理、知識(shí)融合以及學(xué)習(xí)策略等等。”

9月7日，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS大模型負(fù)責(zé)人邱錫鵬在外灘大會(huì)見解論壇“大語(yǔ)言模型消除人機(jī)鴻溝：人類主體性是強(qiáng)化還是弱化”上發(fā)表主旨演講，演講題目為“大型語(yǔ)言模型的科學(xué)挑戰(zhàn)”。

“自然語(yǔ)言處理已經(jīng)進(jìn)入大模型時(shí)代。由早期的專家系統(tǒng)到深度學(xué)習(xí)，再到現(xiàn)在參數(shù)量上千億或萬億的大模型，總體上進(jìn)入?yún)?shù)量和訓(xùn)練數(shù)據(jù)都大規(guī)模發(fā)展的狀態(tài)。但這些千億模型或百億模型不是最近才出現(xiàn)的，可能兩年前就有了。”邱錫鵬說。

這自然引出一個(gè)疑問，為什么兩年前不叫大模型？

邱錫鵬解釋道，之所以現(xiàn)在叫“大模型”，關(guān)鍵因素在于其內(nèi)涵和使用方式發(fā)生了變化。以前是把一個(gè)語(yǔ)言模型作為基座，運(yùn)用到不同任務(wù)中，每個(gè)任務(wù)要微調(diào)（fine tuning）一個(gè)自己的模型。而現(xiàn)在大語(yǔ)言模型有了新的內(nèi)涵，即一個(gè)模型能夠解決所有問題。

在ChatGPT出現(xiàn)后，大語(yǔ)言模型變得更加流行，邱錫鵬認(rèn)為這是因?yàn)槠浞夯芰Ψ浅：茫恍枰倭繉W(xué)習(xí)人類的一些指令，就能夠泛化到很多其他的、甚至沒有見過的指令上，“這就是大語(yǔ)言模型帶來的涌現(xiàn)效應(yīng)。”

據(jù)邱錫鵬介紹，現(xiàn)在做大模型研發(fā)有3個(gè)非常重要的準(zhǔn)則，也叫“HHH準(zhǔn)則”。

第一是有用性（Helpful），“我們跟GPT-4還是有非常大的差異，雖然都可以用來完成日常的對(duì)話聊天，但這個(gè)差異在于能不能用其完成非常復(fù)雜的任務(wù)。這是非常重要的一點(diǎn)。”邱錫鵬說。

其次是誠(chéng)實(shí)性（Honest），邱錫鵬解釋道，也就是說大模型知道的要說，不知道的不說，這就涉及到現(xiàn)在廣泛提及的“幻覺”問題（指模型生成不正確、無意義或不真實(shí)的文本），這也是非常難，非常有挑戰(zhàn)性的問題。

第三是無害性（Harmless），“因?yàn)檎Z(yǔ)言模型在訓(xùn)練時(shí)見過非常多的數(shù)據(jù)，其中包含好的與不好的，要讓它對(duì)齊（alignment，使系統(tǒng)的目標(biāo)和人類價(jià)值觀一致），不要產(chǎn)生具有冒犯性、歧視性、有害的內(nèi)容。”邱錫鵬表示，“這3個(gè)準(zhǔn)則就是新的時(shí)代我們做大語(yǔ)言模型時(shí)主要考慮的3個(gè)目標(biāo)。不過這3個(gè)是比較寬泛的原則，具體又可以細(xì)化出非常多的研究點(diǎn)。”

今年2月20日晚，邱錫鵬領(lǐng)導(dǎo)的團(tuán)隊(duì)發(fā)布國(guó)內(nèi)首個(gè)類ChatGPT的對(duì)話式大型語(yǔ)言模型MOSS，邀請(qǐng)公眾參與內(nèi)測(cè)，一經(jīng)發(fā)布就引起極高參與熱情。

在論壇上，邱錫鵬也談到MOSS的發(fā)布，“它是國(guó)內(nèi)第一個(gè)發(fā)布的類ChatGPT模型，我們也是最早提出開源的插件增強(qiáng)版本，比OpenAI的發(fā)布都更早。”邱錫鵬的團(tuán)隊(duì)當(dāng)時(shí)意識(shí)到，語(yǔ)言模型不只是用來對(duì)話，最重要的是它作為使用工具和外部世界相連接時(shí)對(duì)人的賦能。“我們現(xiàn)在也在不斷提高，會(huì)有些更新的結(jié)果，在原來的能力基礎(chǔ)上取得大幅提升。”

邱錫鵬所提及的正在進(jìn)行的工作，一個(gè)值得注意的方向是“大模型的平民化”，即最終要讓應(yīng)用大模型的每個(gè)人都覺得成本可以接受，包括微調(diào)、預(yù)訓(xùn)練、推理部署。“像現(xiàn)在買一臺(tái)英偉達(dá)A100服務(wù)器的成本，不是所有單位都能方便采用的，非常重要的就是如何去低成本優(yōu)化這些模型”。

邱錫鵬也提到一些具體方法，如高效的參數(shù)微調(diào)方法，“但這些方法都有一定缺陷，總體上來講調(diào)的參數(shù)量越小，模型能力就會(huì)越差。”能不能參數(shù)量不變，但把成本降下來？

邱錫鵬團(tuán)隊(duì)提出一個(gè)名為L(zhǎng)OMO的優(yōu)化器，將它稱為低內(nèi)存的優(yōu)化。它可以做到什么程度呢？“比如一個(gè)非常大的，如650億參數(shù)的開源模型，全量微調(diào)原來需要10臺(tái)8卡的英偉達(dá)A100，那現(xiàn)在用一臺(tái)8卡的英偉達(dá)RTX3090就可以微調(diào)它了。這樣的話成本就會(huì)非常低，并且是全量參數(shù)，微調(diào)并沒有損失它的性能，這樣沒有太多資源的人也都可以去優(yōu)化這些大模型。”

“最近OpenAI的一位創(chuàng)始人公布了他們的整個(gè)流程，包括大概的花費(fèi)。在整個(gè)大模型的訓(xùn)練階段，可以看到第一階段需要高算力，但在其他階段的算力投入并不是很大，這里面有非常多的研究空間。之前大家總以為做大模型就需要買好多張顯卡，確實(shí)需要一定的卡，但不是需要特別多。如果細(xì)分到后面的幾個(gè)步驟，可能就需要幾十張卡，幾周時(shí)間就可以完成。”邱錫鵬表示。