ChatGPT勁敵現(xiàn)身：Claude3能總結(jié)15萬單詞，長文理解準確率超99%

澎湃新聞記者張靜喻琰

2024-03-05 18:31

來源：澎湃新聞

·Claude 3能總結(jié)15萬個單詞，而ChatGPT只能總結(jié)大約3000個單詞。用戶可以輸入大量數(shù)據(jù)集，并要求Claude 3以備忘錄、信件或故事的形式進行總結(jié)。

·Claude 3 Opus是Anthropic最強大的新模型，在行業(yè)基準測試中的表現(xiàn)優(yōu)于OpenAI的GPT-4和谷歌的Gemini Ultra大模型。Claude 3 Opus對長文的語境理解準確率超99%。

當?shù)貢r間3月4日，美國人工智能初創(chuàng)公司Anthropic發(fā)布最新大模型Claude 3系列，該系列包含Claude 3 Opus（著作）、Claude 3 Sonnet （十四行詩）、Claude 3 Haiku（俳句）三個版本。其中，Claude 3 Opus是Anthropic最強大的新模型，在行業(yè)基準測試中的表現(xiàn)優(yōu)于OpenAI的GPT-4和谷歌的Gemini Ultra大模型。這家初創(chuàng)企業(yè)過去一年融資五筆，總額約73億美元，由OpenAI前高級成員創(chuàng)立，獲得了谷歌和亞馬遜的支持。

200秒看懂Claude 3：一鍵預(yù)測世界經(jīng)濟走勢(04:00)

可總結(jié)15萬個單詞，長文語境理解準確率超99%

Anthropic表示，Claude3系列是目前市面上速度最快、性能最好的人工智能模型，在推理、數(shù)學(xué)、編程、多語言理解和視覺方面樹立了新的行業(yè)基準。

其中，Claude 3 Opus是Anthropic最強大的新模型，在行業(yè)基準測試中的表現(xiàn)優(yōu)于OpenAI的GPT-4和谷歌的Gemini Ultra大模型，尤其在大規(guī)模多任務(wù)語言理解數(shù)據(jù)集（MMLU）、研究生級別的谷歌驗證問答基準（GPQA）、數(shù)學(xué)評測集（GSM8K）、編程多語言測試（HumanEval）等方面均超越了GPT-4和Gemini。

Claude 3 模型與同行大模型在行業(yè)基準測試中的表現(xiàn)

Anthropic在官網(wǎng)公布了Claude 3模型與其他模型在多項性能基準上的比較數(shù)據(jù)。數(shù)據(jù)顯示，在MMLU上，Claude 3 Opus得到86.8%的得分，而GPT-4得到86.4％。一些差距則較大，例如在編程多語言測試上，Claude 3 Opus得到84.9%的得分，而GPT-4得到67％，這或意味著Claude 3 Opus對于新手學(xué)編程的更友好。

此外，Claude 3能夠總結(jié)高達15萬個單詞，而ChatGPT只能總結(jié)大約3000個單詞。用戶可以輸入大量數(shù)據(jù)集，并要求Claude 3以備忘錄、信件或故事的形式進行總結(jié)，這一能力使得Claude 3在處理長文本方面超過ChatGPT。其中，Claude 3 Opus對于長文的語境理解準確率超99%，“在某些情況下甚至能識別出有哪些詞句是人為插入到原始文本中的。”Anthropic在官網(wǎng)提到。

Claude 3 Opus對長文理解的準確度

Claude 3系列中的Haiku能在3秒內(nèi)讀取arXiv（arXiv是一個收集物理學(xué)、數(shù)學(xué)、計算機科學(xué)、生物學(xué)論文預(yù)印本網(wǎng)站）上一篇數(shù)據(jù)密集的研究論文，并附帶圖表和圖形。

Claude 3強大的視覺能力

值得一提的是，與前幾代模型相比，這也是Anthropic首次提供多模態(tài)支持，允許用戶上傳圖片、文檔、圖表和其他類型的非結(jié)構(gòu)化數(shù)據(jù)進行分析和回答，但Claude 3不能生成圖像。

不過，Anthropic也在官網(wǎng)最后表示，盡管與之前發(fā)布的大模型相比，Claude3在生物知識、網(wǎng)絡(luò)知識和自主性等相關(guān)指標上有所進步，但它仍處于人工智能安全等級2 (ASL-2)。Claude紅隊評估得出的結(jié)論是，目前這些模型帶來災(zāi)難性風(fēng)險的可能性非常小，但公司會持續(xù)監(jiān)測未來的模型。

Anthropic拒絕透露訓(xùn)練Claude 3花了多長時間，也不愿透露花了多少錢。目前，Claude 3 Opus和Claude 3 Sonnet 已在全球159個國家上線，用戶可在 Claude.ai 中使用，Claude 3 Haiku也將很快與公眾見面。

Anthropic總裁丹妮拉·阿莫代（Daniela Amodei）表示，如果客戶需要處理最復(fù)雜的認知任務(wù)，比如準確處理復(fù)雜的財務(wù)分析，他們會選擇Claude 3 Opus，盡管價格更高。據(jù)路透社報道，Claude 3 Opus對輸入的每100萬token收取15美元。相比之下，OpenAI對其GPT-4 Turbo模型中輸入的每100萬token收費10美元。而Sonnet和Haiku比Claude 3 Opus更便宜。

創(chuàng)始人系OpenAI前高級成員，過往一年融資73億美元

Anthropic是美國的人工智能初創(chuàng)公司，由OpenAI前高級成員丹妮拉·阿莫代和達里奧·阿莫代（Dario Amodei ）兄妹于 2021 年創(chuàng)立，后者曾擔任OpenAI研究副總裁。

Anthropic公司

據(jù)外媒報道，Anthropic公司創(chuàng)始人之一達里奧·阿莫代領(lǐng)導(dǎo)的一群研究人員因?qū)penAI發(fā)展方向產(chǎn)生分歧而離開OpenAI，他們擔心微軟對OpenAI的首次投資會使其走上更加商業(yè)化的道路，從而偏離其最初對高級人工智能安全性的關(guān)注。

達里奧·阿莫代在領(lǐng)英上的介紹包括他曾擔任Open AI研究副總裁和谷歌高級研究科學(xué)家。在OpenAI，達里奧·阿莫代從2016年工作到2020年，負責(zé)監(jiān)督公司GPT-2和GPT-3語言模型的創(chuàng)建。

丹妮拉·阿莫代在創(chuàng)辦Anthropic公司之前曾在Stripe擔任風(fēng)險經(jīng)理，負責(zé)監(jiān)管運營、用戶政策和承保。后來成為OpenAI安全與政策副總裁，在確保人工智能技術(shù)的安全和道德使用方面發(fā)揮了關(guān)鍵作用。

Anthropic這家初創(chuàng)該公司將自己的產(chǎn)品定位為比ChatGPT更安全的替代品。過去一年Anthropic完成五筆融資，總額約73億美元。據(jù)《金融時報》報道，谷歌在2023年2月向Anthropic投資約3億美元。亞馬遜公司于2023年9月向Anthropic投資40億美元，作為戰(zhàn)略合作伙伴關(guān)系的一部分。

亞馬遜公司在一份新聞稿中表示，亞馬遜計劃在其產(chǎn)品和服務(wù)中使用Anthropic的人工智能技術(shù)，而Anthropic將依賴亞馬遜網(wǎng)絡(luò)服務(wù)作為其主要的云服務(wù)，并協(xié)助亞馬遜開發(fā)其定制的人工智能芯片。亞馬遜表示，作為交易的一部分，它將獲得這家人工智能初創(chuàng)公司的"少數(shù)股權(quán)"，但沒有提供更多細節(jié)。

責(zé)任編輯：宦艷紅

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#Claude3 #大語言模型 #GPT-4