- +1
日本正在打造自己的日語版“ChatGPT”
日本超級計算機Fugaku已經開始消化日語文本,以開發日本版的ChatGPT。圖片來源:Kyodo News via Getty
日本正在打造自己的聊天機器人ChatGPT。據《自然》消息,日本政府聯合NEC、富士通、軟銀等大型科技公司投入數億美元,開發日語的大型語言模型(LLM)。
專門研究自然語言處理的日本東北大學研究員Keisuke Sakaguchi認為,目前的大型語言模型智能系統在英語方面表現出色,但在日語方面往往表現不佳。
ChatGPT之前的模型GPT-3訓練的絕大多數文本都是英語。由于日語的句子結構與英語完全不同,因此,ChatGPT必須將日語翻譯成英語才能找到答案,然后再將答案譯回日語。
書面日語由兩組48個基本字符和2136個常用漢字組成。由于日語的復雜性,ChatGPT有時會生成大多數人從未見過的極其罕見的字符,以及奇怪的未知單詞。
一個有用的LLM需要準確反映日本文化習俗。為了衡量LLM對日本文化的熟悉程度,研究人員推出了Rakuda—— 一個衡量LLM回答有關日本主題的開放式問題能力的排名。結果發現,日本最好的LLM在Rakuda上排名第四,GPT-4排名第一。
研究日語模型的東京大學物理學家Passaglia表示,LLM遠遠落后于GPT-4,但將來未必不能達到或超過GPT-4的水平。“這不是技術上無法克服的問題,只是資源問題。”
創建LLM需要使用日本超級計算機Fugaku,主要用于訓練日語輸入。與GPT-4和其他專有模式不同,它將與其他開源LLM一起向所有用戶提供其代碼。
日本文部科學省正在資助創建一個針對科學需求的人工智能項目,該LLM的開發成本至少為300億日元,預計將于2031年公開發布。超級計算機制造商NEC在5月份開始使用基于日語的生成式人工智能,并聲稱它將創建內部報告所需時間縮短了50%、將內部軟件源代碼縮短了80%。
與此同時,軟銀投資約200億日元開發基于日語文本的生成式人工智能,并計劃明年推出自己的LLM,其目標是幫助企業實現業務數字化、提高生產率。
日本研究人員希望開發出一個精確、有效的人工智能聊天機器人促進本國的科學發展,彌補日本與世界其他地區之間的差距。東京慶應義塾大學醫學院醫學技術研究員Shotaro Kinoshita表示,如果日文版的ChatGPT能夠表述準確,有望為那些想學習日語或進行日本研究的人帶來好處,從而產生積極影響。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司