- +1
崖州灣國家實驗室聯合發布首個種業大語言模型:100道題得分是本科生4.87倍
人工智能技術能給“農業芯片”帶來怎樣的助力?國內首個種業大語言模型的推出,或許可以給出全新的探索路徑。
據崖州灣國家實驗室最新發布消息,崖州灣國家實驗室精準設計與智造團隊聯合中國農業大學、上海人工智能實驗室共同發布首個種業大語言模型“豐登” ,英文名稱Large Language Model for Seed Design (SeedLLM)。
“豐登”重點關注生物育種,尤其我國主要糧油作物和肉禽動物,對維護國家糧食安全有積極意義。團隊認為,該大模型技術的運用不僅填補了我國在種業專業領域的大模型空白,同時也是對我國育種領域采納新技術的一次大膽嘗試。
值得關注的是,育種是一項復雜的工作,種業研發周期長、難度大,這是現狀和事實。而長期以來,育種信息缺乏統一的平臺,數據知識呈現出“孤島式”分布,也為育種知識的普及學習帶來了壁壘。同時,由于生物育種涉及生物學、遺傳學、氣象學、土壤學等多學科交叉,專業人員在從事育種工作時不得不跨越眾多領域的文獻、數據,甚至需要編寫代碼進行數據訪問,工作效率受到極大的限制。
“豐登”模型集成了上海人工智能實驗室研發的大語言模型書生·浦語2.0與大數據分析,對海量來自不同渠道的育種科研文獻、技術書籍及網絡資源進行深度解析和索引,在品種選育過程、農藝性狀描述、栽培技術推薦和歷史推廣區域查詢等四大應用場景中,為用戶提供解釋和回答。
據崖州灣國家實驗室介紹,“豐登”模型在由國內育種專家制定的標準測評中表現遠超農學相關專業本科生,綜合得分是本科生的4.87倍。
該模型具有4大核心能力:整合分散的知識資源,系統深度挖掘并結構化我國在育種領域迄今積累的包括學術文獻、書籍、田間日志在內的廣泛知識;跨領域知識融合,利用多學科知識圖譜,整合了生物學、遺傳學、氣象學、土壤學等相關領域的知識,發掘這些領域之間的新聯系;提高訪問效率,通過自然語言對話接口降低了技術門檻,用戶可以直接提出問題并迅速獲得易于理解的答案,提高育種工作效率;知識共享與傳播,不僅服務于育種專家和科研人員,也向全國的農業工作者提供必要的支持,加速了育種知識的廣泛傳播和應用。
值得一提的是,為全面評估“豐登”的專業性能,上述三方團隊還組織育種專家設計了100道水稻育種專業問題及對應標準答案,涵蓋品種選育過程、農藝性狀描述、栽培技術推薦和歷史推廣區域查詢四大任務。
共計115人參與本次標準測評,其中包括14名國內水稻育種專家,49名農學相關專業研究生和52名本科生(大三及以上)。評估團隊通過排序和打分的方法,對“豐登”的回答在準確性、穩定性和推理能力等方面進行了細致評價。測評中還引入了本科生的回答作為測試基準。
測評結果表明,“豐登”在最佳答案個數和綜合分數上的表現均超出預期,且在多個評估維度上超越了語言模型國際領先水平代表Anthropic Claude3和OpenAI GPT-4。團隊認為,這些結果充分證明了“豐登”種業大語言模型在處理水稻育種相關知識方面的潛力。
據悉,“豐登”v0.1擁有200億參數,現已開放水稻相關知識的測試接口申請。首批參與測試的單位除崖州灣國家實驗室和中國農業大學外,還包括隆平高科、中國科學院、中國農業科學院、正大集團、復旦大學、華中農業大學、華南農業大學、上海市農業科學院、廣東省農業科學院等。
崖州灣國家實驗室方面表示,將誠邀國內育種領域各單位參與研發,提供高質量語料,涵蓋更多品種,助力中國種業。
崖州灣國家實驗室于2022年9月正式成立,由中國科學院院士李家洋領銜,是中央管理的新型科研事業單位,主要承擔國家戰略科研任務,保障國家糧食安全。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司