- +1
特稿|AI小樣本訓練,16秒精準預測蛋白質結構:自起爐灶有深意
2016年,DeepMind人工智能機器人AlphaGo以4:1的總比分取勝圍棋世界冠軍韓國棋手李世石。這一年,一家剛剛成立的上海AI企業開始參考AlphaGo開發一套AI圍棋程序,隨后擊敗世界圍棋冠軍樸廷桓。2020年,DeepMind人工智能程序AlphaFold2快速精準預測蛋白質結構,準確度媲美冷凍電鏡等實驗技術。一年后,這家本土AI企業再次推出國產自研蛋白質結構預測平臺TRFold。
近日,上海天壤智能科技有限公司XLab發布蛋白質結構預測平臺TRFold,其最新版本的預測精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶頸,采取權重共享的方式節約算力,預測大多數蛋白質鏈所需時間不超過16秒。
在AlphaFold2已開源的情況下為何還要做人工智能蛋白質結構測序?再做一遍的挑戰在哪?數據、算力不足情況下如何訓練出一個好模型?接下來又會用TRFold做什么?
天壤創始人薛貴榮在接受澎湃新聞(www.6773257.com)專訪時表示,AlphaFold2為結構生物學研究打開了大門,它就像“萊特兄弟的飛機”,其中的核心技術一定要自己掌握。如果不參與其中的技術演變,只能停留在最初的“飛機”結構。
研發TRFold也讓薛貴榮意識到,AlphaFold2另一個貢獻是其訓練方法可以回饋AI,去做更好的AI。
薛貴榮表示,如果每個模型都需要標注10000個數據才能訓練,對AI是一場災難。實際上,數據是永遠不夠的,算力也是永遠不夠的,這種情況下算法的創新就顯得更加重要了,比如能否用10張圖片跑出一個好模型。他認為,小樣本下的機器學習對AI來說是個大挑戰,而AI的工業化生產并不需要那么多數據,這才是正道。
未來,團隊也將繼續深入模擬蛋白質與蛋白質之間的相互作用,基于相互作用可構建大規模相互作用網絡圖、靶點發現、突變蛋白質結構模擬、抗體模擬等。
TRFold 基于 CASP14 蛋白質測試集的評估數據。綠色:真實結構,藍色:預測結構。
單張GPU下16秒精準預測
蛋白質是生命的物質基礎,其三維結構直接決定了它的功能,一旦三維結構被破壞,蛋白質功能隨之喪失或改變,許多疾病就是由體內重要的蛋白質結構異常所致。
每個蛋白質的氨基酸鏈扭曲、折疊、纏繞成復雜的結構,想要破解這種結構通常需要花很長時間,甚至難以完成。截至目前,約有18萬個蛋白質的結構已經用實驗方法得到了解析,但這在已經測序的數十億計的蛋白質中只占了很小一部分。
在蛋白質結構解析的幾十年歷史中,X射線晶體學、核磁共振波譜學(NMR)、冷凍電鏡(Cryo-SEM)技術紛紛發揮了巨大貢獻。但這些傳統方法往往依賴大量試錯和昂貴設備,每種結構的研究都要花數年時間。
直到AI的加入,讓單個蛋白質折疊預測問題得到基本解決,加速結構生物學的發展。2020年,DeepMind人工智能程序AlphaFold2在蛋白質結構預測競賽CASP14中首次利用人工智能技術快速精準預測蛋白質結構,準確度達到原子級別,可與冷凍電鏡等實驗技術相媲美。
而國內的學術界和產業界也在蛋白質結構預測領域緊追國際步伐。除了中科院的Falcon、騰訊的TFold、深勢科技的Uni-Fold,天壤自研蛋白質結構預測平臺TRFold基于CASP14的蛋白質測試集進行企業內測,取得82.7分(TM-Score,評估蛋白質結構拓撲相似性的指標),超過華盛頓大學生物學家David Baker團隊81.3分的成績,僅次于AlphaFold2的91.1分。
TRFold采取權重共享的方式節約算力,算力消耗約AlphaFold2的1/32。在訓練時,AlphaFold2使用了128個TPUv3核心(約等于256張GPU),TRFold僅使用了8張 Nvidia RTX 3090 GPU,以極小算力取得接近AlphaFold2的成績。
TRFold采用5000萬參數循環多軌注意力網絡,同時支持氨基酸殘基間的距離預測和蛋白質全鏈結構預測,400個氨基酸的蛋白鏈使用單張Nvidia RTX 3090 GPU的預測時間只需16秒,而AlphaFold2預測約同樣數量的氨基酸蛋白鏈則需要70多秒。
在CASP14比賽期間,CASP官方曾發起一次針對新型冠狀病毒肺炎的蛋白質結構預測,天壤基于TRFold提交的模型(nsp6-D2)預測結果還被CASP選為六個“最具可信度模型”之一。
傳統意義上,單個蛋白質模型的預測分數達到90分以上就與實驗室的預測結果差別不大,薛貴榮表示,TRFold將繼續迭代,單蛋白的結構模擬只是開始,未來天壤計劃模擬蛋白質與其復合物的相互作用,包括小分子、多肽、其他蛋白質等。
他表示,目前明確的研究方向是繼續深入模擬蛋白質與蛋白質之間的相互作用。基于相互作用可構建大規模相互作用網絡圖,以及靶點發現、突變蛋白質結構模擬、抗體模擬等。
“蛋白質將來會是一個相互作用網絡,我們獲得這個作用網絡以后就可以進行深入分析?!毖F榮說,如果將來每個人的蛋白質結構和作用網絡能全部測出,就可以提前通過蛋白質內部結構的突變分析,預測出未來的健康狀況和治療手段。
“這里面能做的事情實在太多了,我們今天只是海里的水取了一瓢出來看了一下而已。”而挑戰也是不言而喻的,多蛋白的相互作用帶來的算力消耗更大,假設一個億的蛋白質和另外一個億的蛋白質交互,那是一個億乘一個億的計算組合?!斑@個組合是爆炸的,用什么樣的算法、策略來加速,這是一個很挑戰的事?!?/p>
薛貴榮
“萊特兄弟的飛機”
2016年,DeepMind人工智能機器人AlphaGo約戰圍棋世界冠軍韓國棋手李世石,以4:1的總比分取勝。這一年,剛剛成立的天壤開始參考AlphaGo開發一套AI圍棋程序。
2018年5月,天壤AI圍棋執白子對戰世界圍棋冠軍樸廷桓,激戰三小時后樸廷桓認負。而這套AI圍棋程序最后用在了城市交通信號燈的控制上,幫助緩解交通擁堵。
2019年,天壤涉足蛋白質結構預測。薛貴榮常被問到,為何要進入蛋白質預測領域,又或是在AlphaFold2已開源的情況下為何還要做蛋白質結構測序。
“從我們一開始做AI圍棋程序時就慢慢認識了AI的威力。這么多年來天壤一直希望用AI解決有挑戰的大問題,比如交通,然后是生物?!毖F榮表示,相對于交通這樣從宏觀層面用算法調度,人類對微觀世界的認識就更有限了。
“我們從2019年開始做這件事,那時候的蛋白質結構數據和今天其實沒什么大的變化。十來萬有結構的蛋白質能不能用算法手段把微觀世界未知的蛋白質三維結構刻畫出來,這其實是一個很挑戰的事。那時候有沒有AlphaFold2也不知道,更別談能不能做得出來?!?/p>
但如果蛋白質預測模型能達到實驗儀器的精度,將是巨大進步。幸運的是,2020年底,AlphaFold2證明了算法的力量,讓整個結構生物學界震驚,掀開了結構生物學的全新一頁,“以前做一個蛋白質結構預測可能要花一到兩年,突然一個小時就能解決。”
蛋白質結構預測問題的解決是生命科學探索的全新起點,薛貴榮說,這次變革為整個行業帶來很大發展機會,技術突破將重構原來生物應用層面的許多邏輯,比如制藥流程、疾病治療、個性化醫療等。但事實上,AlphaFold2的開源代碼只是推理代碼,并沒有公開訓練代碼。
AlphaFold2的成功是蛋白質結構預測方向的重大突破,而圍繞蛋白質結構功能問題且能夠達到實際落地應用準確度要求的AI算法的開發才剛剛開始,沒有訓練模型經驗或沒有具備能夠訓練出AlphaFold2結果的能力,是無法把該技術推進到解決更深層次的問題的。
“整個核心技術還是把控在人家自己手里,今天人家給你東西可以用,至于怎么來的你不知道?!毖F榮表示。
比如DeepMind團隊10月份發布的預測蛋白質復合體結構的AlphaFold-Multimer就是在AlphaFold2基礎上進行微小調整后,將蛋白質與蛋白質之間的關系預測出來。這種更深入的研究就必須要有自己搭建底層算法的能力,才能真正應用在生物學領域。
“就像做飛機一樣,從萊特兄弟發明第一架飛機能飛起來,如果中間過程不參與,你永遠還是停留在當時那個結構。但今天大飛機在天上飛起來,能承載那么多人,其中有非常多的研究,很多創新也從中不斷出現?!?/p>
薛貴榮說,今天DeepMind的AlphaFold2就是“萊特兄弟的飛機”,其中的核心技術一定要掌握,才能和其他團隊在同一賽道比賽?!癆lphaFold不斷往前跑,我們也在不斷追趕他們?!?/p>
AlphaFold2“反哺”AI
“我們很長時間一直也是在70分左右徘徊,也徘徊了很長時間,最近跳躍到80多分?!痹趦赡臧氲难邪l時間里,TRFold經歷了幾十個版本的迭代,當前的訓練架構是從今年初就開始設計,接著處理數據、訓練數據,不停迭代,耗費10個月時間,目前取得82.7分。
而讓團隊頭痛的挑戰就是算力和內存,這決定了模型的大小。薛貴榮介紹,“小模型的記憶力是有限的,模型越大記憶能力就越強,但模型越大對應的算力和內存需求就越大。”在訓練資源有限的情況下,團隊從數據和網絡設計上做出改進,在算力巨大差距的情況下實現了相對較好的結果。
“在后續構建蛋白質相互作用網絡的過程中,涉及一個蛋白質和另一個蛋白質的相互作用,以及多個蛋白質之間的相互作用,計算量呈指數級增長。因此,TRFold以較小算力需求快速預測蛋白質結構對后續開展深入研究具有深遠意義。”天壤XLab團隊負責人苗洪江表示。
數據是機器學習的燃料,但相比以往圖像識別機器學習算法需要依靠百萬張圖片數據來訓練模型和系統,用實驗方法已經解析的蛋白質結構只有十幾萬個。機器學習大牛吳恩達認為,人工智能落地的挑戰之一是小數據的問題,如何使機器學習即使面對小數據也能工作。
而這也是困擾薛貴榮的問題。他和苗洪江第一天見面聊就在探討,有結構的蛋白質數據夠不夠,能不能訓練出一個滿足效果的模型,還是說再等冷凍電鏡10年,等50萬數據出來就夠了?!澳菚r候我們也很擔心,我們就怕這個領域做下去真的是10年以后的事了。”
但AlphaFold2證明,通過算法和模型設計、蒸餾數據等手段,是可以取得好結果的。相比AlphaFold2,TRFold的算法模型僅采用少量的真實數據訓練,即從多個宏蛋白質組序列庫中尋找出蘊含更精準共進化信息的多序列排列,使模型在訓練過程中能夠獲得對真實共進化信息更好的識別能力,從而取得對氨基酸殘基距離和坐標更準確的預測結果。團隊有望在近期加入蒸餾數據增強工作,進一步提高模型的預測和泛化能力。
回過頭來看,薛貴榮認為,除了為結構生物學研究打開了大門,AlphaFold2另一個貢獻是其訓練方法可以回饋AI,去做更好的AI。
“AI三個步驟,數據標注準備好,算法設計好,目標要想好,有了這三件事再加上算力支持才能做AI?!钡珜嶋H上,數據是永遠不夠的,算力也是永遠不夠的,這種情況下算法的創新就顯得更加重要了。
“10張圖片能不能出來一個很好的模型?別變成給你10000張圖片能不能出來一個好的模型。小樣本情況下的機器學習能不能做好,其實這對整個AI領域是一個很大的挑戰,因為只有小樣本才能具備規?;?、工業化的生產能力。”薛貴榮表示,如果每個模型都需要標注10000個數據才能訓練,數據標注行業的發展勢頭會很好,但對AI來講是一場災難。
“做什么事都要標大量的數據怎么玩得下去?人工智能偏人工了。我們真正要做的是把智能這塊做強,把人工這塊限制在一個框框內,這才是我們真正講的從人工智能走向機器智能?!睆腁lphaFold到AlphaFold2,薛貴榮認為,這就是人工智能走向機器智能的巨大變化。AI的工業化生產并不需要那么多數據,這才是正道。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司