- +1
新AI預測6億多蛋白結構,結構生物學家要失業?專家:為時尚早
·AlphaFold2主要利用MSA(多序列比對)信息,把蛋白質的結構和生物信息整合到了深度學習算法中,所以當面對比如孤兒序列(找不到其他與其相像的序列)這樣的蛋白時,該模型就無法準確地生效了。另一方面,ESMFold的準確率也尚待完善。所以我認為目前的技術發展還遠沒有達到取代實驗結構生物學的程度,它只是為科學家準確的結構解析提供了幫助。
今年8月,谷歌旗下的英國DeepMind公司借助AlphaFold2模型,公布了大約 2.2 億種蛋白質的預測結構,它幾乎涵蓋了 DNA 數據庫中已知生物體的所有蛋白質。而現在,另一家科技巨頭Meta(前身為Facebook)正借助人工智能ESMFold(“宏基因組”數據庫) 填補我們蛋白質宇宙的“暗物質”。
這項最新研究中,Meta公司利用ESMFold,在兩周內預測了來自細菌、病毒和其他尚未被表征微生物的約6億多種蛋白質的結構,速度是目前世界最快模型的60倍。相關研究已經提交生物預印本網站biorxiv.org。
通常,語言模型是在大量文本上進行訓練的,Meta 為了將語言模型應用于蛋白質,團隊負責人Alexander Rives 及其同事將已知的蛋白質序列作為輸入,這些蛋白質由 20 種氨基酸組成,并用不同的字母表示,接著,ESMFold在遮蔽一定比例氨基酸的情況下學會了自動補全蛋白質。
團隊負責人Alexander Rives表示,這些訓練讓ESMFold對包含蛋白質形狀信息的蛋白質序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一網絡能將這些了解到的信息與已知蛋白質結構和序列之間關系的信息結合,生成預測結構。ESMFold雖然不像“阿爾法折疊”那么準確,但在預測結構方面的速度要快60倍,這意味著他們可將結構預測擴展到更大的數據庫。Alexanderander Rives稱:“這些結構是我們所知最少的,我認為它們提供了深入了解生物學的潛力。該模型的準確性水平可以與AlphaFold2‘競爭’”。
AlphaFold是曾開發出AlphaGo的DeepMind公司研發的蛋白質結構預測深度學習模型。2021年7月,DeepMind表示,AlphaFold2與AlphaFold完全不同,“這是一個基于神經網絡的新模型,其預測的蛋白質結構能達到原子水平的準確度?!边@一巨大進步被Nature和Science選為“2021年度十大科學突破”。
兩種模型最大的區別就是速度。AlphaFold2 的工作依賴于多序列比對(MSA),而ESMFold 引入了大型語言預測模型,大大加快了結構預測的速度。
但同時也有科學家對其預測的精準度表示懷疑。哈佛大學進化生物學家Sergey Ovchinnikov認為其中有些預測結果可能缺乏明確的結構,另一些可能屬于被誤判的非編碼DNA。“似乎仍有一半以上的蛋白質空間我們一無所知。”他說。德國慕尼黑工業大學的計算生物學家Burkhard Rost也質疑:ESMFold模型在預測宏基因組數據庫中的蛋白質時,是否真的比AlphaFold2精度更具優勢。
對此,澎湃科技連線了復旦大學復雜體系多尺度研究院院長馬劍鵬。馬劍鵬表示,雖然ESMFold的預測準確性尚未達到AlphaFold,但在預測結構方面它比 AlphaFold 快約 60 倍,這意味著其可以用于構建更大的蛋白質預測結構數據庫。
馬劍鵬認為,該模型的貢獻還在于向世界展示了AI算法的強大,連預測蛋白質結構這種困擾了人類幾十年的難題都可以借助AI解決,說明一個屬于AI算法的時代已經離我們不遠了。
此外,馬劍鵬還表示,該技術不僅對全世界結構生物學的發展有影響,對我國結構生物學的發展也有幫助,但是不能完全依賴于此?!安荒苤唤梃b別人的技術,中國必須從核心算法等底層技術做起。”至于AI發展是否會讓傳統結構生物學家“失業”,馬劍鵬認為還“為時尚早”。
對話:
ESMFold新在哪兒
澎湃科技:結構生物學屬于生物學的什么分支?
馬劍鵬(復旦大學復雜體系多尺度研究院院長):結構生物學是分子生物學類的一個分支,它主要關注蛋白質結構,但是分子生物學有基因,有結構,還有藥物設計,它都是生物學問題。
澎湃科技:與AlphaFold相比,ESMFold的特點是什么?
馬劍鵬:今年,DeepMind 公布了大約 2.2 億種蛋白質的預測結構,幾乎涵蓋了 DNA 數據庫中已知生物體的所有蛋白質。最近,Meta AI 宣布推出包含 6 億多個蛋白質的宏基因組圖譜,比任何現有的蛋白質結構數據庫都要大 3 倍,并且是第一個全面、大規模地涵蓋宏基因組蛋白質的數據庫。與AlphaFold2相比,ESMFold只使用了序列信息,并沒有進行多序列比對(MSA)。雖然ESMFold的預測準確性尚未達到AlphaFold,但在預測結構方面,它比 AlphaFold 快約 60 倍。它只用了2周就預測出了大約6億種蛋白質的形狀。
澎湃科技:它的速度比AlphaFold更快,但這會不會影響它的精準度?
馬劍鵬:ESMFold的預測準確性尚未達到AlphaFold。具體來講,在 cameo 數據集上比使用全 MSA序列的 AlphaFold 僅差0.05/0.88。但更快的速度意味著其可以用于構建更大的蛋白質預測結構數據庫。
澎湃科技:之前有專家表示AlphaFold2幾乎達到了實驗科學的最高水平,現在又出現了超越AlphaFold的Meta模型。你怎么看Meta模型未來的發展和應用?
馬劍鵬:目前來看,ESMFold報道的準確性并沒有超越AlphaFold2。但Meta 模型是基于蛋白質序列庫訓練的大語言模型,它完全打破了結構預測對于傳統多重序列對齊算法(MSA)的依賴,使用無監督學習來學習蛋白質序列在高維空間的embedding(嵌入)層,做到了用深度學習模型來描述蛋白質的進化??梢哉f,meta研發的ESMFold模型實現了真正意義上的完全用深度學習來做結構預測,是一個奇跡。雖然精度不及 AlphaFold,但結果比 AlphaFold 更進一步。同時也為研究人員提供了一個可以交叉驗證預測結構的數據庫。
會讓結構生物學專家“失業”嗎
澎湃科技:該模型對結構生物學最大的影響是什么?
馬劍鵬:我認為它可以加快那些用冷凍電鏡之類的實驗手段來預測蛋白質結構的速度,因為無論是實驗手段預測還是計算機預測,都需要建模。而建模需要實驗數據做基礎,現在有了這個預測模型,先搭建模型再加入數據,就能得到一個初始模型,這是他最大的用處。其次,蛋白質結構決定了其生物學功能,準確的預測結構可以為其它生物學領域提供幫助,如藥物設計等。也可以為結構生物學的結構解析工作提供幫助。
澎湃科技:它的影響僅限于結構生物學嗎?對其他科學領域是否有影響?
馬劍鵬:首先讓曾經是冷門學科的計算生物學變成了引領式學科。用計算機來研究生物學問題,已經變得非常重要。其次,蛋白質結構決定了其生物學功能,準確的預測結構可以為其它生物學領域提供幫助,如藥物設計等。此外,宏基因組預測結構圖譜將使科學家能夠在數億蛋白質的尺度上搜索和分析宏基因組蛋白質的結構,從而尋找遙遠的進化關系。它還有一個重要貢獻在于它向世人展示了一個超級強大的AI算法的時代來了,連預測蛋白質結構這種困擾了科學家幾十年的難題都可以借助AI解決,那將會有更多難題能夠借此迎刃而解,甚至可以說人生無處不AI,所以對其他科學領域的影響也是巨大的。
澎湃科技:對解析生物結構的科學家有什么影響?他們可能面臨“失業”嗎?
馬劍鵬:我認為這個說法為時尚早,目前還是有很多蛋白結構無法利用AlphaFold2模型進行準確地預測。因為AlphaFold2主要利用MSA(多序列比對)信息,把蛋白質的結構和生物信息整合到了深度學習算法中,所以當面對比如孤兒序列(找不到其他與其相像的序列)這樣的蛋白時,該模型就無法準確地生效了。另一方面,ESMFold的準確率也尚待完善。所以我認為目前的技術發展還遠沒有達到取代實驗結構生物學的程度,它只是為科學家準確的結構解析提供了幫助。
ESMFold意義何在
澎湃科技:借助此,未來結構生物學的研究新方向和新領域是什么?
馬劍鵬:目前的模型都用于預測蛋白質的靜態結構,結構生物學的研究新方向應該是使用深度學習方法來實現真正的端對端高精度結構預測,也就是實現單序列輸出結構。因此繼續發展下去,我們甚至可以借此分析出蛋白質動態的結構變化。
澎湃科技:該研究會推動很多未解醫學難題的發展嗎?比如助推癌癥治療研究?
馬劍鵬:從破解難題來說,有可能模型能夠預測目前實驗還未預測到的結果,大家能從結構信息來分析相應的生物過程。要說助推新藥研發的話,這是一個需要時間的過程。本質上來講AlphaFold2和ESMFold模型的底層邏輯是一致的,他們主要預測蛋白質的靜態結構,下一步還需要研究蛋白質的動態結構,這個研究領域叫分子動力學模擬。所以該模型也會幫助我們加快了分子動力學模擬領域的研究速度。當這兩個領域的研究都完成后,下一步才是藥物設計??傊?,AI賦能新藥設計這個領域從長遠看確實具有巨大的潛力,但是還需要一步一個腳印前進,還需要時間。
澎湃科技:該技術對國內結構生物學的發展有什么幫助和影響嗎?
馬劍鵬:當然,它對全世界結構生物學的發展都有影響。但我們要看到,我們不能只借鑒別人的技術,有人認為AlphaFold開源了,中國就不用研究了,這是完全錯誤的。對于國家來說,這甚至是核心卡脖子技術之一。中國必須從核心算法等底層技術做起。因此該技術對我國結構生物學發展有幫助,但是不能完全依賴于此。
澎湃科技:最近研究結構生物學的專家顏寧教授宣布回國發展引起熱議,也有人稱是AI擠壓了結構生物學的研究空間,你對此怎么看呢?
馬劍鵬:我不認同該觀點。恰恰相反,計算生物學的突飛猛進對顏寧教授這樣的實驗結構生物學家的工作是有巨大的利好的。顏教授的回國,是大好事,我認為這正說明國內科研環境更好了。而且就像我此前說的,不管是AlphaFold2還是ESMFold,都只是解決了結構生物學一小部分的問題,還有很廣闊的領域未被開拓,很多不是AI算法可以完全解決的,需要交叉學科的科學家們的共同努力。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司