- +1
新AI預(yù)測6億多蛋白結(jié)構(gòu),結(jié)構(gòu)生物學(xué)家要失業(yè)?專家:為時(shí)尚早
·AlphaFold2主要利用MSA(多序列比對)信息,把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中,所以當(dāng)面對比如孤兒序列(找不到其他與其相像的序列)這樣的蛋白時(shí),該模型就無法準(zhǔn)確地生效了。另一方面,ESMFold的準(zhǔn)確率也尚待完善。所以我認(rèn)為目前的技術(shù)發(fā)展還遠(yuǎn)沒有達(dá)到取代實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)的程度,它只是為科學(xué)家準(zhǔn)確的結(jié)構(gòu)解析提供了幫助。
今年8月,谷歌旗下的英國DeepMind公司借助AlphaFold2模型,公布了大約 2.2 億種蛋白質(zhì)的預(yù)測結(jié)構(gòu),它幾乎涵蓋了 DNA 數(shù)據(jù)庫中已知生物體的所有蛋白質(zhì)。而現(xiàn)在,另一家科技巨頭Meta(前身為Facebook)正借助人工智能ESMFold(“宏基因組”數(shù)據(jù)庫) 填補(bǔ)我們蛋白質(zhì)宇宙的“暗物質(zhì)”。
這項(xiàng)最新研究中,Meta公司利用ESMFold,在兩周內(nèi)預(yù)測了來自細(xì)菌、病毒和其他尚未被表征微生物的約6億多種蛋白質(zhì)的結(jié)構(gòu),速度是目前世界最快模型的60倍。相關(guān)研究已經(jīng)提交生物預(yù)印本網(wǎng)站biorxiv.org。
通常,語言模型是在大量文本上進(jìn)行訓(xùn)練的,Meta 為了將語言模型應(yīng)用于蛋白質(zhì),團(tuán)隊(duì)負(fù)責(zé)人Alexander Rives 及其同事將已知的蛋白質(zhì)序列作為輸入,這些蛋白質(zhì)由 20 種氨基酸組成,并用不同的字母表示,接著,ESMFold在遮蔽一定比例氨基酸的情況下學(xué)會(huì)了自動(dòng)補(bǔ)全蛋白質(zhì)。
團(tuán)隊(duì)負(fù)責(zé)人Alexander Rives表示,這些訓(xùn)練讓ESMFold對包含蛋白質(zhì)形狀信息的蛋白質(zhì)序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一網(wǎng)絡(luò)能將這些了解到的信息與已知蛋白質(zhì)結(jié)構(gòu)和序列之間關(guān)系的信息結(jié)合,生成預(yù)測結(jié)構(gòu)。ESMFold雖然不像“阿爾法折疊”那么準(zhǔn)確,但在預(yù)測結(jié)構(gòu)方面的速度要快60倍,這意味著他們可將結(jié)構(gòu)預(yù)測擴(kuò)展到更大的數(shù)據(jù)庫。Alexanderander Rives稱:“這些結(jié)構(gòu)是我們所知最少的,我認(rèn)為它們提供了深入了解生物學(xué)的潛力。該模型的準(zhǔn)確性水平可以與AlphaFold2‘競爭’”。
AlphaFold是曾開發(fā)出AlphaGo的DeepMind公司研發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測深度學(xué)習(xí)模型。2021年7月,DeepMind表示,AlphaFold2與AlphaFold完全不同,“這是一個(gè)基于神經(jīng)網(wǎng)絡(luò)的新模型,其預(yù)測的蛋白質(zhì)結(jié)構(gòu)能達(dá)到原子水平的準(zhǔn)確度?!边@一巨大進(jìn)步被Nature和Science選為“2021年度十大科學(xué)突破”。
兩種模型最大的區(qū)別就是速度。AlphaFold2 的工作依賴于多序列比對(MSA),而ESMFold 引入了大型語言預(yù)測模型,大大加快了結(jié)構(gòu)預(yù)測的速度。
但同時(shí)也有科學(xué)家對其預(yù)測的精準(zhǔn)度表示懷疑。哈佛大學(xué)進(jìn)化生物學(xué)家Sergey Ovchinnikov認(rèn)為其中有些預(yù)測結(jié)果可能缺乏明確的結(jié)構(gòu),另一些可能屬于被誤判的非編碼DNA?!八坪跞杂幸话胍陨系牡鞍踪|(zhì)空間我們一無所知。”他說。德國慕尼黑工業(yè)大學(xué)的計(jì)算生物學(xué)家Burkhard Rost也質(zhì)疑:ESMFold模型在預(yù)測宏基因組數(shù)據(jù)庫中的蛋白質(zhì)時(shí),是否真的比AlphaFold2精度更具優(yōu)勢。
對此,澎湃科技連線了復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長馬劍鵬。馬劍鵬表示,雖然ESMFold的預(yù)測準(zhǔn)確性尚未達(dá)到AlphaFold,但在預(yù)測結(jié)構(gòu)方面它比 AlphaFold 快約 60 倍,這意味著其可以用于構(gòu)建更大的蛋白質(zhì)預(yù)測結(jié)構(gòu)數(shù)據(jù)庫。
馬劍鵬認(rèn)為,該模型的貢獻(xiàn)還在于向世界展示了AI算法的強(qiáng)大,連預(yù)測蛋白質(zhì)結(jié)構(gòu)這種困擾了人類幾十年的難題都可以借助AI解決,說明一個(gè)屬于AI算法的時(shí)代已經(jīng)離我們不遠(yuǎn)了。
此外,馬劍鵬還表示,該技術(shù)不僅對全世界結(jié)構(gòu)生物學(xué)的發(fā)展有影響,對我國結(jié)構(gòu)生物學(xué)的發(fā)展也有幫助,但是不能完全依賴于此?!安荒苤唤梃b別人的技術(shù),中國必須從核心算法等底層技術(shù)做起?!敝劣贏I發(fā)展是否會(huì)讓傳統(tǒng)結(jié)構(gòu)生物學(xué)家“失業(yè)”,馬劍鵬認(rèn)為還“為時(shí)尚早”。
對話:
ESMFold新在哪兒
澎湃科技:結(jié)構(gòu)生物學(xué)屬于生物學(xué)的什么分支?
馬劍鵬(復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長):結(jié)構(gòu)生物學(xué)是分子生物學(xué)類的一個(gè)分支,它主要關(guān)注蛋白質(zhì)結(jié)構(gòu),但是分子生物學(xué)有基因,有結(jié)構(gòu),還有藥物設(shè)計(jì),它都是生物學(xué)問題。
澎湃科技:與AlphaFold相比,ESMFold的特點(diǎn)是什么?
馬劍鵬:今年,DeepMind 公布了大約 2.2 億種蛋白質(zhì)的預(yù)測結(jié)構(gòu),幾乎涵蓋了 DNA 數(shù)據(jù)庫中已知生物體的所有蛋白質(zhì)。最近,Meta AI 宣布推出包含 6 億多個(gè)蛋白質(zhì)的宏基因組圖譜,比任何現(xiàn)有的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫都要大 3 倍,并且是第一個(gè)全面、大規(guī)模地涵蓋宏基因組蛋白質(zhì)的數(shù)據(jù)庫。與AlphaFold2相比,ESMFold只使用了序列信息,并沒有進(jìn)行多序列比對(MSA)。雖然ESMFold的預(yù)測準(zhǔn)確性尚未達(dá)到AlphaFold,但在預(yù)測結(jié)構(gòu)方面,它比 AlphaFold 快約 60 倍。它只用了2周就預(yù)測出了大約6億種蛋白質(zhì)的形狀。
澎湃科技:它的速度比AlphaFold更快,但這會(huì)不會(huì)影響它的精準(zhǔn)度?
馬劍鵬:ESMFold的預(yù)測準(zhǔn)確性尚未達(dá)到AlphaFold。具體來講,在 cameo 數(shù)據(jù)集上比使用全 MSA序列的 AlphaFold 僅差0.05/0.88。但更快的速度意味著其可以用于構(gòu)建更大的蛋白質(zhì)預(yù)測結(jié)構(gòu)數(shù)據(jù)庫。
澎湃科技:之前有專家表示AlphaFold2幾乎達(dá)到了實(shí)驗(yàn)科學(xué)的最高水平,現(xiàn)在又出現(xiàn)了超越AlphaFold的Meta模型。你怎么看Meta模型未來的發(fā)展和應(yīng)用?
馬劍鵬:目前來看,ESMFold報(bào)道的準(zhǔn)確性并沒有超越AlphaFold2。但Meta 模型是基于蛋白質(zhì)序列庫訓(xùn)練的大語言模型,它完全打破了結(jié)構(gòu)預(yù)測對于傳統(tǒng)多重序列對齊算法(MSA)的依賴,使用無監(jiān)督學(xué)習(xí)來學(xué)習(xí)蛋白質(zhì)序列在高維空間的embedding(嵌入)層,做到了用深度學(xué)習(xí)模型來描述蛋白質(zhì)的進(jìn)化??梢哉f,meta研發(fā)的ESMFold模型實(shí)現(xiàn)了真正意義上的完全用深度學(xué)習(xí)來做結(jié)構(gòu)預(yù)測,是一個(gè)奇跡。雖然精度不及 AlphaFold,但結(jié)果比 AlphaFold 更進(jìn)一步。同時(shí)也為研究人員提供了一個(gè)可以交叉驗(yàn)證預(yù)測結(jié)構(gòu)的數(shù)據(jù)庫。
會(huì)讓結(jié)構(gòu)生物學(xué)專家“失業(yè)”嗎
澎湃科技:該模型對結(jié)構(gòu)生物學(xué)最大的影響是什么?
馬劍鵬:我認(rèn)為它可以加快那些用冷凍電鏡之類的實(shí)驗(yàn)手段來預(yù)測蛋白質(zhì)結(jié)構(gòu)的速度,因?yàn)闊o論是實(shí)驗(yàn)手段預(yù)測還是計(jì)算機(jī)預(yù)測,都需要建模。而建模需要實(shí)驗(yàn)數(shù)據(jù)做基礎(chǔ),現(xiàn)在有了這個(gè)預(yù)測模型,先搭建模型再加入數(shù)據(jù),就能得到一個(gè)初始模型,這是他最大的用處。其次,蛋白質(zhì)結(jié)構(gòu)決定了其生物學(xué)功能,準(zhǔn)確的預(yù)測結(jié)構(gòu)可以為其它生物學(xué)領(lǐng)域提供幫助,如藥物設(shè)計(jì)等。也可以為結(jié)構(gòu)生物學(xué)的結(jié)構(gòu)解析工作提供幫助。
澎湃科技:它的影響僅限于結(jié)構(gòu)生物學(xué)嗎?對其他科學(xué)領(lǐng)域是否有影響?
馬劍鵬:首先讓曾經(jīng)是冷門學(xué)科的計(jì)算生物學(xué)變成了引領(lǐng)式學(xué)科。用計(jì)算機(jī)來研究生物學(xué)問題,已經(jīng)變得非常重要。其次,蛋白質(zhì)結(jié)構(gòu)決定了其生物學(xué)功能,準(zhǔn)確的預(yù)測結(jié)構(gòu)可以為其它生物學(xué)領(lǐng)域提供幫助,如藥物設(shè)計(jì)等。此外,宏基因組預(yù)測結(jié)構(gòu)圖譜將使科學(xué)家能夠在數(shù)億蛋白質(zhì)的尺度上搜索和分析宏基因組蛋白質(zhì)的結(jié)構(gòu),從而尋找遙遠(yuǎn)的進(jìn)化關(guān)系。它還有一個(gè)重要貢獻(xiàn)在于它向世人展示了一個(gè)超級強(qiáng)大的AI算法的時(shí)代來了,連預(yù)測蛋白質(zhì)結(jié)構(gòu)這種困擾了科學(xué)家?guī)资甑碾y題都可以借助AI解決,那將會(huì)有更多難題能夠借此迎刃而解,甚至可以說人生無處不AI,所以對其他科學(xué)領(lǐng)域的影響也是巨大的。
澎湃科技:對解析生物結(jié)構(gòu)的科學(xué)家有什么影響?他們可能面臨“失業(yè)”嗎?
馬劍鵬:我認(rèn)為這個(gè)說法為時(shí)尚早,目前還是有很多蛋白結(jié)構(gòu)無法利用AlphaFold2模型進(jìn)行準(zhǔn)確地預(yù)測。因?yàn)锳lphaFold2主要利用MSA(多序列比對)信息,把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中,所以當(dāng)面對比如孤兒序列(找不到其他與其相像的序列)這樣的蛋白時(shí),該模型就無法準(zhǔn)確地生效了。另一方面,ESMFold的準(zhǔn)確率也尚待完善。所以我認(rèn)為目前的技術(shù)發(fā)展還遠(yuǎn)沒有達(dá)到取代實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)的程度,它只是為科學(xué)家準(zhǔn)確的結(jié)構(gòu)解析提供了幫助。
ESMFold意義何在
澎湃科技:借助此,未來結(jié)構(gòu)生物學(xué)的研究新方向和新領(lǐng)域是什么?
馬劍鵬:目前的模型都用于預(yù)測蛋白質(zhì)的靜態(tài)結(jié)構(gòu),結(jié)構(gòu)生物學(xué)的研究新方向應(yīng)該是使用深度學(xué)習(xí)方法來實(shí)現(xiàn)真正的端對端高精度結(jié)構(gòu)預(yù)測,也就是實(shí)現(xiàn)單序列輸出結(jié)構(gòu)。因此繼續(xù)發(fā)展下去,我們甚至可以借此分析出蛋白質(zhì)動(dòng)態(tài)的結(jié)構(gòu)變化。
澎湃科技:該研究會(huì)推動(dòng)很多未解醫(yī)學(xué)難題的發(fā)展嗎?比如助推癌癥治療研究?
馬劍鵬:從破解難題來說,有可能模型能夠預(yù)測目前實(shí)驗(yàn)還未預(yù)測到的結(jié)果,大家能從結(jié)構(gòu)信息來分析相應(yīng)的生物過程。要說助推新藥研發(fā)的話,這是一個(gè)需要時(shí)間的過程。本質(zhì)上來講AlphaFold2和ESMFold模型的底層邏輯是一致的,他們主要預(yù)測蛋白質(zhì)的靜態(tài)結(jié)構(gòu),下一步還需要研究蛋白質(zhì)的動(dòng)態(tài)結(jié)構(gòu),這個(gè)研究領(lǐng)域叫分子動(dòng)力學(xué)模擬。所以該模型也會(huì)幫助我們加快了分子動(dòng)力學(xué)模擬領(lǐng)域的研究速度。當(dāng)這兩個(gè)領(lǐng)域的研究都完成后,下一步才是藥物設(shè)計(jì)??傊?,AI賦能新藥設(shè)計(jì)這個(gè)領(lǐng)域從長遠(yuǎn)看確實(shí)具有巨大的潛力,但是還需要一步一個(gè)腳印前進(jìn),還需要時(shí)間。
澎湃科技:該技術(shù)對國內(nèi)結(jié)構(gòu)生物學(xué)的發(fā)展有什么幫助和影響嗎?
馬劍鵬:當(dāng)然,它對全世界結(jié)構(gòu)生物學(xué)的發(fā)展都有影響。但我們要看到,我們不能只借鑒別人的技術(shù),有人認(rèn)為AlphaFold開源了,中國就不用研究了,這是完全錯(cuò)誤的。對于國家來說,這甚至是核心卡脖子技術(shù)之一。中國必須從核心算法等底層技術(shù)做起。因此該技術(shù)對我國結(jié)構(gòu)生物學(xué)發(fā)展有幫助,但是不能完全依賴于此。
澎湃科技:最近研究結(jié)構(gòu)生物學(xué)的專家顏寧教授宣布回國發(fā)展引起熱議,也有人稱是AI擠壓了結(jié)構(gòu)生物學(xué)的研究空間,你對此怎么看呢?
馬劍鵬:我不認(rèn)同該觀點(diǎn)。恰恰相反,計(jì)算生物學(xué)的突飛猛進(jìn)對顏寧教授這樣的實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)家的工作是有巨大的利好的。顏教授的回國,是大好事,我認(rèn)為這正說明國內(nèi)科研環(huán)境更好了。而且就像我此前說的,不管是AlphaFold2還是ESMFold,都只是解決了結(jié)構(gòu)生物學(xué)一小部分的問題,還有很廣闊的領(lǐng)域未被開拓,很多不是AI算法可以完全解決的,需要交叉學(xué)科的科學(xué)家們的共同努力。
- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司