- +1
又一個卡脖子技術:中國的AlphaFold在哪兒?
·DeepMind公司稱,AlphaFold預測出了2億多個蛋白質結構。
·“有人在說AlphaFold開源了,我們國家不用搞了,這是大錯特錯?!?/u>
在復旦大學復雜體系多尺度研究院院長馬劍鵬教授看來,AlphaFold是又一個卡脖子的核心技術。
幾乎預測了整個蛋白質宇宙
2022年7月28日,英國DeepMind公司表示,AlphaFold已經預測了全球幾乎所有的蛋白質結構,短短一年時間,他們的蛋白質結構數據庫中的數據從200萬個擴增到超2億個。
AlphaFold也是繼AlphaGo(阿爾法狗)之后,DeepMind重磅打造的一款智能人工系統,主要被用來預測蛋白質結構。那么,AlphaFold運行基本原理是怎樣的?
它運用了機器學習算法,配置了深度學習神經網絡,并且接受了蛋白質三維結構數據庫(PDB)以及其他數據庫中數十萬個實驗確定的蛋白質結構和序列的訓練。
經過訓練后,AlphaFold在面對一個新的基因序列時,首先在數據庫中尋找相關基因序列,然后經過大量的計算和比對,對新基因序列對應的蛋白質3D結構進行預測,它的預測結果具有非??捎^的精確度。
回溯到一年前,2021年7月,也就是AlphaFold發布蛋白質數據庫和開源代碼初期,DeepMind就已經用AlphaFold預測了98.5%的人類蛋白質結構,相關結果發表在《自然》雜志上。
在很多專家看來,AlphaFold還只是對未來的“驚鴻一瞥”,它將生物學帶入了一個數字時代,并且它將改變全球生物醫學研究現狀。
目前,DeepMind與被忽視疾病藥物倡議(DNDI)合作,來推進他們的研究成果。同時,DeepMind還對被世界衛生組織(WHO)確定為高度優先研究的生物體進行了結構預測,幫助科學家進一步研究麻風病和血吸蟲病等頑疾。
DeepMind創始人Demis Hassabis。 視覺中國 資料圖
對此,DeepMind創始人兼首席執行官戴密斯·哈薩比斯(Demis Hassabis)發出感慨,“AlphaFold已經對我們一些最大的全球挑戰產生了令人難以置信的影響。我們希望這個擴展的數據庫將幫助無數科學家完成他們的重要工作,并為科學發現開辟全新的途徑。”
AlphaFold給全球生命科學領域學者的科研工作提供了便利,我國學者正在致力于探索“屬于中國的AlphaFold”。但做得怎么樣,有無自己的原創技術?
如何打造一款中國的AlphaFold?
國內對AlphaFold的關注,是最近兩年的事。
2020年底,冰洲石生物科技(AccutarBio)宣布完成了近億美元融資,致力于運用通過深度學習和物理建模的方式在海量數據上進行訓練得到的計算模型來替代生物學和化學實驗,以此來加速創新藥的研發。
AccutarBio創始人范捷博士表示,他們的愿景是用AI全面提升創新藥物研發的速度和效率,推出擁有全球專利的藥物產品,致力于利用顛覆性技術的力量不斷去改變藥物發現行業。
致力于AI跨界融合的團隊并非個例。2021年12月,北京深勢科技推出一款蛋白質結構預測工具Uni-Fold,并同時開源訓練代碼和推理代碼,供各界科學家和企業家測試使用。
由于AlphaFold只是開源了模型推理代碼,并沒有開源訓練代碼,因此科研人員只能按照AlphaFold設計好的流程進行使用,而不能對其訓練過程做出調整,來遷移至更多的應用場景。
中科院院士、北京大學教授鄂維南表示,“盡管DeepMind開源了推理代碼,但模型的訓練技術才是核心的競爭力”。
復旦大學復雜體系多尺度研究院院長馬劍鵬教授
同樣,2021年12月,復旦大學復雜體系多尺度研究院院長馬劍鵬教授的團隊和上海人工智能實驗室合作,在《生物信息學簡報》(Briefings in Bioinformatics)上發表了一篇名為“OPUS-Rota4: agradient-based protein side-chain modeling framework assisted by deeplearning-based predictors”的論文,簡述了他們開發的算法成果。
研究團隊研發出的具有自主知識產權的OPUS系列算法,這個算法可以用于預測蛋白質主鏈和側鏈的三維結構,值得一提的是,其中的蛋白質側鏈預測算法即OPUS-Rota4算法,精度比AlphaFold更勝一籌。
具體而言,研究人員使用AlphaFold得到了15個蛋白的預測結構,并利用不同方法根據預測出的主鏈結構對其側鏈進行重新建模。其結果顯示,OPUS-Rota4的結果顯著優于其它側鏈建模方法,而且比AlphaFold預測的側鏈更接近天然構象。
不同側鏈建模方法對CASP14-AF2(15)的性能。
就在前不久,又有一家國內AI制藥企業華深智藥宣布,在AI和生命科學結合領域實現了一個重要進展,在蛋白質結構預測方面開發出新的技術——OmegaFold。
總的來說,利用AI推動生命科學發展的研究正在國內遍地開花。各大企業和高校團隊在不斷推進AI和生物制藥的跨界融合,他們正在努力趕超DeepMind公司的AlphaFold。很顯然,這一領域的源頭創新并不在我們手上,怎樣做才能保持優勢呢?
“我們必須從底層技術做起”
蛋白質結構預測早已不是一個新的領域,科學家已經做了五十多年,但是直到AlphaFold的出現,這一領域的研究才出現突破性成果。
在很多業內專家看來,它的出現某種程度上是靠科學家個人去發揮他們的創造性。但我國在這一領域發展也有一定優勢,這就是計算機系統工程。科學問題的工程化,AlphaFold也是非常典型的例子之一。
目前,我國還沒有能夠完全超越AlphaFold的核心技術,要實現真正“從0到1”的突破,或許還需要一些時間。
馬劍鵬在受訪中表示,“有人在說AlphaFold開源了,我們國家不用搞了,這是大錯特錯。第一,他們所謂的開源只是表層結構開源了,底層技術沒有開源。第二,你把它拿來你只能做他們的東西,你沒有辦法提高,就像航空發動機你買來可以,你能往前再進一步嗎?”
馬劍鵬認為,我們必須從底層技術做起,掌握核心算法。
參考資料
1. 對標AlphaFold2!深勢科技發布Uni-Fold蛋白結構預測工具,并開源訓練代碼.深勢科技.
https://mp.weixin.qq.com/s/Zhn3HJpLnznLM1bpu6D1ew
2. OPUS-Rota4: a gradient-based protein side-chain modeling framework assisted by deep learning-based predictors.Briefings in Bioinformatics.
https://academic.oup.com/bib/article/23/1/bbab529/6461160
3. 超越谷歌“AlphaFold2”,為新藥研發提供利器:復旦復雜體系多尺度研究院團隊發表全新蛋白質側鏈預測成果.復旦大學.
https://mp.weixin.qq.com/s/idWh_IO66Nhry4LfeITmIA
https://www.sohu.com/a/510336879_629135
4. 全球首個! 華深智藥完成單條序列蛋白質結構預測最后一塊拼圖.華深智藥.
https://mp.weixin.qq.com/s/DY3I13k_9QsIpCmyvQBlPg
5. AlphaFold reveals the structure of the protein universe.DeepMind.
https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
6. 對話復旦復雜體系多尺度研究院院長:蛋白質結構預測為何突破.新浪科技.
https://finance.sina.com.cn/tech/2021-11-01/doc-iktzqtyu4671024.shtml
7. Finally, an answer to the question: AI — what is it good for?.VOX.
https://www.vox.com/future-perfect/2022/8/3/23288843/deepmind-alphafold-artificial-intelligence-biology-drugs-medicine-demis-hassabis
更正:本文稍早之前的版本,多處將“復旦大學復雜體系多尺度研究院院長馬劍鵬教授”誤寫成“馬建鵬”,特此更正,并向馬劍鵬教授及讀者致以歉意。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司