- +1
你身體里的DNA,藏著整個人類文明的記憶
恐龍在地球上生活了大約1.6億年。它們為了食物和生存領地而戰,想方設法不被捕食者吃掉。和人類一樣,它們也會照顧幼崽,并試圖保護自己的后代免受捕食者的侵害??铸埓婊盍藬登f代,但6000多萬年前,恐龍卻突然從這個藍色星球上消失。
而在恐龍滅絕6000多萬年后,憑借一塊有史前蚊子的琥珀,科學家從蚊子血中獲得了恐龍的基因,讓滅絕的恐龍得以復活。這就是經典科幻電影《侏羅紀公園》的故事。
“侏羅紀公園”的關鍵,其實就是基因,可以說,是基因存儲了恐龍的生物信息,讓恐龍的故事在今天重新展現。而如果人類沒有發現這塊有著史前蚊子的琥珀,那么,浩渺的宇宙中很可能沒有物種會知道恐龍曾經在地球上存在過。
那么,對于人類來說呢?雖然我們今天還在這個星球好好的生活著,但沒有人知道,人類的明天有多久?如果人類滅絕,以后會有其他物種知道人類曾經生活在這個藍色星球上嗎?如果未來的物種沒有找到人類遺骸,那么,人類在科學、藝術、文化和歷史上所取得的一切成就都將永遠消失,就像從未存在過一樣。
有沒有什么辦法能夠儲存人類文明的記憶?還真的有,那就是DNA存儲技術,這也是今天科學家們正在探索的數據存儲的新方式。
存儲人類全部的數據?
為什么科學家要研究DNA存儲?因為DNA存儲的信息密度遠超我們的想象。如果我們把毛囊細胞放大再放大,就能看到毛囊里單個細胞的DNA,而如果把這些DNA拉直,這些DNA將比一米還長,其中存儲了30億堿基對,信息密度遠遠超過人類制造的一切存儲介質。
所謂堿基對,就是DNA(脫氧核糖核酸)分子中的兩個核苷酸相互配對的基本單元。而DNA分子是由四種不同的堿基構成的——腺嘌呤、鳥嘌呤、胸腺嘧啶和胞嘧啶。這些堿基以特定的方式相互配對,形成堿基對,其中腺嘌呤總是與胸腺嘧啶配對,而胞嘧啶總是與鳥嘌呤配對。這種特定的配對方式是DNA雙螺旋結構的關鍵特征,這確保了DNA的穩定性和復制過程的準確性。
我們可以用兩個二進制數字來表示一個堿基,而這個堿基就占了兩位的存儲空間,位也叫比特,是信息的最小計量單位,所以一個堿基占據的空間就是兩位,在計算機中8位就是1字節(byte),1024字節就是1KB,1024KB則是1MB,以此類推,一條30億個堿基對DNA的數據量就是60億比特,換算一下大概是7GB,而它僅僅只有幾納米。即便要把人類掌握的所有數據都存儲下來,也只需要大概一公斤的DNA,一個冰箱就夠了。
要知道,從磁帶到USB,過去各種各樣的記憶媒介已經在被開發出來。不過,今天,更多的數據被保存在數據中心里。一個存儲量為 10 億 GB的大型數據中心,占地可達數個足球場,建設和維護成本高達 10 億美元。也就是說,光是儲存這些海量數據,就需要花費巨大的空間及金錢成本。
并且,現在數據產生的速度,遠遠要超過我們生產這些存儲介質的速度,所以必須要有新的介質來解決這個難題。而DNA就是這個新的介質。
DNA不僅可以儲存信息,而且信息的衰減和損耗幾乎為零。就像人類從恐龍基因中讀到恐龍生存與滅絕的故事一樣,如果DNA保存在干燥的環境中,遠離光線,并在穩定的溫度下,可以穩定數千萬年之久。相比之下,紙張會腐爛,硬盤會降解,甚至連石頭也會風化,DNA卻可以徹底無視這些物理過程,保留人類文明的知識和歷史。
一塊有史前蚊子的琥珀
早在上個世紀末,就有科學家嘗試DNA存儲信息,藝術家 Joe Davis 和哈佛大學的研究員,將一副名為《小維納斯》(Micro Venus)的圖案存儲到了 DNA 短鏈中。這個圖案編碼簡易,白色的地方標記為 0、黑色的線條部分標記為 1,文件大小只有 35字節,用了 28 個核苷酸長度的 DNA 鏈條來存儲。
2000年,美國生物學家把一段信息“刻”進了細菌的體內,這段信息就是愛因斯坦著名的質能方程“E=mc2”。2003年,又有科學家把迪士尼動畫片中的一段音樂“刻”進了細菌體內。到了2010年,當首個人造細胞誕生時,帶領該項工作的美國基因學家卡耐基·文特爾則把所有參與該項目的科學家的名字“刻”進了人造細胞的DNA上。
一直以來,科學家們在DNA儲存技術研究中,展現了可以將文書檔案、影片資料等幾乎所有東西儲存在DNA的能力。不過,DNA儲存技術一直有一個大問題,就是所有的過程中依然需要眾多的人力。
好在微軟公司和華盛頓大學最終打破了這一技術瓶頸。在微軟和華盛頓大學的研究中,他們設想了DNA存儲的另一個功能:隨機讀取。
常見的 DNA 測序技術中,必須要將所有的堿基串一次性讀取完,才能夠獲得信息。要么不讀取,要么全讀取。如果只想要數據中的某一個小片段,就會非常麻煩。2016 年,微軟公司和華盛頓大學的科學家發表了一項研究,可以在 DNA 已經存儲的信息中搜索到指定的圖像,定位后,用酶來復制所需的 DNA 片段,然后只需要讀取這一小段就可以。
隨機讀取是解決了,解讀問題又隨之而來,要讓 DNA 存儲離商用更進一步,還需要解決合成速度和成本問題。
現在合成速度是每秒存儲上千個字節(KB),成熟的云存儲方案已經有每秒千兆字節(GB)以上。這意味著,編寫 DNA 的速度還需要提升 6 個數量級。如何讓提升數據處理量?就像并行計算能夠提升數據處理速度,科學家希望 DNA 在合成時也可以并行多條,同時處理。
2021 年,微軟開發出首個納米級 DNA 存儲器,能夠在每個平方厘米的區域上,同時合成2650條堿基序列。這個新的技術把原來同時合成堿基序列的數字從個位提升到了千位。這個吞吐量,讓DNA合成速度變成了每秒兆字節(MB)。
更大的吞吐量,也就意味著更低的成本?,F在 DNA 存儲的成本是每萬億字節(TB)8 億美元。盡管磁帶存儲成本已經降到了每萬億字節 16 美元以下,看起來,DNA存儲似乎毫無競爭力。但現實生活中的大型數據中心的維護成本極高,還要定期更新硬件;DNA 存儲密度大、體積小、可以長時間不變質的優勢就變成了降維打擊。Twist Bioscience 最近在一份市場報告中強調,這種技術能夠幫助科技企業在“大規模、低功耗”情況下更有效地部署。
可以說,和過去相比,隨著生物技術的發展,DNA存儲費用已經呈現大幅下降的趨勢。就拿基因測序的費用來說,最早的人類基因測序花了將近 27 億美元的成本和十五年的時間,但是十五年后,今天,我們只要繳納1000 美元的費用給企業,就可以在幾周內拿到基因分析結果。技術已經變得相當大眾化了??紤]到指數型科技的成長速度,或許,DNA儲存很快就可以步入商業化階段。
短期來看,大數據與人工智能的大爆發,促使人類必須找到更多的新興算力之源,而DNA儲存的創新技術,很可能就是人類未來的智能新大陸;而從更長遠的人類文明的發展來看,DNA存儲技術或許就是那一塊有史前蚊子的琥珀,默默書寫和記錄人類這一物種在這個星球留下的傳奇。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司