- +1
水底下的云
曾幾何時,UDC水下數據中心,就像《流浪地球2》泡在水里的根服務器,是一個只存在于科幻電影、獵奇新聞中,或者是海外頂尖科研機構用來“炫技”的“黑科技”。
如今,UDC已經來到了我們身邊,并且正在加速。
今年7月我去2024世界人工智能大會,在一家中國計算廠商的展臺“C位”,看到了一臺泡在水中、正在運行的電腦。
原來,該企業研發的特殊液體,能夠與電路板兼容,而且不會腐化電路。依托相關材料打造的液冷服務器,可以抵御電子元器件的天敵——“水”,讓水下數據中心成為可能。
據現場工作人員透露,目前該企業已經與蘇州達成合作,正在湖中部署水下數據中心。一是可以作為當地“新質生產力”的標桿項目,展現在智能計算方面的區域實力;二是有特別好的節能減排降耗效果,可以為當地一些AI企業和應用提供綠色算力。
那怎么才能用到水底的算力呢?答案是,云。
從云上獲取AI算力,憑借天然的成本優勢、靈活租用的彈性優勢,成為AI 初創企業的首選。建設更節能、更綠色、成本更低的“云”, UDC水下數據中心也走進了云計算廠商的視野。
2014年微軟首次提出了水下數據中心概念,希望為沿海人口提供高速云服務。2018 年微軟正式將 855 臺服務器沉到海里,與Azure 云進行對比。我國目前也有海底數據中心,核心業務就是算力服務,以及跟騰訊、阿里等云廠家的大批量直接合作,為它們提供更具成本優勢的云端算力。
本文就來聊一聊,水底下的云,到底怎么把算力價格“打下來”?
“AI的盡頭是電力”。大模型的參數量達到萬億級別,驅動著智算中心的組網規模向五萬卡,甚至是十萬卡級演進。而一個十萬卡集群,可能耗盡一個城市的電量。為了供養AI大模型,全城人都不能開空調、看電視,這未免也太賽博朋克了。
不僅我們不愿意出現這種情況,其實云廠商也不愿意。有調研顯示,水電費支出占到了數據中心運營成本的50%以上,而智算中心GPU的密度進一步增加,電量負荷會倍數增長,直接導致云廠商的成本激增。
為了減少電費,云廠商們可謂是想盡了辦法。
有人把數據中心放到了烏蘭察布、青海,有人放到了湖邊(阿里巴巴千島湖數據中心),有人放進了山洞(騰訊、華為),有人直接搬去了北極圈(Facebook Node Pole 數據中心、芬蘭哈米納港Google數據中心),還有人放到了海上(Google海上漂浮數據中心)、海底(微軟Project Natick數據中心)。
萬變不離其宗,就是減少依靠空調等電力設備降溫的風冷,多靠自然環境中的空氣或水,進行自然冷卻。
而這些自然冷卻方案中,水底下的云無疑是最有“減電”競爭力的。
顯然,相比陸地數據中心,水下環境的復雜度更高,布線、維護更為麻煩,而且服務器本來就怕水,對水下數據中心的防水、防腐性能挑戰更大,為什么還能成為一種選擇?
水下數據中心的成本“第一刀”,就把自然冷卻效果打到了“地板價”。
作為冷卻效果最極致的解決方案,水下數據中心直接利用了水體的低溫特性,比其他物質(如空氣冷卻、風力冷卻)吸收更多熱量,大幅減少了額外的冷卻需求。
同時,由于水下環境本身就提供了有效的冷卻,因此可以減少對空調系統的依賴和能耗。
可以說,利用水流帶走熱量,水下數據中心節能降耗的成本優勢最為顯著。
在陸地上建數據中心,自然要占用土地空間,除了土地成本之外,一些天然氣溫較低的寒冷內陸城市和地區,基礎設施條件一般也沒有沿海地區發達,比如北極圈,導致TCO總體擁有成本上升。
尤其是隨著超萬卡集群的到來,對陸地上的數據中心/智算中心配套設施,比如供電、承重、機房潔凈度和走線架設計等提出了極高要求。
《面向超萬卡集群的新型智算技術白皮書(2024年)》顯示,由于超萬卡集群的算力密度更高、功耗密度更高,線纜的布放量也隨之增大,一個 1.8 萬卡的智算集群,需要布放 10 萬量級的線纜,這將對走線架的寬度和承重帶來新的挑戰。
可以說,陸地數據中心/智算中心的總體成本正在走高。
與之相比,水底數據中心的建設成本正在下降,二者之間的“剪刀差”越來越小。
一方面,由于湖泊、海洋的空間較大,建設方的選址范圍更廣,相比內陸地區,水下數據中心的土地成本更可控。
此外,水下數據中心往往采用高度集成、緊耦合、密封式數據艙,一些在陸地數據中心中是必需的設備,如冷卻塔和壓縮機等,在水下都不需要。設計得當的海底數據倉,故障率和運維成本更低。
2020年9月,微軟將沉入海底兩年的數據中心撈上來,評估發現,水下數據中心的服務器故障率,比傳統數據中心更低,可靠性比陸地上的服務器高8倍。
這可能是因為,水下數據艙可以與多變的環境隔離,很少受到事故擾動。總之,廣袤遼闊的水域,讓無需與人類爭奪土地資源的水下算力,價格“更香”了。
把服務器泡在水里,省水。這究竟是怎么一回事?
這就要提到一個指標:WUE(Water Usage Effectiveness),水資源利用效率。
很多人聽說過PUE,卻很少聽過WUE,而想要推動環境可持續發展,實現碳中和,WUE也不得不降。
降低WUE,核心就是減少分子——輸入數據中心的水量,主要由冷凍補水、冷卻補水、加濕補水等生產用水組成。冷卻過程中消耗的水資源越少,WUE就越高。
把數據中心泡在水里,就能減少生產用水嗎?可以,而且甚至是0。
一方面,水下數據中心直接使用周圍水體的低溫來冷卻服務器,無需蒸發散熱,省去了傳統數據中心中的冷卻塔和冷水系統,用于冷卻的水資源消耗等于0。
此外,水下數據中心冷卻過程中蒸發的水分直接回到水體中,對于公共水源來說也幾乎沒有損失。一些干旱缺水的地區,如果利用湖泊、河流、地下水來降溫,蒸發的水資源卻未必能快速回到當地的水系之中,會給當地水環境帶來負面影響。
2023年,美國亞利桑那州就因為擔心水資源消耗問題,限制當地數據中心建設。國內,內蒙古烏蘭察布市集寧區也出臺了《關于禁止集寧區大數據企業使用地下水冷卻降溫的通知》,轄區內大數據企業一律禁止用地下水冷卻降溫。
而水下數據中心即使產生一些熱蒸騰,也會很快被廣闊的湖泊海洋而代謝掉,不會影響到當地的水循環。
水下數據中心雖然成本優勢大,但AI云服務如果一味降本,可能會出現“降本增笑”的事故。
舉個例子,西部數據中心的存算成本比東部更低,但一些東部企業考慮到傳輸時延、丟包率、業務可靠性等,寧肯多承擔50%的成本,也要把數據放在東部,尤其是自動駕駛等對數據實時性要求較高的業務。這也是很多西部數據中心,上架率不高的重要原因。
水下數據中心的商業化困境在于,雖然價格低,但與AI需求沒有充分適配,而AI又被云廠商看作是當下最關鍵的新增收入點。
水下的資源擴展性受限。云服務需要根據用戶需求快速擴展資源,增加算力規模、存儲空間,而水下數據艙的出廠、下水都有一定的時間周期(微軟官網顯示,Natick從工廠到運行要90天),而目前陸地上的智算中心,采用模塊化建設只需一個月左右就能落成,能更快滿足AI算力需求。
目前,微軟也宣布暫停了Natick項目,據說要在后期加強安裝、維修機器人等方面的研究,看來遠離人類活動的水下環境,仍不適合大規模部署數據中心。
另外,對水下算力的納管和管理,也給云廠商提出了挑戰。目前水下算力的占比還比較小,云廠商要整合和管理這些異構資源,確保不同來源的算力可以無縫集成,實現最佳性能,并讓用戶便捷簡單地使用這些資源,需要投入大量的資源進行技術和系統、平臺的研發。
一些積累不夠深厚的中小型云廠商,可能出現“醬油(管理平臺)比雞(算力)貴”的情況,并不能靠成本優勢來提升綜合競爭力。
徐志摩曾在《偶然》詩中寫道:“我是天空中的一片云,偶爾投影在你的波心。”目前來看,AI云服務和水下數據中心,恐怕還無法長相廝守、成為彼此的唯一。
2024年5月,Natick項目第二期已經開始,反映出微軟對云數據中心解決方案的持續追求,也讓“水下數據中心”成為中國不能落后太遠的一條賽道,更適合作為科技自立、科技強國的一張名片,與國資云、央國企云、科研云一同試點探索。
而商業化屬性更強的云服務商,仍需要聚焦在陸地上。幸好中國地形地貌豐富、基礎設施完善,有廣闊天地來探索“極致性價比”。
從這個角度說,算力,從來不是一家計算企業或一個行業的事,而是一個舉世參與的系統工程。算力即國力的時代,才剛剛開始。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司