下載客戶端

登錄

云計算的江湖，風(fēng)云再起

2024-10-08 15:51

來源：澎湃新聞·澎湃號·湃客

還記得當(dāng)年英特爾的廣告語嗎？“Intel Inside”，這個標(biāo)志性的標(biāo)簽幾乎成了計算設(shè)備的象征。然而，隨著AI大模型的迅速崛起，計算的核心從CPU悄然轉(zhuǎn)向了GPU。一場前所未有的技術(shù)革命正在醞釀，而這場革命的主角正是GPU。這并非簡單的硬件升級，而是對整個云計算生態(tài)的重新定義。

這一變革并非是循序漸進(jìn)的升級，而是一場顛覆式的革命。GPU不僅僅是性能更強(qiáng)，它的出現(xiàn)實際上重新定義了云計算的底層邏輯。傳統(tǒng)的云計算巨頭——無論是AWS、微軟云、谷歌云，還是阿里云、騰訊云、百度智能云——都必須面對一個殘酷的現(xiàn)實：過去依賴的技術(shù)優(yōu)勢正在被快速蠶食。更為重要的是，行業(yè)的新興玩家正抓住這一機(jī)遇，迅速崛起，試圖挑戰(zhàn)這些巨頭的霸主地位。

但問題來了：傳統(tǒng)巨頭們能否及時轉(zhuǎn)身，擁抱這場GPU主導(dǎo)的變革？他們能否在這場新競賽中繼續(xù)保持領(lǐng)先，抑或

最終會被更加靈活、創(chuàng)新的新勢力所超越？

這不僅僅是一場技術(shù)的比拼，更是一場關(guān)于未來計算主導(dǎo)權(quán)的戰(zhàn)爭。云計算的江湖，風(fēng)云再起。

從云計算、云操作系統(tǒng)的本質(zhì)，來看市場的演進(jìn)邏輯

云計算，乍聽之下，這是一個充滿科技感的詞匯，仿佛觸手可及的未來。然而，云計算的本質(zhì)并不復(fù)雜——它的核心就在于“資源池”和“彈性調(diào)度”。

想象一下，一個巨大的水庫（資源池），里面儲存著豐富的水資源（計算資源：CPU、存儲、網(wǎng)絡(luò)）。每當(dāng)你打開水龍頭（發(fā)出計算需求），水庫就會根據(jù)需求調(diào)配水量，不多也不少，精確地滿足你的需要。這個過程就是云計算的彈性調(diào)度——根據(jù)需求動態(tài)分配資源，既不浪費(fèi)，也不短缺。

但水庫本身不會自動運(yùn)行，背后需要一個大腦來指揮這些資源的分配與調(diào)度，這就是云操作系統(tǒng)的角色。它不僅管理資源的分配，還確保資源之間的高效協(xié)同運(yùn)作，讓每一滴水（每一份計算資源）都能發(fā)揮最大的效用。

這就是云計算的核心——彈性調(diào)度和資源池的管理。正是這個看不見的“大腦”在幕后運(yùn)籌帷幄，才能讓你在任何時間、任何地點(diǎn)都能獲得所需的計算資源。而這個“大腦”，正是云操作系統(tǒng)。

要理解云操作系統(tǒng)的演進(jìn)，得先追溯到它的起點(diǎn)：虛擬化時代的開端。

早期階段：虛擬化時代的開端

早期的云計算操作系統(tǒng)幾乎與虛擬化技術(shù)緊密相連，虛擬機(jī)（Virtual Machine）技術(shù)是云計算的奠基石。通過虛擬機(jī)，物理服務(wù)器被抽象成多個虛擬實例，每個實例都可以運(yùn)行自己的操作系統(tǒng)和應(yīng)用程序。這種資源的抽象化讓云計算的彈性調(diào)度成為可能——不同的用戶可以共享同一臺服務(wù)器而互不干擾。

虛擬化的核心是Hypervisor，一個運(yùn)行在硬件之上的輕量級軟件層。它負(fù)責(zé)管理虛擬機(jī)的創(chuàng)建、銷毀和資源分配。Hypervisor既要保證各虛擬機(jī)之間的隔離性，又要高效調(diào)度硬件資源，盡量減少開銷。

然而，虛擬化技術(shù)并非完美無瑕。盡管它提升了資源利用率，但引入的性能開銷和管理復(fù)雜性也不容忽視，這些問題為后來的技術(shù)發(fā)展埋下了伏筆。

中期發(fā)展：容器化技術(shù)的興起

進(jìn)入容器化時代，云操作系統(tǒng)迎來了新的變革。容器技術(shù)，比如Docker，提供了一種比虛擬機(jī)更輕量的虛擬化方式。容器能夠在共享的操作系統(tǒng)內(nèi)核上運(yùn)行多個隔離的應(yīng)用實例，啟動速度更快，資源占用更少。

容器的核心技術(shù)包括cgroups和namespaces，它們負(fù)責(zé)資源限制和進(jìn)程隔離。這些技術(shù)使得云操作系統(tǒng)能夠更加高效地管理資源，并顯著降低了應(yīng)用程序的部署復(fù)雜性。

與此同時，Kubernetes等容器編排工具的出現(xiàn)，更是讓云操作系統(tǒng)能夠自動化地管理和調(diào)度成千上萬個容器實例，實現(xiàn)微服務(wù)架構(gòu)的快速部署和擴(kuò)展。

容器技術(shù)的興起，使得云操作系統(tǒng)從以虛擬機(jī)為核心的架構(gòu)，轉(zhuǎn)變?yōu)橐粋€更加靈活和高效的生態(tài)系統(tǒng)，極大地提高了資源利用率。

現(xiàn)代階段：智能化調(diào)度與AI賦能

隨著AI和大數(shù)據(jù)的迅速發(fā)展，云計算的需求變得更加復(fù)雜，智能調(diào)度成為了云操作系統(tǒng)的新焦點(diǎn)。通過引入AI技術(shù)，云操作系統(tǒng)能夠預(yù)測工作負(fù)載變化，并自動調(diào)整資源分配，確保計算資源的最大化利用。

如今，云操作系統(tǒng)正朝著更智能、更自動化的方向發(fā)展。不僅要管理傳統(tǒng)的計算資源，還要面對包括GPU、FPGA等異構(gòu)計算資源在內(nèi)的復(fù)雜環(huán)境，這對操作系統(tǒng)提出了更高的要求。

云計算操作系統(tǒng)的發(fā)展，是一場從資源管理到智能化運(yùn)營的進(jìn)化。起初，它專注于如何高效、靈活地利用資源，通過虛擬機(jī)和容器技術(shù)實現(xiàn)。隨著時間推移，操作系統(tǒng)不斷在性能與效率間尋找平衡，每一次迭代都是為了解決靈活性、資源利用率和操作復(fù)雜性的平衡問題。這一系列技術(shù)進(jìn)步揭示了云計算操作系統(tǒng)演進(jìn)的內(nèi)在邏輯，展現(xiàn)了技術(shù)發(fā)展的趨勢和未來方向。

GPU崛起，重塑云計算操作系統(tǒng)的全新邏輯

曾經(jīng)，CPU在計算領(lǐng)域占據(jù)著核心地位，但隨著AI技術(shù)的發(fā)展，GPU以其強(qiáng)大的并行計算能力逐漸成為云計算的新寵。GPU擁有眾多計算核心，能夠同時處理大量任務(wù)，這使得它在執(zhí)行深度學(xué)習(xí)和AI模型訓(xùn)練中的大規(guī)模矩陣運(yùn)算時，效率遠(yuǎn)超CPU。

GPU的高吞吐量和浮點(diǎn)計算能力，使其在處理大數(shù)據(jù)和復(fù)雜模型方面表現(xiàn)卓越，訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)的效率是CPU的數(shù)十倍。因此，GPU正逐漸成為AI時代云計算的核心力量。

隨著GPU的崛起，云計算操作系統(tǒng)面臨著全新的挑戰(zhàn)。

GPU的并行計算能力要求云操作系統(tǒng)具備高效的調(diào)度機(jī)制，以最大化地發(fā)揮GPU的性能。這意味著，操作系統(tǒng)不僅需要調(diào)度單個計算任務(wù)，還要協(xié)調(diào)數(shù)千個并行計算線程，以確保資源的最佳利用。

而且，GPU在處理深度學(xué)習(xí)尤其是大模型任務(wù)時，通常需要快速訪問大量數(shù)據(jù)，這對存儲和網(wǎng)絡(luò)系統(tǒng)提出了更高的要求。傳統(tǒng)的云操作系統(tǒng)設(shè)計主要圍繞CPU展開，數(shù)據(jù)處理的模式較為線性，而GPU的工作方式更像是一個海量數(shù)據(jù)的“攪拌機(jī)”，需要在極短的時間內(nèi)處理和交換大量數(shù)據(jù)。這種數(shù)據(jù)處理方式要求操作系統(tǒng)具備更高效的內(nèi)存管理機(jī)制，以及支持高帶寬、低延遲的數(shù)據(jù)傳輸能力。

另外，GPU的多節(jié)點(diǎn)協(xié)同計算也是一個新的挑戰(zhàn)。大型AI模型的訓(xùn)練往往需要跨越多個GPU節(jié)點(diǎn)進(jìn)行分布式計算，這要求云操作系統(tǒng)能夠在多個節(jié)點(diǎn)之間高效協(xié)調(diào)資源，確保計算任務(wù)的同步執(zhí)行和數(shù)據(jù)的一致性。

為了應(yīng)對這些挑戰(zhàn)，云操作系統(tǒng)正在經(jīng)歷深度的變革。

首當(dāng)其中的，就是是調(diào)度算法的優(yōu)化。傳統(tǒng)的調(diào)度算法主要是為CPU設(shè)計的，強(qiáng)調(diào)的是單核性能和任務(wù)的串行處理。而針對GPU的調(diào)度算法則需要處理數(shù)以千計的并行線程，并在任務(wù)之間動態(tài)分配GPU資源，以最大化GPU的利用率。

而且，異構(gòu)計算環(huán)境的構(gòu)建成為新的重點(diǎn)。現(xiàn)代云操作系統(tǒng)需要管理的不僅僅是CPU和GPU，還包括FPGA、TPU等其他專用加速器。操作系統(tǒng)需要能夠識別并調(diào)度這些不同的計算資源，并根據(jù)任務(wù)的特性動態(tài)選擇最適合的硬件加速器。

隨著GPU的廣泛應(yīng)用，云計算中的計算集群調(diào)度也發(fā)生了革命性的變化。以往，集群調(diào)度主要集中在CPU的負(fù)載平衡和資源分配上，而在GPU主導(dǎo)的時代，調(diào)度器需要處理的是復(fù)雜的并行計算任務(wù)，以及跨節(jié)點(diǎn)的資源協(xié)調(diào)。

特別是在大模型任務(wù)中，計算負(fù)載往往是動態(tài)變化的，這要求調(diào)度器具備實時響應(yīng)和調(diào)整的能力。例如，在訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)時，不同階段對計算資源的需求可能會有顯著差異，調(diào)度器需要能夠快速調(diào)整資源分配，避免資源浪費(fèi)或任務(wù)延遲。

此外，分布式計算任務(wù)的協(xié)調(diào)管理也變得更加復(fù)雜。為了充分利用多個GPU節(jié)點(diǎn)的計算能力，調(diào)度器需要能夠同步多個節(jié)點(diǎn)的計算進(jìn)程，確保數(shù)據(jù)在節(jié)點(diǎn)之間的高效傳輸，并防止計算任務(wù)的分散執(zhí)行導(dǎo)致性能瓶頸。這一切都對云操作系統(tǒng)提出了前所未有的要求，促使其在調(diào)度算法、資源管理和系統(tǒng)架構(gòu)上進(jìn)行全面升級。

我們可以看到，這不僅僅是硬件的升級，更是云計算架構(gòu)的深層次變革。GPU的強(qiáng)大性能在推動云計算走向新的高度，但同時也對操作系統(tǒng)提出了更高、更復(fù)雜的要求。只有那些能夠快速適應(yīng)這一變化的云服務(wù)商，才能在這場新一輪的技術(shù)競賽中立于不敗之地。

智算云的骨架重塑，存儲、網(wǎng)絡(luò)和數(shù)據(jù)中心的協(xié)同進(jìn)化

在智算云的時代，GPU無疑是明星，但在這場革命中，存儲、網(wǎng)絡(luò)以及數(shù)據(jù)中心的基礎(chǔ)設(shè)施同樣不可或缺。光有強(qiáng)大的算力而沒有與之匹配的存儲和網(wǎng)絡(luò)支撐，這樣的系統(tǒng)無異于一個跑車卻裝上了低速車輪，無法充分發(fā)揮其潛能。

存儲系統(tǒng)的升級之路

首先，讓我們聊聊存儲。在AI大模型的訓(xùn)練中，數(shù)據(jù)就是“燃料”，而存儲系統(tǒng)就是這個燃料的“油箱”。傳統(tǒng)的存儲系統(tǒng)根本無法滿足AI大模型對數(shù)據(jù)讀寫的苛刻需求。

AI大模型在訓(xùn)練時，會不斷地讀取和寫入大量數(shù)據(jù)，要求存儲系統(tǒng)不僅有極高的吞吐量，還要有極低的延遲。為此，分布式存儲技術(shù)成為了關(guān)鍵。分布式存儲系統(tǒng)通過將數(shù)據(jù)分散存儲在多個節(jié)點(diǎn)上，不僅提高了數(shù)據(jù)訪問速度，還增強(qiáng)了系統(tǒng)的容錯能力。如果一個節(jié)點(diǎn)故障，其他節(jié)點(diǎn)可以無縫接管，確保數(shù)據(jù)的持續(xù)可用性。

此外，NVMe over Fabrics (NVMeoF) 技術(shù)也是應(yīng)對這一挑戰(zhàn)的重要工具。NVMeoF通過將NVMe協(xié)議延展到網(wǎng)絡(luò)中，打破了傳統(tǒng)存儲的瓶頸，實現(xiàn)了存儲和計算之間的高效通信。這種技術(shù)不僅提高了存儲設(shè)備的利用率，還顯著降低了延遲，滿足了AI大模型對數(shù)據(jù)高頻讀寫的需求。

但這還不夠。在面對海量的數(shù)據(jù)時，存儲系統(tǒng)還需要具備智能化的數(shù)據(jù)管理能力，能夠根據(jù)數(shù)據(jù)的重要性和訪問頻率動態(tài)調(diào)整存儲策略。比如，把訪問頻率高的數(shù)據(jù)優(yōu)先存儲在速度更快的設(shè)備上，而冷數(shù)據(jù)則轉(zhuǎn)移到低成本的存儲介質(zhì)中。這種智能分層存儲技術(shù)，能夠有效地提高存儲資源的利用效率，降低總體成本。

網(wǎng)絡(luò)架構(gòu)的轉(zhuǎn)型挑戰(zhàn)

如果說存儲是數(shù)據(jù)的油箱，那么網(wǎng)絡(luò)就是整個系統(tǒng)的“血管”。在智算云環(huán)境下，GPU集群的高密度并發(fā)計算對網(wǎng)絡(luò)的要求達(dá)到了新的高度。傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)已經(jīng)難以支撐這些計算任務(wù)的高速數(shù)據(jù)交換。

這里，RDMA (Remote Direct Memory Access) 技術(shù)應(yīng)運(yùn)而生。RDMA允許直接在網(wǎng)絡(luò)上訪問遠(yuǎn)程內(nèi)存，而無需經(jīng)過操作系統(tǒng)的干預(yù)，這種技術(shù)大幅降低了數(shù)據(jù)傳輸?shù)难舆t，提升了數(shù)據(jù)吞吐量。RDMA的引入，解決了GPU節(jié)點(diǎn)之間的數(shù)據(jù)傳輸瓶頸，特別是在需要頻繁交換大量數(shù)據(jù)的深度學(xué)習(xí)任務(wù)中，RDMA能夠確保數(shù)據(jù)傳輸?shù)母咝Ш偷脱舆t。

與此同時，高速互聯(lián) 和無損網(wǎng)絡(luò)架構(gòu) 也成為了網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)型的焦點(diǎn)。高速互聯(lián)技術(shù)，如InfiniBand，提供了比傳統(tǒng)以太網(wǎng)更高的帶寬和更低的延遲，適合需要大規(guī)模并發(fā)的計算任務(wù)。而無損網(wǎng)絡(luò)則通過精細(xì)的流量控制和擁塞管理，確保了數(shù)據(jù)傳輸?shù)姆€(wěn)定性和可靠性，避免了因為網(wǎng)絡(luò)擁塞而導(dǎo)致的計算任務(wù)中斷。

這些網(wǎng)絡(luò)技術(shù)的集成，使得GPU集群能夠以接近實時的方式進(jìn)行數(shù)據(jù)交換和計算協(xié)同，大大提高了AI任務(wù)的執(zhí)行效率。

數(shù)據(jù)中心的全面升級

GPU集群的崛起，不僅對存儲和網(wǎng)絡(luò)提出了挑戰(zhàn)，還迫使數(shù)據(jù)中心進(jìn)行全面升級。

為了支撐GPU的高性能計算，數(shù)據(jù)中心需要搭載更多的GPU卡，這直接帶來了散熱和功耗的問題。傳統(tǒng)的風(fēng)冷系統(tǒng)已經(jīng)難以勝任。液冷散熱技術(shù)逐漸成為主流，液冷系統(tǒng)通過液體直接接觸GPU芯片，將熱量迅速帶走，確保系統(tǒng)在高負(fù)載下依然能夠穩(wěn)定運(yùn)行。這種技術(shù)不僅提高了散熱效率，還降低了數(shù)據(jù)中心的能耗。

此外，密集功率管理也成為了數(shù)據(jù)中心的重中之重。隨著GPU集群的規(guī)模擴(kuò)展，功耗的管理變得越來越復(fù)雜。數(shù)據(jù)中心需要采用先進(jìn)的功率管理系統(tǒng)，實時監(jiān)控和調(diào)節(jié)每個節(jié)點(diǎn)的功耗，以防止因過度負(fù)載而引發(fā)的系統(tǒng)崩潰。

模塊化數(shù)據(jù)中心設(shè)計也是一個關(guān)鍵的升級方向，通過模塊化設(shè)計，數(shù)據(jù)中心可以根據(jù)需求靈活擴(kuò)展，快速部署新的GPU節(jié)點(diǎn)，同時保持高效的資源利用率。這種設(shè)計不僅降低了初始建設(shè)成本，還提升了數(shù)據(jù)中心的靈活性和可擴(kuò)展性，能夠更好地適應(yīng)未來的技術(shù)發(fā)展。

操作系統(tǒng)如何適應(yīng)新環(huán)境？

面對存儲、網(wǎng)絡(luò)和數(shù)據(jù)中心的全面升級，云操作系統(tǒng)也必須做出相應(yīng)的調(diào)整，以適應(yīng)這些變化。

操作系統(tǒng)需要更智能地管理和調(diào)度存儲資源，確保數(shù)據(jù)能以最快的速度到達(dá)GPU，并在內(nèi)存中高效處理。它還需要支持分布式存儲和NVMeoF等新興技術(shù)，為高吞吐量和低延遲的存儲需求提供強(qiáng)有力的支持。

在網(wǎng)絡(luò)管理方面，操作系統(tǒng)必須能夠識別和利用RDMA、高速互聯(lián)等技術(shù)，優(yōu)化數(shù)據(jù)傳輸路徑，減少延遲，提高網(wǎng)絡(luò)的整體吞吐量。同時，操作系統(tǒng)還需要具備動態(tài)調(diào)節(jié)網(wǎng)絡(luò)流量的能力，以應(yīng)對高密度并發(fā)計算對網(wǎng)絡(luò)帶寬的需求。

此外，操作系統(tǒng)必須能夠與數(shù)據(jù)中心的硬件基礎(chǔ)設(shè)施深度集成，特別是在功率管理和散熱優(yōu)化方面。它需要實時監(jiān)控硬件狀態(tài)，并根據(jù)負(fù)載情況自動調(diào)整系統(tǒng)配置，確保GPU集群在高效運(yùn)行的同時，保持低能耗和高可靠性。

我們可以看到，智算云時代的到來不僅僅是算力的革命，更是整個基礎(chǔ)設(shè)施的升級和重塑。

PaaS和SaaS的進(jìn)化，從開發(fā)到服務(wù)的重構(gòu)

在智算云的時代，隨著GPU成為計算的核心，PaaS和SaaS平臺也面臨著新的變革。這場變革既可能是開發(fā)者的春天，也可能是他們的冬天，關(guān)鍵在于平臺是否能夠跟上技術(shù)的步伐，提供更強(qiáng)大的工具和服務(wù)。

PaaS平臺的全新生態(tài)

智算云時代的到來，意味著PaaS平臺必須進(jìn)行徹底的革新。過去，PaaS平臺主要為CPU優(yōu)化，無論是編譯器、調(diào)試工具，還是開發(fā)框架，都以CPU的計算邏輯為核心。然而，隨著GPU的崛起，PaaS平臺需要重新審視并優(yōu)化其生態(tài)系統(tǒng)，以支持高性能計算和深度學(xué)習(xí)應(yīng)用。

其中，編譯器的優(yōu)化成為當(dāng)務(wù)之急。傳統(tǒng)編譯器無法充分利用GPU的并行計算能力。為此，許多PaaS平臺已經(jīng)開始集成支持CUDA或ROCm等GPU計算框架的編譯器，使開發(fā)者能夠更輕松地編寫并行計算代碼，充分發(fā)揮GPU的潛力。

其次，開發(fā)框架的優(yōu)化也是至關(guān)重要的。框架如TensorFlow、PyTorch等已經(jīng)成為深度學(xué)習(xí)開發(fā)的主流工具。這些框架在PaaS平臺上的表現(xiàn)直接影響開發(fā)者的生產(chǎn)力。為此，PaaS平臺必須提供深度集成的開發(fā)環(huán)境，使得這些框架能夠無縫運(yùn)行在GPU集群上，并且能夠利用平臺的分布式計算能力，支持大規(guī)模模型的訓(xùn)練和推理。

此外，PaaS平臺還需要提供更強(qiáng)大的調(diào)試工具。在復(fù)雜的GPU計算環(huán)境下，調(diào)試變得更加困難。PaaS平臺必須支持遠(yuǎn)程調(diào)試、實時性能監(jiān)控，以及自動化的故障診斷，以幫助開發(fā)者迅速定位和解決問題。

這種全面的技術(shù)優(yōu)化將使PaaS平臺成為智算云時代開發(fā)者的“春天”，為他們提供高效的開發(fā)工具和環(huán)境，助力他們在AI領(lǐng)域快速創(chuàng)新。

SaaS服務(wù)的智能化進(jìn)化

隨著PaaS平臺的革新，SaaS服務(wù)也在迎來新的進(jìn)化。GPU強(qiáng)大的計算能力為SaaS應(yīng)用帶來了前所未有的智能化升級機(jī)會。這不僅僅是性能的提升，更是服務(wù)模式的根本性變化。

GPU的計算能力，使得SaaS應(yīng)用能夠?qū)崟r處理和分析海量數(shù)據(jù)。這種能力的增強(qiáng)，使得自動化決策和個性化服務(wù)變得更加高效。例如，AI驅(qū)動的客服系統(tǒng)可以實時處理用戶請求，并根據(jù)用戶歷史數(shù)據(jù)和行為模式，提供更加精準(zhǔn)和個性化的服務(wù)。

更進(jìn)一步，GPU的并行處理能力，疊加上OpenAI剛發(fā)布的o1這樣的強(qiáng)大模型，使得復(fù)雜模型的實時推理成為可能。對于許多SaaS應(yīng)用而言，AI模型的推理速度直接影響用戶體驗。例如，在金融風(fēng)控系統(tǒng)中，GPU加速可以實現(xiàn)對海量交易數(shù)據(jù)的實時分析，從而即時發(fā)現(xiàn)異常行為，提升系統(tǒng)的安全性。

此外，GPU還使得SaaS應(yīng)用能夠動態(tài)適應(yīng)不同用戶的需求。通過利用AI技術(shù)，SaaS服務(wù)可以根據(jù)用戶的實時數(shù)據(jù)和操作習(xí)慣，自動調(diào)整系統(tǒng)配置和資源分配，為每個用戶提供量身定制的服務(wù)。這種個性化的服務(wù)模式將大大提升用戶滿意度和系統(tǒng)的使用效率。

在智算云的時代，PaaS和SaaS平臺面臨著前所未有的挑戰(zhàn)，但也迎來了無限的機(jī)遇。對于開發(fā)者來說，這或許是他們的春天，因為平臺的革新將為他們提供更強(qiáng)大的工具和支持。然而，這也可能是他們的冬天，如果他們無法快速適應(yīng)這些變化。

全球云廠商的智算競賽，誰能笑到最后？

在云計算的戰(zhàn)場上，傳統(tǒng)巨頭們一直占據(jù)著主導(dǎo)地位。然而，隨著AI大模型和GPU計算的崛起，云計算的格局正悄然發(fā)生變化。全球主要云廠商之間的智算競賽，正愈演愈烈。那么，誰能在這場角逐中脫穎而出，成為最終的王者？

根據(jù)數(shù)據(jù)猿觀察，國內(nèi)的阿里云、騰訊云、百度智能云，在面向AI大模型重構(gòu)云計算基礎(chǔ)設(shè)施方面，顯得特別的“激進(jìn)”。

阿里云，云棲大會上展示了其全新升級的云產(chǎn)品體系。

在2024年云棲大會上，阿里云展示了其AI基礎(chǔ)設(shè)施和彈性計算產(chǎn)品家族的全面升級，以適應(yīng)生成式AI時代的需求。阿里云通過全棧優(yōu)化，從底層計算、存儲、網(wǎng)絡(luò)到AI大模型平臺，構(gòu)建了一套穩(wěn)定高效的AI基礎(chǔ)設(shè)施。

推出了CIPU2.0處理器，具有400Gbps的高吞吐數(shù)據(jù)加速和一體化的軟硬件安全優(yōu)化。基于此，阿里云發(fā)布了支持16卡GPU和1.5T顯存的磐久AI服務(wù)器，以及AI算法預(yù)測GPU故障的功能，提高了AI算力的穩(wěn)定性和效率。

在存儲領(lǐng)域，阿里云的CPFS實現(xiàn)了單客戶端25GB/s的吞吐量，為AI提供了強(qiáng)大的存儲支持。同時，HPN7.0網(wǎng)絡(luò)架構(gòu)優(yōu)化了集合通信性能，確保大規(guī)模AI集群的高效運(yùn)行。

阿里云還發(fā)布了第九代ECS企業(yè)級實例，性能提升高達(dá)30%，并推出了GPU容器算力服務(wù)，升級了容器服務(wù)ACK，減少了大模型應(yīng)用的冷啟動延遲。

在大模型領(lǐng)域，阿里云的通義千問和Qwen系列模型全面升級，覆蓋多模態(tài)應(yīng)用，并降低了調(diào)用成本，推動了生成式AI的普及。

尤其值得指出的是，飛天企業(yè)版實現(xiàn)了智算升級，將智算能力融入專有云平臺，優(yōu)化了異構(gòu)算力池化和推理效率。通過GPU虛擬化和容器調(diào)度，資源利用率提升了100%。在推理場景下，通信帶寬和模型吞吐量得到顯著提升。

系統(tǒng)穩(wěn)定性方面，飛天企業(yè)版提供了一體化監(jiān)控和分析診斷能力，實現(xiàn)了分鐘級故障定位，確保AI任務(wù)的高效穩(wěn)定運(yùn)行。這些升級使飛天企業(yè)版在滿足政企市場AI需求的同時，繼續(xù)引領(lǐng)云計算操作系統(tǒng)的智能化發(fā)展。

騰訊云，發(fā)布了AIInfra品牌“騰訊云智算”。

騰訊云在2024年數(shù)字生態(tài)大會上推出了AIInfra品牌“騰訊云智算”，這是一個整合了算力、存儲、網(wǎng)絡(luò)的高性能計算平臺。該平臺旨在提供領(lǐng)先性能、多芯兼容和靈活部署的智算服務(wù)，推動AI生產(chǎn)力的釋放。

騰訊云智算包括HCC高性能計算、星脈網(wǎng)絡(luò)、AIGC云存儲等核心產(chǎn)品，形成了強(qiáng)大的智算基礎(chǔ)設(shè)施。HCC提供3.2T的超高互聯(lián)帶寬，優(yōu)化大模型訓(xùn)練和推理。星脈網(wǎng)絡(luò)2.0采用自研設(shè)備和400G硅光模塊，降低延遲，提升訓(xùn)練效率。

存儲方面，CFS Turbo和COS針對高性能文件存儲和大數(shù)據(jù)存儲需求優(yōu)化，CFS Turbo特別適合AIGC訓(xùn)練，提供百萬級OPS和千億級文件擴(kuò)展，而COS支持百EB級存儲規(guī)模。

騰訊云智算還包括向量數(shù)據(jù)庫和TACO系列加速框架，提升AI訓(xùn)練和推理效率。TACOTrain加速引擎兼容多種訓(xùn)練框架，優(yōu)化網(wǎng)絡(luò)通信和模型并行處理；TACOLLM針對大語言模型推理加速，提升性能，降低成本。

百度智能云，通過整合基礎(chǔ)設(shè)施和大模型工具鏈，提供全棧的AI解決方案。

在2024年云智大會上，百度智能云推出了全棧AI解決方案，強(qiáng)化其在智能云計算領(lǐng)域的布局。

核心產(chǎn)品“百舸”AI異構(gòu)計算平臺4.0，專為大模型訓(xùn)練和推理設(shè)計，支持多芯異構(gòu)計算，提供高效穩(wěn)定的算力。該平臺通過秒級部署功能，顯著縮短集群創(chuàng)建和模型部署時間，并具備強(qiáng)大的故障容錯能力，確保了大規(guī)模集群的穩(wěn)定性。

模型開發(fā)和應(yīng)用方面，百度智能云的“千帆”3.0平臺提供了從模型開發(fā)到應(yīng)用部署的全套工具鏈，整合了文心系列模型，滿足企業(yè)復(fù)雜業(yè)務(wù)需求。平臺還引入了低代碼、零代碼開發(fā)工具，如AI速搭，降低開發(fā)門檻，提高效率。

此外，百度智能云還推出了智能客服產(chǎn)品“客悅”和數(shù)字人平臺“曦靈”。客悅利用多模態(tài)交互和情感識別技術(shù)提升服務(wù)智能化，降低人力成本。曦靈平臺則提供2D、3D數(shù)字人生成和實時交互技術(shù)，為電商、金融等行業(yè)提供數(shù)字人解決方案。

除了我們上面重點(diǎn)介紹的3家云廠商，其他云廠商也在智算云這條道路上，蒙眼狂奔。

在智算云的賽道上，各大云服務(wù)廠商正加速布局，以GPU為核心的計算資源池和智算云服務(wù)正逐漸成為新的行業(yè)標(biāo)準(zhǔn)。

AWS 憑借專為AI任務(wù)設(shè)計的Inferentia和Trainium芯片，以及Amazon SageMaker等AI服務(wù)，確立了其在AI計算生態(tài)系統(tǒng)中的領(lǐng)導(dǎo)地位。

微軟Azure 通過與OpenAI的緊密合作，推出了Azure OpenAI服務(wù)，將生成式AI技術(shù)與企業(yè)級服務(wù)相結(jié)合，提供了靈活的模型部署和微調(diào)功能。

谷歌云借助其專為AI任務(wù)設(shè)計的TPU（Tensor Processing Unit），在深度學(xué)習(xí)任務(wù)中展現(xiàn)出卓越的性能，其新一代TPU v5p在性能上實現(xiàn)了顯著提升。

華為云通過Ascend系列AI處理器和ModelArts平臺，為用戶提供了一站式AI開發(fā)環(huán)境，支持自動化模型訓(xùn)練、調(diào)優(yōu)和部署。

這些廠商的操作系統(tǒng)和云基礎(chǔ)設(shè)施正在經(jīng)歷重大的改造，以適應(yīng)AI大模型的需求。例如，華為云的xGPU技術(shù)實現(xiàn)了物理GPU的資源任意劃分，靈活隔離，以適應(yīng)AI訓(xùn)練任務(wù)的配置要求。

在這場智算云的全球競賽中，沒有誰能夠輕松取勝。這是一場持久戰(zhàn)，技術(shù)、市場、生態(tài)系統(tǒng)的多維競爭將決定最終的贏家。

誰能引領(lǐng)下一個計算時代？

隨著大模型技術(shù)的飛速發(fā)展，云計算正邁入一個全新的階段——智算云時代。這個新時代不僅帶來了前所未有的機(jī)遇，也對云服務(wù)商提出了極高的技術(shù)要求。要在這場變革中勝出，廠商們必須克服一系列復(fù)雜而棘手的挑戰(zhàn)。

智算云的興起，預(yù)示著全球云計算市場將迎來新一輪的洗牌。那些能夠迅速掌握智算云核心技術(shù)的廠商，將在市場中占據(jù)有利位置。例如，阿里云通過其自研的飛天操作系統(tǒng)，已經(jīng)實現(xiàn)了對異構(gòu)算力的統(tǒng)一調(diào)度，顯著提升了資源利用效率。

然而，智算云帶來的高技術(shù)門檻也可能導(dǎo)致一些中小型云服務(wù)商陷入困境。如果這些廠商無法快速適應(yīng)新的市場需求，無法提供穩(wěn)定、高效的智算云服務(wù)，他們將面臨被市場淘汰的風(fēng)險。與此同時，那些能夠提供差異化服務(wù)并在特定領(lǐng)域取得突破的創(chuàng)新者，也有可能通過垂直整合或?qū)Ｗ⒂谔囟☉?yīng)用場景，開辟出新的市場空間。

展望未來，智算云技術(shù)的發(fā)展將深刻影響全球經(jīng)濟(jì)和社會結(jié)構(gòu)。隨著AI逐漸滲透到各行各業(yè)，智算云將成為新一代數(shù)字基礎(chǔ)設(shè)施的核心，其重要性不亞于當(dāng)前的電力和互聯(lián)網(wǎng)。我們可以預(yù)見，未來的智算云將不僅限于支持現(xiàn)有的AI應(yīng)用，還會推動更多跨領(lǐng)域的創(chuàng)新。例如，在智能制造中，智算云可以實時分析生產(chǎn)數(shù)據(jù)，優(yōu)化制造流程；在智慧城市中，智算云可以整合交通、能源、安防等多個系統(tǒng)，提升城市管理的智能化水平。

更進(jìn)一步，智算云的普及可能催生出新的商業(yè)模式和產(chǎn)業(yè)生態(tài)。例如，隨著邊緣計算與智算云的深度融合，更多的實時、個性化AI服務(wù)將得以實現(xiàn)，從而推動消費(fèi)互聯(lián)網(wǎng)和工業(yè)互聯(lián)網(wǎng)的進(jìn)一步發(fā)展。這一切的前提是，云服務(wù)商能否在這場技術(shù)競賽中脫穎而出，成為引領(lǐng)下一個計算時代的領(lǐng)航者。未來的勝者，將不僅掌握技術(shù)制高點(diǎn)，還將重塑全球經(jīng)濟(jì)格局，推動社會的智能化變革。

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#云計算