- +1
全國已有14個國家超算中心,何為超算互聯網建設的關鍵?
·全局數據互聯與長距離高速傳輸是超算互聯網需要攻克的兩大關鍵技術。存力與算力在超算互聯建設中同樣重要,大批量數據用算力計算一般只需幾分鐘,但計算前的上載數據要花一個小時,國產超算平臺支持復雜計算全流程中數據流轉的能力亟待改善。
國家超級計算長沙中心總工程師唐卓。
今年6月,浙江“烏鎮之光”超算中心正式納入國家超算中心序列,成為全國第14個國家超算中心。“我們國家現在正在緊鑼密鼓地建設超算互聯網。”8月24日,在十九屆全國高性能計算學術年會期間(CCF HPC China 2023),國家超級計算長沙中心總工程師、國家高層次人才計劃入選者唐卓向澎湃科技(www.6773257.com)詳解構建超算互聯網亟需解決的關鍵技術、存力建設的重要性,以及傳統超算如何融合人工智能計算和大數據計算等。
唐卓長期從事高性能計算和云計算的教學與科研工作。對于當前青年科研人員的內卷,他建議要有明確的研究方向并長期沉淀和堅持,清晰認知自身的學習能力和科研創新能力,在兩者兼具的情況下往前沖,很難不成功。
超算互聯網兩大關鍵技術:全局數據互聯與長距離高速傳輸
算力是當代生產力,超級計算也被稱為高性能計算。為盤活算力資源,單超算中心向超算互聯網演進,超算互聯網的目的是讓用戶能夠隨時隨地獲取數據資源和算力資源。從物理形態上來講,它通過高速互聯技術將超算中心連接起來,統一對外提供數據和算力服務。
“我們國家現在正在緊鑼密鼓地建設超算互聯網。”唐卓表示,目前算網調度有兩大關鍵技術要突破,一是數據和任務的跨域調度和跨中心調度,二是長距離數據傳輸的低時延和高帶寬。
對于前者,算力是CPU(中央處理器)、GPU(圖形處理器)、FPGA(現場可編程門陣列)等算力設備,實體的算力設備無法調度,所謂的算力調度,就是分配數據和任務到合適的地方進行計算分析。算力調度就像軍隊指揮官,將一個大任務分解成多個小任務。以“天河”新一代超級計算機為例,其具有一萬多塊加速器、上千萬核心。上千萬核心相當于上千萬士兵,指揮官要讓這上千萬士兵步調一致地分工計算并返回結果,形成最終的計算結果。但上千萬士兵的能力并不都相同,所以要考慮每個士兵的負載情況,把合適的任務分配給合適的士兵。為了讓分散在各地的數據被正確處理,這就需要超算互聯網數據基礎設施的一體化建設,打破多超算中心的數據孤島,通過全局數據管理的新技術手段,實現數據全域互聯、全域可見、統一調度,任意位置數據即取即用。
對于后者,帶寬是單位時間能通過鏈路的數據量,延遲是在傳輸介質中傳輸所用的時間。中國工程院院士、清華大學計算機系教授鄭緯民曾提到,在網絡正常情況下,從北京的清華大學傳輸4T數據到江蘇的國家超級計算無錫中心太湖之光超級計算機,需要5天。把數據刻成盤寄快遞,第二天下午就能到無錫。為了解決這個問題,唐卓表示,目前光傳送網(OTN)以及運營商的云專網等適用于長距離、低時延的算力網構建。
存力與算力在超算互聯建設中同樣重要
國產超算處于國際第一梯隊,是我國的一張名片,但仍面臨數據治理困難、應用移植成本高等挑戰。數據作為超算互聯的核心生產要素,其重要性已成為業界共識,高效的數據流動是算力流動的基礎。唐卓表示,因此業界在關注算力的同時也需要考慮數據存力,未來超算的建設應圍繞科研數據應用的全流程進行構造。
國產超算平臺支持復雜計算全流程中數據流轉的能力亟待改善。唐卓說,大批量數據用算力計算一般只需幾分鐘,但計算前的上載數據要花一個小時。在計算過程中,不可避免地要在計算節點之間不停交換數據,搬運這些數據的時間開銷也非常大。“我們在判斷超算的效率時有一個重要指標:計算通信開銷比,我們不希望數據交換占據的時間過長,解決這個問題的方法是,在做密集型計算之前,把數據清洗、數據融合、數據上載等一部分必要計算直接下沉到專業存儲上去完成,這也是超算逐漸從計算密集型走向數據密集型的一個映證。”
唐卓表示,以前的存儲設備僅僅存儲數據,而現在遠不止于此,要讓存儲設備具有一定的近數據計算能力和數據業務處理邏輯,提升整體效率。除此之外,存儲還需要按照訪問頻次預先識別數據的熱冷程度,把熱數據放到性能較好的存儲介質上,把冷數據放到性價比更高的存儲介質上,實現數據的分區存放、按需流動。“這些都是存力的作用,通過存力建設讓主處理器只負責計算,減少數據搬運開銷和數據I/O(輸入/輸出)開銷。”
隨著人工智能的發展,傳統超算如何適應人工智能計算和大數據計算?唐卓表示,存力不僅要解決數據I/O問題,還要解決多數據中心的數據調度。只有更好地理解數據特征和應用特征,才能在融合計算過程中做出預判,把數據和任務分配到最合適的位置上進行計算,使得節點之間的數據交換量更小。
唐卓表示,一個千億參數的大模型在一臺甚至多臺超算上進行訓練時,要把模型分成多份并行訓練,訓練結果實時同步交換,這增加了節點間的通信開銷。為了降低通信開銷,一個方法是先各自訓練,再交換一批次訓練結果,但這會導致溝通稀疏、收斂性較差。“目前國內大模型主要在超算和智算上訓練,超算用于人工智能計算還有很大提升空間。”唐卓表示,要在傳統超算方面加大存力建設、數據調度和任務科學調度的投入,實現算力與存力協同、分工優化,讓超算與智算相互滲透融合,同時讓智能計算和超算形成算網、數網的互聯,互通有無。
明確研究方向并長期沉淀
唐卓目前任職國家超級計算長沙中心總工程師,正在從事省域算力網的模式構建研究和原型系統研究,他也在湖南大學信息科學與工程學院主持工作,深刻認識到當前“超算和AI領域真正需要的是掌握核心底層技術能力的人才”,他希望學生具備對計算架構、存儲架構、體系結構以及底層系統研發的能力,而不僅僅是編程能力。
唐卓介紹,湖南大學信息科學與工程學院正在制定、修改、優化本科生和研究生的培養計劃和教學大綱,以計算機系統的視角培養人才。計算機科學方向的本科生在入學時抓好處理器設計、指令集、操作系統、編譯原理、高級程序語言設計5門核心課程,“讓學生畢業時能夠充分理解高級程序語言是怎么被編譯成機器代碼的,機器代碼是如何在操作系統層面被調度到處理器核心上工作的,機器代碼在處理器核心上執行時是怎么編譯,每一條指令在 CPU上是怎么執行并變成一個電路級行為的,這就到了最底層的芯片的設計,最終讓學生非常清晰地理解整個計算機體系結構。”研究生階段實行并行計算、高性能計算培養,在開發板上設計處理器架構、操作系統、編譯系統,通過學生個人賬號登錄超級計算機,深入學習和理解超算程序的編寫,編譯和調度。
唐卓也看到,“當前青年科研人員處于內卷狀態,科研院所和頭部企業更加突出。”他建議要有明確的研究方向并長期沉淀和堅持,“很多博士畢業后到了高校,今年做這個方向明年又換另一個方向,跟著潮流變換,這不是一個好現象。”在超算轉向智算過程中要根據數據特征和應用特征對數據再分配和調度整合,唐卓表示,這在十多年前已被發現,“我們一直在做這個事情,一直沒變,所以才能夠慢慢積累起來。當你覺得最辛苦、最沮喪、最困難的時候,如果你堅持下來了,你的突破點、轉折點就快到了。”
其次,青年科研人員要清晰認知自身的學習能力和科研創新能力。如果具備了明確研究方向和清晰認知,“那就沖吧,我覺得這很難不成功。”
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司