深圳河套學院攜手哈爾濱工業大學(深圳)、深圳市大數據研究院及華為等團隊,近日在國產AI算力領域取得重大突破。依托昇騰910C國產AI算力集群,該聯合團隊成功完成1.6萬億參數大模型DeepSeek-V4-Pro的全參數后訓練,標志著中國半導體產業在復雜模型訓練領域邁出關鍵一步。
在美方技術封鎖背景下,此次突破具有特殊意義。此前業內普遍認為,國產芯片難以支撐世界級超大參數模型的全參數訓練。而此次成功實踐證明,國產AI算力已具備支撐萬億級模型訓練的工業級能力。聯合團隊通過三項核心工程創新,將理論可能性轉化為現實生產力。
全參數后訓練的復雜性遠超常規訓練。該過程需同時調整1.6萬億個參數,相當于在單行道上構建多層立交橋。DeepSeek-V4-Pro采用的混合專家(MoE)架構更增加了訓練難度——推理時僅需激活部分專家模塊,訓練時卻需所有專家同步學習,數據交換量呈指數級增長。這種架構對算力分配和通信效率提出極端要求,此前被視為國產芯片的"禁區"。
聯合團隊通過三大技術突破破解難題:其一,創新分布式顯存管理方案,將巨型模型拆解為可由多張芯片協同處理的模塊,實現數據交換的毫秒級同步;其二,開發動態負載均衡算法,解決MoE架構中常見的算力分配不均問題,使跨卡通信效率提升40%;其三,構建全鏈路監控系統,確保1500余個訓練步驟零中斷運行,形成包含錯誤預測、自動修復的容錯機制。
技術突破帶來的性能提升顯著。模型算力利用率突破30%,關鍵訓練算子效率提升14%。這一數據已達到國際先進水平,即便使用頂級海外芯片,多數團隊也僅能實現40%左右的利用率。更關鍵的是,此次突破驗證了國產算力在復雜工程場景下的可靠性。
比技術突破更具戰略價值的是人才梯隊建設。深圳河套學院將此次攻關轉化為實戰教學場景,構建"青年教師-博士生-工程團隊"三級培養體系。42名學生從環境搭建到故障排查全程參與,在真實萬億級集群中積累工程經驗。這種"戰訓結合"模式,解決了高端AI人才培養中"理論脫離實踐"的痛點。
當前國產算力在單卡性能和軟件生態方面仍存差距,但此次突破證明,通過系統工程創新,完全可以在特定領域實現彎道超車。隨著更多團隊加入國產算力生態建設,中國AI產業正在構建涵蓋芯片設計、模型訓練、應用落地的完整技術體系。這場靜悄悄的技術革命,正在改寫全球AI競爭的底層邏輯。






