在上海舉辦的2026華為云INSPIRE創(chuàng)想者大會Agentic Infra云基礎(chǔ)設(shè)施技術(shù)論壇上,一場關(guān)于AI基礎(chǔ)設(shè)施未來發(fā)展的深度對話拉開帷幕。本次論壇以"進化,從AI Infra到Agentic Infra"為核心命題,吸引了來自全球的頂尖技術(shù)專家、行業(yè)領(lǐng)袖與生態(tài)合作伙伴,共同探索智能體時代下云基礎(chǔ)設(shè)施的技術(shù)革新路徑。
華為云基礎(chǔ)設(shè)施云服務(wù)產(chǎn)品線總裁鮑亮在開幕致辭中指出:"云計算已進入Token工業(yè)時代,計算范式正經(jīng)歷根本性變革。"他強調(diào),傳統(tǒng)基礎(chǔ)設(shè)施難以支撐智能體時代對算力效率、記憶容量與自治能力的嚴(yán)苛要求。為此,華為云提出"Agentic Infra"新范式,通過構(gòu)建"高效Token工廠+通智一體化調(diào)度+持續(xù)學(xué)習(xí)+安全自治"四大核心能力,重新定義AI算力底座。其中,靈衢智算集群AICS實現(xiàn)算力效率質(zhì)的飛躍,存算一體架構(gòu)突破記憶瓶頸,AgentSphere運行時環(huán)境確保安全部署,Volcano調(diào)度系統(tǒng)達(dá)成資源最優(yōu)配置。
華為公司Fellow、云系統(tǒng)首席專家余洲系統(tǒng)闡釋了"Agentic計算機"概念。他表示,這種新型基礎(chǔ)設(shè)施將服務(wù)對象從人類轉(zhuǎn)向AI,圍繞萬億級Token處理進行全棧優(yōu)化。通過軟硬芯深度協(xié)同,華為云實現(xiàn)四大技術(shù)突破:靈衢網(wǎng)絡(luò)將分散的CPU、NPU、SSD和內(nèi)存構(gòu)建成統(tǒng)一計算資源池;基于昇騰950的1024卡集群使算力提升2.6倍;記憶存儲解決方案AMS提供PB級記憶空間,緩存命中率達(dá)95%;高性能極簡網(wǎng)絡(luò)支持算力與IO資源的動態(tài)配比。這些創(chuàng)新使推理效率、序列長度與速度指標(biāo)均獲得顯著提升。
面對大模型訓(xùn)練中的資源利用率困境,華為公司Fellow、華為云服務(wù)首席架構(gòu)師顧炯炯推出FlexNPU柔性液態(tài)算力架構(gòu)。該架構(gòu)在訓(xùn)練框架與硬件層間引入軟件定義層,實現(xiàn)算子級時空復(fù)用與硬件故障隔離。測試數(shù)據(jù)顯示,其將節(jié)點彈性恢復(fù)時間從分鐘級壓縮至秒級,單位Token算力成本降低63%,真正做到"算力零閑置,Token不浪費"。這種創(chuàng)新架構(gòu)特別適用于多模型共卡、推理訓(xùn)練混合等復(fù)雜場景,為AI工程化落地提供關(guān)鍵支撐。
云原生計算基金會(CNCF)中國區(qū)總監(jiān)陳澤輝分享了行業(yè)觀察:Kubernetes作為AI操作系統(tǒng),已在82%的企業(yè)生產(chǎn)環(huán)境中部署,Agentic AI部署比例更高達(dá)74%。CNCF TOC副主席王澤鋒進一步揭示調(diào)度系統(tǒng)的演進方向,Volcano通過多調(diào)度器免鎖并行架構(gòu),將Agentic工作負(fù)載調(diào)度耗時降低99%。在運行時層面,AgentCube與Kuasar的組合實現(xiàn)50毫秒級冷啟動,Kthena路由感知算法將在630版本正式商用,這些突破標(biāo)志著調(diào)度系統(tǒng)從工具屬性升維為資源本體。
理論創(chuàng)新與實戰(zhàn)驗證形成閉環(huán)。AReal完成全棧算子適配,小紅書Relax框架實現(xiàn)固量彈性動態(tài)平衡,面壁智能三值量化技術(shù)在昇騰卡上驗證成功,芒果TV靈創(chuàng)平臺完成視頻模型昇騰適配。這些案例證明,華為云提供的不僅是技術(shù)組件,更是完整的工程化解決方案。當(dāng)傳統(tǒng)"堆卡"模式遭遇瓶頸,以Token為處理粒度、通智深度融合的"超級計算機"正在重塑行業(yè)格局。






