在2026 MWC上海展期間,華為與中國移動通信集團湖北有限公司共同宣布,雙方成功完成全國運營商首個AI推理加速解決方案的現網測試。這一突破性成果標志著AI技術在運營商領域的應用邁入新階段,為智能計算業務的高效部署提供了堅實的技術支撐。
此次測試依托華為OceanStor A800存儲系統與昇騰A3超節點架構,結合UCM(Unified Cache Manager,推理記憶數據管理)技術,在長序列AI推理場景中實現了Token吞吐率最高提升372%的顯著效果。測試團隊在湖北移動現網環境中部署了vLLM-Ascend框架,針對MiniMax M2.5、GLM-5.1等主流大模型,模擬了8K至190K長序列輸入場景,全面驗證了方案的實際性能。
在MiniMax M2.5模型測試中,啟用UCM技術后,首Token延遲(TTFT)優化幅度達26%至62%,單NPU卡Token輸出效率(TPS)顯著提升。具體數據顯示,64K序列長度下TPS提升58%,128K序列長度下提升78%,驗證了方案在不同長度序列下的穩定性與高效性。
GLM-5.1模型的測試結果更為突出,UCM技術帶來的加速效果顯著增強。TTFT優化幅度達51%至93%,TPS提升范圍為56%至372%。其中,64K序列長度下TPS提升313%,128K序列長度下最高提升372%,充分展現了方案在復雜長序列推理場景中的優勢。
華為相關負責人表示,測試數據表明,隨著上下文長度的增加,AI推理加速方案的優勢將進一步放大。該方案有效突破了長序列推理中的KV Cache容量瓶頸,為運營商在大模型推理、智能客服、內容生成、行業智能體等長序列AI業務場景中提供了高效解決方案,有助于提升現網智算資源的利用率,同時降低長上下文推理帶來的性能壓力。









