在人工智能基礎(chǔ)設(shè)施建設(shè)的賽道上,一場(chǎng)圍繞網(wǎng)絡(luò)效率的變革正在悄然展開(kāi)。當(dāng)全球AI企業(yè)還在比拼GPU數(shù)量時(shí),中美兩國(guó)科研團(tuán)隊(duì)已將目光投向更深層的系統(tǒng)優(yōu)化——通過(guò)重構(gòu)網(wǎng)絡(luò)架構(gòu)提升集群整體效能。這一轉(zhuǎn)變標(biāo)志著AI基建從"堆卡競(jìng)賽"進(jìn)入"效率時(shí)代",而中國(guó)科研團(tuán)隊(duì)提出的ZCube架構(gòu)與OpenAI的MRC協(xié)議,成為這一轉(zhuǎn)型的標(biāo)志性成果。
傳統(tǒng)AI集群采用分層組網(wǎng)方式,數(shù)據(jù)傳輸需經(jīng)過(guò)多層交換機(jī)中轉(zhuǎn),這種設(shè)計(jì)在處理不均勻流量時(shí)極易形成局部擁塞。以大模型推理場(chǎng)景為例,負(fù)責(zé)理解問(wèn)題的GPU與生成回答的GPU分屬不同節(jié)點(diǎn),中間需要頻繁傳輸KV Cache數(shù)據(jù)。這種非對(duì)稱傳輸模式導(dǎo)致部分交換機(jī)長(zhǎng)期過(guò)載,而其他鏈路利用率不足,形成"卡等數(shù)據(jù)"的尷尬局面。清華大學(xué)團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在保持GPU配置不變的情況下,將網(wǎng)絡(luò)帶寬從100Gbps提升至200Gbps,可使推理吞吐量提升19%,首Token時(shí)延降低22%,充分暴露了網(wǎng)絡(luò)瓶頸對(duì)算力釋放的制約。
中國(guó)科研團(tuán)隊(duì)提出的ZCube架構(gòu)通過(guò)"扁平化"設(shè)計(jì)破解了這一難題。該架構(gòu)取消傳統(tǒng)分層結(jié)構(gòu),將底層交換機(jī)分為兩組并實(shí)現(xiàn)完全互聯(lián),每張GPU同時(shí)連接兩組交換機(jī)。這種設(shè)計(jì)使任意兩張GPU之間只需經(jīng)過(guò)兩臺(tái)交換機(jī)即可通信,路徑長(zhǎng)度縮短50%以上。在千卡級(jí)GLM-5.1推理集群的實(shí)測(cè)中,ZCube使GPU平均推理吞吐提升15%,首Token時(shí)延的99分位值降低40.6%,同時(shí)將交換機(jī)與光模塊成本削減三分之一。按萬(wàn)卡規(guī)模估算,僅硬件成本就可節(jié)省2.1億至6.4億元。
與ZCube側(cè)重架構(gòu)創(chuàng)新不同,OpenAI推出的MRC協(xié)議選擇在現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行協(xié)議層優(yōu)化。該協(xié)議針對(duì)訓(xùn)練場(chǎng)景中同步預(yù)訓(xùn)練的特殊需求,通過(guò)多路徑并發(fā)傳輸和智能路由技術(shù),實(shí)現(xiàn)微秒級(jí)故障繞行。在由英偉達(dá)GB200芯片組成的超算集群中,MRC已成功支撐多個(gè)前沿模型的訓(xùn)練任務(wù),并通過(guò)Open Compute Project向全行業(yè)開(kāi)放技術(shù)規(guī)范。這兩種技術(shù)路線雖路徑不同,但都指向同一個(gè)結(jié)論:當(dāng)GPU數(shù)量達(dá)到臨界點(diǎn)后,網(wǎng)絡(luò)效率將成為決定集群性能的關(guān)鍵因素。
這場(chǎng)效率革命的背后,折射出全球AI產(chǎn)業(yè)面臨的共同挑戰(zhàn)。在芯片供應(yīng)受限的背景下,中國(guó)AI企業(yè)通過(guò)"國(guó)產(chǎn)芯片+架構(gòu)優(yōu)化"的組合策略,探索出獨(dú)特的突圍路徑。ZCube架構(gòu)不依賴特定硬件生態(tài)的特性,使其能兼容華為昇騰、寒武紀(jì)、摩爾線程等多家國(guó)產(chǎn)芯片平臺(tái)。這種技術(shù)路線選擇,既是對(duì)現(xiàn)實(shí)約束的應(yīng)對(duì),也蘊(yùn)含著產(chǎn)業(yè)升級(jí)的深層邏輯——當(dāng)算力增長(zhǎng)不再單純依賴芯片迭代時(shí),系統(tǒng)級(jí)優(yōu)化將成為新的競(jìng)爭(zhēng)焦點(diǎn)。
從Clos架構(gòu)到ZCube,從單路徑傳輸?shù)組RC協(xié)議,AI集群的網(wǎng)絡(luò)設(shè)計(jì)正在經(jīng)歷根本性變革。這些創(chuàng)新不僅解決了當(dāng)下的效率瓶頸,更為未來(lái)十萬(wàn)卡級(jí)超大規(guī)模集群的構(gòu)建奠定了技術(shù)基礎(chǔ)。當(dāng)全球AI基建進(jìn)入深水區(qū),系統(tǒng)級(jí)優(yōu)化能力正在重新定義產(chǎn)業(yè)競(jìng)爭(zhēng)規(guī)則,而中國(guó)科研團(tuán)隊(duì)在這場(chǎng)變革中展現(xiàn)出的工程化能力,已成為不可忽視的技術(shù)力量。






