在人工智能基礎設施領域,一場關于網絡系統(tǒng)價值的重新認知正在發(fā)生。AI網絡初創(chuàng)公司Aria Networks憑借其"深度網絡"技術引發(fā)行業(yè)關注,這家由前Arista和Juniper高管創(chuàng)立的企業(yè),正試圖打破傳統(tǒng)網絡作為"被動管道"的定位,將網絡系統(tǒng)推向AI集群優(yōu)化的核心位置。
公司創(chuàng)始人Mansour Karam指出,當前AI發(fā)展已進入新階段,分布式推理、智能體系統(tǒng)等新興應用正在重塑集群架構。傳統(tǒng)網絡指標如延遲、吞吐量已無法滿足需求,運營商開始將目光轉向Token效率、模型算力利用率(MFU)等經濟性指標。"網絡是系統(tǒng)中杠桿效應最強的組件,它連接著GPU、存儲、緩存等所有關鍵部分。"Karam強調,當集群規(guī)模擴展到數(shù)萬張GPU時,網絡性能的微小提升都能帶來顯著的成本優(yōu)化。
Aria Networks的核心技術是一套名為"深度網絡"的解決方案,其架構覆蓋從物理層到應用層的完整堆棧。系統(tǒng)以微秒級精度采集ASIC芯片、光模塊、線纜等組件的數(shù)千個參數(shù),數(shù)據(jù)采集頻率比傳統(tǒng)系統(tǒng)提升三個數(shù)量級。這些數(shù)據(jù)經過多層處理:在硬件層實現(xiàn)納秒級響應,在集群層進行流量模式分析,最終通過大語言模型為運營商提供決策支持。"這就像給網絡裝上了大腦,"Karam比喻道,"它不僅能感知狀態(tài),還能理解業(yè)務邏輯并自主優(yōu)化。"
分布式推理場景的復雜性驗證了這套技術的價值。當單個查詢觸發(fā)數(shù)百個智能體協(xié)同工作時,網絡需要同時處理前端請求、后端計算、存儲訪問和KV緩存?zhèn)鬏數(shù)榷嘀亓髁俊ria的系統(tǒng)通過動態(tài)調整帶寬分配,有效解決了"嘈雜鄰居"問題——即單個復雜查詢導致其他用戶體驗下降的現(xiàn)象。測試數(shù)據(jù)顯示,其方案可使推理集群的Token處理成本降低18%-25%。
在硬件選擇上,Aria Networks采用博通Tomahawk 5/6芯片組構建交換機,操作系統(tǒng)基于開源SONiC框架。這種設計既保證了性能,又避免了廠商鎖定。"我們提供的是完整解決方案,但保持各層解耦。"Karam解釋道,這種架構使運營商能夠靈活替換組件,同時持續(xù)享受軟件優(yōu)化帶來的收益。公司平臺已實現(xiàn)鏈路故障自動修復等基礎功能,在光模塊降級等復雜場景中則采用人機協(xié)同模式,逐步建立運營商信任。
對于網絡技術路線之爭,Karam明確看好以太網的前景。"英偉達都在全力推進以太網方案,這已經說明問題。"他指出,以太網憑借30年的生態(tài)積累、運營經驗和規(guī)模效應,在橫向擴展網絡領域已形成不可逆轉的優(yōu)勢。特別是在AI集群需要兼顧延遲和吞吐量的場景中,以太網展現(xiàn)出比InfiniBand更強的適應性。
隨著AI工廠向更動態(tài)、更分布式的方向演進,網絡的價值正在被重新定義。Aria Networks的實踐表明,當集群規(guī)模突破臨界點后,對網絡系統(tǒng)的投資回報率可能超過單純增加GPU數(shù)量。這種認知轉變,或許將引發(fā)AI基礎設施領域的又一次范式轉移。








