在近日舉辦的第十屆A2M峰會(huì)(北京站)上,作業(yè)幫基礎(chǔ)架構(gòu)研發(fā)工程師張浩然以《AI時(shí)代資源效率困境和破局之道》為主題發(fā)表演講,系統(tǒng)闡述了AI基礎(chǔ)設(shè)施領(lǐng)域面臨的"規(guī)模擴(kuò)張與效率停滯"矛盾,并首次公開(kāi)了作業(yè)幫自研的三大技術(shù)解決方案。這場(chǎng)聚焦AI工程化實(shí)踐的技術(shù)盛會(huì)吸引了數(shù)百名行業(yè)專(zhuān)家參與,共同探討算力效率提升的可行路徑。
張浩然指出,當(dāng)前AI行業(yè)存在顯著悖論:過(guò)去五年訓(xùn)練算力每六個(gè)月增長(zhǎng)一倍,但全球智算中心GPU平均利用率不足30%。這種"投入十倍硬件,產(chǎn)出僅兩三倍算力"的現(xiàn)象,在數(shù)據(jù)中心電力消耗年均增長(zhǎng)15%的背景下愈發(fā)突出。作業(yè)幫作為教育科技領(lǐng)域的代表企業(yè),其算力網(wǎng)絡(luò)覆蓋全國(guó)多云多地域,面臨著GPU型號(hào)不統(tǒng)一、資源動(dòng)態(tài)增減、集群通信困難等復(fù)雜挑戰(zhàn)。
針對(duì)跨地域算力調(diào)度難題,作業(yè)幫創(chuàng)新研發(fā)了統(tǒng)一流量調(diào)度系統(tǒng)。該系統(tǒng)通過(guò)多云容災(zāi)架構(gòu)實(shí)現(xiàn)鏡像快速分發(fā),并開(kāi)發(fā)智能流量分發(fā)算法:在無(wú)專(zhuān)線地區(qū)采用公網(wǎng)加密通信,有專(zhuān)線地區(qū)實(shí)現(xiàn)公網(wǎng)專(zhuān)線自動(dòng)切換。這套系統(tǒng)確保了單地域資源波動(dòng)時(shí),服務(wù)可用性仍能維持在99.99%以上,徹底打破了地域限制對(duì)業(yè)務(wù)擴(kuò)容的束縛。
在單集群優(yōu)化方面,作業(yè)幫構(gòu)建了"調(diào)度-回收-整理"三位一體的治理體系。自主研發(fā)的GPU調(diào)度器采用差異化堆疊策略:整卡模型優(yōu)先集中部署,顯存模型按維度極致壓縮;改造K8s回收邏輯,優(yōu)先選擇縮容后能釋放最多卡片的節(jié)點(diǎn);通過(guò)資源預(yù)檢查機(jī)制,在業(yè)務(wù)低峰期自動(dòng)遷移碎片化資源。這些措施使集群內(nèi)存資源利用率得到顯著提升。
更突破性的創(chuàng)新在于離在線混合部署方案。作業(yè)幫摒棄傳統(tǒng)固定時(shí)間窗口模式,開(kāi)發(fā)出動(dòng)態(tài)填充機(jī)制:當(dāng)檢測(cè)到空閑整機(jī)時(shí),立即啟動(dòng)離線訓(xùn)練任務(wù);在線服務(wù)預(yù)調(diào)度失敗時(shí),自動(dòng)遷移任務(wù)量最少的離線作業(yè)。這種彈性部署策略在保障在線服務(wù)SLA的同時(shí),使可用算力增加約20%。
經(jīng)過(guò)系統(tǒng)性優(yōu)化,作業(yè)幫GPU平均利用率穩(wěn)定在90%以上,相關(guān)技術(shù)成果已形成可復(fù)制的工程化方案。張浩然強(qiáng)調(diào):"在AI競(jìng)爭(zhēng)進(jìn)入深水區(qū)的當(dāng)下,規(guī)模優(yōu)勢(shì)只是基礎(chǔ)門(mén)檻,資源利用效率才是決定企業(yè)生死的關(guān)鍵指標(biāo)。"作為國(guó)內(nèi)首個(gè)在復(fù)雜異構(gòu)環(huán)境中實(shí)現(xiàn)90%+利用率的教育科技公司,作業(yè)幫正通過(guò)技術(shù)開(kāi)放推動(dòng)整個(gè)行業(yè)降本增效。
據(jù)悉,本屆A2M峰會(huì)于中關(guān)村國(guó)家自主創(chuàng)新示范區(qū)會(huì)議中心舉行,聚焦AI工程化落地的實(shí)際挑戰(zhàn)。來(lái)自互聯(lián)網(wǎng)、制造業(yè)等領(lǐng)域的參會(huì)者表示,作業(yè)幫的實(shí)踐經(jīng)驗(yàn)為多云環(huán)境下的算力優(yōu)化提供了重要參考,其技術(shù)方案對(duì)資源分散型企業(yè)的數(shù)字化轉(zhuǎn)型具有直接借鑒價(jià)值。






