當人工智能(AI)開始具備自主“進化”能力,人類在技術(shù)發(fā)展中的角色或?qū)⒈恢匦露x。近日,Google DeepMind團隊在權(quán)威科學(xué)期刊《自然》上發(fā)表了一項突破性研究,提出了一種名為DiscoRL的全新方法,使智能體(Agent)能夠在多環(huán)境交互中自主發(fā)現(xiàn)強化學(xué)習(xí)(RL)規(guī)則,無需依賴人類設(shè)計的算法。實驗表明,該方法在Atari游戲基準測試中超越了MuZero等主流RL算法,并在未見過的環(huán)境中展現(xiàn)出高效穩(wěn)定的性能。
強化學(xué)習(xí)是AI實現(xiàn)自主決策的核心技術(shù)之一,但長期以來,如何讓智能體自主開發(fā)高效的RL算法一直是研究難點。傳統(tǒng)方法依賴人類專家設(shè)計算法,不僅耗時費力,且難以適應(yīng)復(fù)雜多變的環(huán)境。DeepMind團隊提出的DiscoRL通過多代智能體在不同環(huán)境中的交互經(jīng)驗,實現(xiàn)了RL規(guī)則的自主發(fā)現(xiàn)。其核心在于結(jié)合智能體優(yōu)化與元優(yōu)化:智能體通過更新策略和預(yù)測優(yōu)化自身參數(shù),元網(wǎng)絡(luò)則通過調(diào)整學(xué)習(xí)規(guī)則的目標,最大化智能體的累積獎勵。
具體而言,智能體的訓(xùn)練過程涉及兩類優(yōu)化:在智能體優(yōu)化階段,研究團隊采用Kullback–Leibler散度衡量策略與預(yù)測的差距,確保訓(xùn)練穩(wěn)定性。智能體會輸出策略(π)、觀測預(yù)測(y)、動作預(yù)測(z)等結(jié)果,元網(wǎng)絡(luò)為其生成學(xué)習(xí)目標,智能體據(jù)此更新自身參數(shù)。同時,模型引入輔助損失函數(shù),優(yōu)化動作價值與策略預(yù)測,提升學(xué)習(xí)效率。在元優(yōu)化階段,多個智能體在不同環(huán)境中獨立學(xué)習(xí),元網(wǎng)絡(luò)根據(jù)整體表現(xiàn)計算元梯度,調(diào)整自身參數(shù)以最大化累積回報。智能體參數(shù)定期重置,使學(xué)習(xí)規(guī)則能在有限時間內(nèi)快速提升性能。
為驗證DiscoRL的有效性,研究團隊以四分位數(shù)平均值(IQM)作為綜合性能指標,在Atari基準測試中進行了評估。基于57款A(yù)tari游戲訓(xùn)練的Disco57規(guī)則,在相同游戲中的IQM得分達13.86,超越了MuZero、Dreamer等現(xiàn)有算法,且在實際運行效率上顯著優(yōu)于MuZero。進一步測試顯示,Disco57在16個ProcGen二維游戲、Crafter基準測試中均表現(xiàn)出色,并在NetHack NeurIPS 2021挑戰(zhàn)賽中獲得第三名,且未使用任何領(lǐng)域特定知識。
研究還發(fā)現(xiàn),環(huán)境復(fù)雜性與多樣性對RL規(guī)則的泛化能力具有關(guān)鍵影響。基于Atari、ProcGen和DMLab-30三個基準(共103個環(huán)境)發(fā)現(xiàn)的Disco103規(guī)則,在Crafter基準上達到人類水平表現(xiàn),并在Sokoban任務(wù)中接近MuZero的最先進性能。這表明,參與訓(xùn)練的環(huán)境越復(fù)雜多樣,所發(fā)現(xiàn)的RL規(guī)則越強大,即使面對未見過的環(huán)境也能保持高效。
在效率與穩(wěn)定性方面,DiscoRL同樣表現(xiàn)突出。最優(yōu)版本的Disco57規(guī)則在每個Atari游戲約6億步內(nèi)被發(fā)現(xiàn),相當于在57個游戲中進行3輪實驗,遠低于傳統(tǒng)人工設(shè)計算法所需的實驗次數(shù)和人力投入。隨著訓(xùn)練環(huán)境數(shù)量增加,DiscoRL在未見過的ProcGen基準上的性能持續(xù)提升,顯示出強大的擴展性。
DeepMind團隊指出,未來高級AI的RL算法設(shè)計可能由機器主導(dǎo),通過高效擴展數(shù)據(jù)與計算能力實現(xiàn)自動化,無需人類干預(yù)。這一突破雖為學(xué)術(shù)領(lǐng)域帶來新潛力,但也引發(fā)了對技術(shù)社會影響的擔憂——當前社會尚未完全準備好應(yīng)對此類技術(shù)的廣泛應(yīng)用。












