DeepMind新突破：AI智能體自主發(fā)現(xiàn)RL算法，性能超主流算法-手機資訊-中文科技資訊

當人工智能（AI）開始具備自主“進化”能力，人類在技術(shù)發(fā)展中的角色或?qū)⒈恢匦露x。近日，Google DeepMind團隊在權(quán)威科學(xué)期刊《自然》上發(fā)表了一項突破性研究，提出了一種名為DiscoRL的全新方法，使智能體（Agent）能夠在多環(huán)境交互中自主發(fā)現(xiàn)強化學(xué)習(xí)（RL）規(guī)則，無需依賴人類設(shè)計的算法。實驗表明，該方法在Atari游戲基準測試中超越了MuZero等主流RL算法，并在未見過的環(huán)境中展現(xiàn)出高效穩(wěn)定的性能。

強化學(xué)習(xí)是AI實現(xiàn)自主決策的核心技術(shù)之一，但長期以來，如何讓智能體自主開發(fā)高效的RL算法一直是研究難點。傳統(tǒng)方法依賴人類專家設(shè)計算法，不僅耗時費力，且難以適應(yīng)復(fù)雜多變的環(huán)境。DeepMind團隊提出的DiscoRL通過多代智能體在不同環(huán)境中的交互經(jīng)驗，實現(xiàn)了RL規(guī)則的自主發(fā)現(xiàn)。其核心在于結(jié)合智能體優(yōu)化與元優(yōu)化：智能體通過更新策略和預(yù)測優(yōu)化自身參數(shù)，元網(wǎng)絡(luò)則通過調(diào)整學(xué)習(xí)規(guī)則的目標，最大化智能體的累積獎勵。

具體而言，智能體的訓(xùn)練過程涉及兩類優(yōu)化：在智能體優(yōu)化階段，研究團隊采用Kullback–Leibler散度衡量策略與預(yù)測的差距，確保訓(xùn)練穩(wěn)定性。智能體會輸出策略（π）、觀測預(yù)測（y）、動作預(yù)測（z）等結(jié)果，元網(wǎng)絡(luò)為其生成學(xué)習(xí)目標，智能體據(jù)此更新自身參數(shù)。同時，模型引入輔助損失函數(shù)，優(yōu)化動作價值與策略預(yù)測，提升學(xué)習(xí)效率。在元優(yōu)化階段，多個智能體在不同環(huán)境中獨立學(xué)習(xí)，元網(wǎng)絡(luò)根據(jù)整體表現(xiàn)計算元梯度，調(diào)整自身參數(shù)以最大化累積回報。智能體參數(shù)定期重置，使學(xué)習(xí)規(guī)則能在有限時間內(nèi)快速提升性能。

為驗證DiscoRL的有效性，研究團隊以四分位數(shù)平均值（IQM）作為綜合性能指標，在Atari基準測試中進行了評估。基于57款A(yù)tari游戲訓(xùn)練的Disco57規(guī)則，在相同游戲中的IQM得分達13.86，超越了MuZero、Dreamer等現(xiàn)有算法，且在實際運行效率上顯著優(yōu)于MuZero。進一步測試顯示，Disco57在16個ProcGen二維游戲、Crafter基準測試中均表現(xiàn)出色，并在NetHack NeurIPS 2021挑戰(zhàn)賽中獲得第三名，且未使用任何領(lǐng)域特定知識。

研究還發(fā)現(xiàn)，環(huán)境復(fù)雜性與多樣性對RL規(guī)則的泛化能力具有關(guān)鍵影響。基于Atari、ProcGen和DMLab-30三個基準（共103個環(huán)境）發(fā)現(xiàn)的Disco103規(guī)則，在Crafter基準上達到人類水平表現(xiàn)，并在Sokoban任務(wù)中接近MuZero的最先進性能。這表明，參與訓(xùn)練的環(huán)境越復(fù)雜多樣，所發(fā)現(xiàn)的RL規(guī)則越強大，即使面對未見過的環(huán)境也能保持高效。

在效率與穩(wěn)定性方面，DiscoRL同樣表現(xiàn)突出。最優(yōu)版本的Disco57規(guī)則在每個Atari游戲約6億步內(nèi)被發(fā)現(xiàn)，相當于在57個游戲中進行3輪實驗，遠低于傳統(tǒng)人工設(shè)計算法所需的實驗次數(shù)和人力投入。隨著訓(xùn)練環(huán)境數(shù)量增加，DiscoRL在未見過的ProcGen基準上的性能持續(xù)提升，顯示出強大的擴展性。

DeepMind團隊指出，未來高級AI的RL算法設(shè)計可能由機器主導(dǎo)，通過高效擴展數(shù)據(jù)與計算能力實現(xiàn)自動化，無需人類干預(yù)。這一突破雖為學(xué)術(shù)領(lǐng)域帶來新潛力，但也引發(fā)了對技術(shù)社會影響的擔憂——當前社會尚未完全準備好應(yīng)對此類技術(shù)的廣泛應(yīng)用。

免费xxx8888|秋霞成人午夜鲁丝一区二区三区|久久视频这里只精品10|歪漫漫画网页入口|久久91超碰色中文字幕总站|和老师C了一节课|月夜直播APP 下载

DeepMind新突破：AI智能體自主發(fā)現(xiàn)RL算法，性能超主流算法