免费xxx8888|秋霞成人午夜鲁丝一区二区三区|久久视频这里只精品10|歪漫漫画网页入口|久久91超碰色中文字幕总站|和老师C了一节课|月夜直播APP 下载

  • 中文科技資訊 CWX中文科技資訊官方網(wǎng)站!

DeepSeek發(fā)布新論文提出“條件記憶”,或?yàn)閂4大模型提供關(guān)鍵技術(shù)支撐

   時(shí)間:2026-01-13 14:40 來源:互聯(lián)網(wǎng)作者:楊凌霄

DeepSeek團(tuán)隊(duì)在人工智能領(lǐng)域再掀波瀾,其最新研究論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》正式發(fā)布,提出了一種名為"條件記憶"的創(chuàng)新技術(shù)框架。這項(xiàng)突破性成果旨在解決大語(yǔ)言模型在知識(shí)檢索與動(dòng)態(tài)推理之間的效率矛盾,通過引入稀疏查找機(jī)制優(yōu)化模型架構(gòu),為下一代稀疏模型發(fā)展開辟新路徑。

研究團(tuán)隊(duì)由DeepSeek核心成員與北京大學(xué)王選所趙東巖、張輝帥團(tuán)隊(duì)聯(lián)合組成,針對(duì)現(xiàn)有混合專家模型(MoE)的局限性展開攻關(guān)。傳統(tǒng)Transformer架構(gòu)在處理命名實(shí)體、公式化表達(dá)等靜態(tài)知識(shí)時(shí),需通過多層注意力機(jī)制重建檢索路徑,造成計(jì)算資源的浪費(fèi)。新提出的Engram模塊通過稀疏查找操作直接獲取靜態(tài)嵌入,與MoE的動(dòng)態(tài)參數(shù)激活形成互補(bǔ),形成"動(dòng)態(tài)計(jì)算+靜態(tài)檢索"的雙軌機(jī)制。

實(shí)驗(yàn)數(shù)據(jù)顯示,在固定參數(shù)量和計(jì)算量的條件下,將20%-25%的稀疏參數(shù)分配給Engram模塊可獲得最優(yōu)性能。以100億參數(shù)規(guī)模模型為例,驗(yàn)證損失值從1.7248降至1.7109。基于該發(fā)現(xiàn)訓(xùn)練的Engram-27B模型,通過調(diào)整專家數(shù)量與記憶模塊配比,在知識(shí)推理、代碼生成等任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì):MMLU基準(zhǔn)測(cè)試提升3.0分,Humaneval代碼生成任務(wù)提升3.0分,GSM8K數(shù)學(xué)推理提升2.2分。

這項(xiàng)技術(shù)突破的核心在于"U形擴(kuò)展定律"的發(fā)現(xiàn)。研究證實(shí),當(dāng)Engram內(nèi)存占比達(dá)到總稀疏參數(shù)的74.3%時(shí),模型在保持計(jì)算效率的同時(shí),能有效釋放注意力機(jī)制的處理能力。機(jī)制分析表明,Engram模塊通過將靜態(tài)知識(shí)檢索前移至早期網(wǎng)絡(luò)層,使后續(xù)注意力層可專注于全局上下文理解,特別在長(zhǎng)文本處理場(chǎng)景中表現(xiàn)出色。

值得關(guān)注的是,該研究明確將條件記憶定位為下一代稀疏模型的基礎(chǔ)組件。結(jié)合近期外媒報(bào)道,DeepSeek計(jì)劃在春節(jié)前后發(fā)布的新旗艦?zāi)P蚔4,極有可能集成這項(xiàng)創(chuàng)新技術(shù)。知情人士透露,內(nèi)部測(cè)試顯示V4在代碼生成領(lǐng)域已超越Claude、GPT等主流模型,其強(qiáng)勁表現(xiàn)引發(fā)行業(yè)高度期待。

自2024年發(fā)布R1模型引發(fā)全球關(guān)注以來,DeepSeek持續(xù)保持技術(shù)迭代速度。2025年下半年,該團(tuán)隊(duì)平均每月都有重要成果發(fā)布:12月開源的V3.2系列模型達(dá)到GPT-5水平;11月發(fā)布的Math-V2成為首個(gè)通過國(guó)際奧數(shù)金牌測(cè)試的開源模型;10月推出的OCR技術(shù)通過光學(xué)壓縮將長(zhǎng)文本處理成本降低60%;9月更以百萬(wàn)token輸入價(jià)格0.2元的策略震動(dòng)行業(yè)。

此次條件記憶技術(shù)的突破,標(biāo)志著大語(yǔ)言模型進(jìn)入"動(dòng)態(tài)智能+靜態(tài)知識(shí)"的融合發(fā)展階段。通過解耦存儲(chǔ)與計(jì)算,Engram架構(gòu)不僅提升了知識(shí)檢索效率,更重構(gòu)了模型內(nèi)部的注意力分配機(jī)制。這種設(shè)計(jì)范式為處理多模態(tài)數(shù)據(jù)、構(gòu)建通用人工智能提供了新的技術(shù)路徑,或?qū)⒅匦露xAI模型的能力邊界。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新