超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

486次阅读
没有评论

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

多种Qwen/Llama模型更懂医学、法律和金融了

一个小解码器让所有模型当上领域专家!华人团队新研究正在引起热议。

他们提出了一种比目前业界主流采用的DAPT(领域自适应预训练)和RAG(检索增强生成)更方便、且成本更低的方法。

  • 相比DAPT,不需要昂贵的全参数训练;
  • 相比RAG,不依赖昂贵的检索。

而且实验结果显示,其方法能够显著提升Qwen和Llama等模型在三个专门领域(生物医学、金融、法律)的效果,并使困惑度平均降低6.17分(相当于预测下一个词的正确率提升了约20%~25%)

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

好好好,不卖关子了,原来这是来自上海交大、上海AI Lab等机构的研究人员提出的一个名为“Memory Decoder”预训练记忆模块——

通过使用一个小型的前置解码器(former decoder),能够学习模仿外部非参数检索器的行为。

翻译成大白话就是,Memory Decoder就像给大模型加了一个“领域知识插件”,既高效又灵活,为大模型适应特定领域提供了一种新方法。

划重点,即插即用、无需改变原始模型参数、可以和任何共享相同分词器的大语言模型集成

对于这一新研究,有网友激动表示,这改变了游戏规则。

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

下面详细来看论文内容。

一种即插即用的预训练记忆模块

随着大模型在通用任务中适应良好,业界目前均在尝试用不同方法让其更适配特定领域。

论文也是瞄准了这一目标,并提出了一种即插即用的预训练记忆模块——Memory Decoder

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

和DAPT、RAG等主流方式相比,其优势相对明显:

(1)DAPT(领域自适应预训练)需要对模型全参数进行训练(即把模型整个重新训练一遍),成本高昂,且容易出现“灾难性遗忘”(即忘记之前学到的通用知识)

(2)RAG(检索增强生成)则因需要进行耗时的近邻搜索,且处理更长的上下文,通常会导致推理速度变慢(延迟增加)

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

而Memory Decoder本质上是一个小型Transformer解码器(作为“记忆模块”),其核心思路为:

  • 在预训练阶段,让它学习模仿一个外部检索器的行为,把特定领域的知识压缩到自己的参数里;
  • 在推理阶段,把它和大模型一起使用,通过结果融合提升预测质量。
超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

举个例子,当用户问“大众汽车的CEO是谁?”时,大模型通常可能基于通用语料,给出一个模糊的分布(如“马斯克30%,布鲁默40%,库克20%”),但未必足够准确。

有了Memory Decoder后,由于已经在预训练中学会了模仿检索器的行为,会更倾向输出“布鲁默”的分布(如“布鲁默80%,马斯克10%,库克5%”)

最终,模型会将二者的结果进行插值融合,从而得到更可靠的答案。

这样一来,Memory Decoder就像给大模型配了一个“领域小助手”,既能避免重新训练的高成本,也能免去实时搜索资料库带来的延迟问题,真正实现了低成本、高效率、即插即用的领域增强。

多种Qwen/Llama模型更懂医学、法律和金融了

为了验证Memory Decoder的有效性,团队选用了多种Qwen(从0.5B到72B参数)和Llama系列(从1B到70B参数)的预训练语言模型,来测试其在生物医学、金融、法律这三个专业领域的效果。

之所以选这三个,主要是因为它们对模型的专业知识储备要求高,而且传统适配方法经常“铩羽而归”。

具体衡量指标则为Perplexity(困惑度)——数值越低表示模型对该领域文本的理解和预测越准确

最终实验结果如下:

可以看到, 不管原模型参数量多大,Memory Decoder均能起到领域增强作用,而且比传统LoRA方法更有效。

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

更关键的是,在Qwen2.5上训练的Memory Decoder,只需极少的额外训练(仅为原始训练成本的10%),就能适配Llama系列模型——

不仅显著降低了所有Llama变体模型的困惑度,而且在生物医学和金融领域的表现持续优于LoRA方法。

超越RAG和DAPT!华人团队:一个小解码器让所有模型当上领域专家

整体而言,在生物医学、金融、法律三个领域中,使用Memory Decoder的多种Qwen和Llama模型,平均降低了6.17分困惑度,初步验证了Memory Decoder的有效性。

不过作者们也在论文最后提到了其局限性:

  • 训练阶段存在计算开销

训练Memory Decoder的时候,得从一个大数据库里搜很多相关信息来当“学习材料”,这个搜索过程会消耗不少计算资源。虽然每个领域只需要这么干一次,之后能给各种模型用,但训练阶段这一步依旧无法免去。

  • 跨分词器适配仍需部分参数更新

要想把在A模型(如Qwen2.5)上训练好的Memory Decoder用到B模型(如Llama)上,仍需要对嵌入空间进行一些参数更新以实现对齐。

虽然跨分词器适配相比从头训练需要的训练量极少,但无法实现真正意义上的零样本跨架构迁移。

但是有一说一,Memory Decoder最大的意义或许在于,它提出了一种新的范式——

基于特别预训练的记忆组件来进行领域自适应。

这一记忆架构可以即插即用地集成到目标领域的多种模型中,并持续提升性能。

论文:
https://www.arxiv.org/abs/2508.09874

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...