一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

521次阅读
没有评论

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

能够动态调制大模型的超网络架构

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

告别繁琐微调,一句话就能生成LoRA?!

由Transformer作者之一Llion Jones联合创立的明星AI公司SakanaAI,近期推出Text-to-LoRA (T2L),彻底简化了模型适配流程:

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

现在,微调大模型时动辄数周的数据集准备、反复调整超参数的复杂流程,可以省了。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

使用T2L生成的LoRA在参数压缩率上可达80%却仅降1.2%准确率,零样本场景下更以78.3%的平均准确率超越现有SOTA方法。

可以说,“一句话定制模型”的时代正在开启,非技术用户不再需要学习复杂的微调知识,直接用通俗易懂的自然语言就可以完成相应工作。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

有网友甚至把它比喻为LLM的一个只有文字描述的私人教练,将会彻底改变游戏规则。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

目前该论文已被ICML2025收录。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

详细内容如下:

从文本到LoRA

LLM在执行特定任务前,都需要先进行适配的LoRA微调,为每个任务单独训练低秩矩阵,往往耗费大量计算资源和时间。

研究团队从人类视觉系统中汲取灵感,即在有限的感官线索下可以实现环境快速适应,并由此构建了能够动态调制大模型的超网络架构Text-to-LoRA(T2L)

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

T2L包含3种架构变体,它们在输出空间和参数规模上各有不同,具体为:

  • T2L-L:

为每个目标模块(如注意力层、MLP 层)和网络层生成完整的 LoRA 权重矩阵。

该架构的参数规模最大,但能灵活适配不同层的特性,适用于需要精细控制每层适配的场景。

  • T2L-M:

按模块类型(而非具体层)共享输出空间。对于同一类型的模块,超网络仅生成一组共享的LoRA矩阵,并应用于该类型下的所有层。

该架构通过参数共享减少了模型规模,同时保留了模块类型级别的适配能力,在参数效率和性能之间取得平衡。

  • T2L-S:

为整个模型生成统一的LoRA适配器,不区分模块类型和层索引。

该架构参数规模最小,适用于计算资源有限或任务需求较通用的场景,通过全局适配实现快速部署。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

为了训练T2L模型,可以采用两种训练模式,分别是基于LoRA的重建和跨多个任务的监督微调 (SFT)

LoRA重建的核心思想是让T2L从任务的文本描述中,生成与真实LoRA适配器效果相近的参数,从而最大限度地减少生成适配器和目标适配器之间的重建损失。

这种方法避免了传统方法中对大量任务数据的依赖,转而利用已有的LoRA适配器和文本描述构建监督信号,压缩了现有的LoRAs,但难以进行零镜头泛化。

监督微调则是使用任务描述,在任务数据集上直接端到端训练T2L。这改进了对未知任务的泛化,并能够根据文本描述生成具有可引导行为的适配器。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

针对T2L的适配器压缩性能,团队进行了实验验证。

通过设置9个不同的NLP任务,将一一对应的LoRA适配器参数压缩为文本描述的嵌入向量,并通过3种T2L变体分别重建LoRA参数。

实验发现,重建LoRA与原始LoRA相比,参数规模从15.8M下降为3.2M,压缩率达80%,但在任务的平均准确率上仅下降了1.2%,证明了压缩过程中的知识保留能力。

其中,T2L-L在压缩后性能最接近原始LoRA,而T2L-S压缩率最高。

T2L能够实现高效的参数压缩,可以极大地减少存储需求,帮助LLM在资源受限环境中进行部署。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

团队还进一步验证了T2L在零样本场景下生成LoRA适配器的能力。

构建了12个全新的NLP任务并各自提供自然语言描述,使用T2L生成的对应LoRA适配器直接应用于基础模型,测试其在标注数据集上的性能。

结果表明,T2L的平均准确率达到了78.3%,显著高于多任务LoRA的65.1%,和目前最先进的零样本LoRA路由方法Arrow Routing的72.4%。

其中T2L-L因为能够为不同层定制参数,在复杂任务中表现最佳,而T2L-S在简单任务上效率更高,参数规模仅为T2L-L的五分之一,但性能仅下降3.2%

源于超网络对 “文本语义 – 参数空间” 映射的显式学习,T2L实现了真正的文本驱动,无需任务数据即可通过自然语言描述生成有效LoRA,这为模型快速适应长尾任务提供了可能。

Transformer作者创业公司

背后的公司Sakana AI,由前谷歌研究人员Llion Jones于2023年7月共同创立。

Llion Jones是著名论文《Attention Is All You Need》的8位核心作者之一,论文中首次提出了Transformer架构,为现代LLM架构奠定了基石。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

在谷歌工作期间,他还深度参与NLP、模型架构创新等众多核心AI项目,例如Prot Trans、Tensor2Tensor等。

而创办Sakana AI后,他也始终致力于探索超越和补充当前Transformer范式的新路径,例如他们在去年底推出了用于Transformer的新型神经记忆系统NAMM,今年1月提出的Transformer²可以针对各种任务动态调整权重。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

目前公司专注利用自然启发的方法(如进化计算和集体智能)来开发基础模型,例如在今年5月他们根据达尔文进化论提出了达尔文哥德尔机 (DGM),可以让AI通过读取和修改自身代码来提升编码性能。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

而本篇论文则由Rujikorn Charakorn、Edoardo Cetin、Yujin Tang、Robert T. Lange共同完成。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

Rujikorn Charakorn曾在朱拉隆功大学就读,目前在VISTEC研究所攻读博士学位,主要研究方向是深度强化学习、多智能体学习和元学习。

Edoardo Cetin于2023年获得伦敦国王学院的博士学位,目前是Sakana AI的研究科学家,此前还曾在推特的Cortex团队、丰田和高盛实习。

而Yujin Tang则博士毕业于东京大学,曾在谷歌工作长达5年,后来于2024年加入Sakana AI。

一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调

Robert T. Lange是Sakana AI的研究科学家和创始成员之一,致力于用基础模型来增强和自动化科学发现过程。

他还主导参与了首个独立生成学术论文的“AI科学家”项目,还曾在社区引起广泛热议。

论文链接:https://arxiv.org/abs/2506.06105
代码链接:https://github.com/SakanaAI/Text-to-Lora

参考链接:
[1]https://x.com/RobertTLange/status/1933074366603919638
[2]https://huggingface.co/SakanaAI/text-to-lora/tree/main
[3]https://x.com/tan51616/status/1932987022907670591
[4]https://x.com/SakanaAILabs/status/1932972420522230214

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...