剑桥大学｜LongForm：利用语料库提取优化长文本生成的指令调控

1,545次阅读

LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction

Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze

Abdullatif Köksal剑桥学生；Anna Korhonen是剑桥大学自然语言处理教授

指令调整使语言模型能够更有效地泛化，并更好地遵循用户的意图。然而，获得指令数据可能是昂贵的和具有挑战性的。之前的工作采用的方法包括昂贵的人类注释、存在对齐问题的众包数据集，或通过LLMs生成噪声实例。我们介绍了LongForm数据集，该数据集是通过利用带有增强指令的英语语料库实例创建的。我们从现有的语料库（如C4和维基百科）中选择了一组不同的人写的文件，并通过LLMs为给定的文件生成指令。这种方法提供了一个更便宜、更干净的指令调整数据集，而且适合于长文本的生成。

我们在我们的数据集上对T5、OPT和LLaMA模型进行了微调，并表明即使是较小的LongForm模型也具有良好的文本生成的泛化能力。我们的模型在各种任务上的表现优于10倍大的语言模型，如故事/菜谱生成和长文本问题回答。此外，LongForm模型在很大程度上超过了先前的指令调优模型，如FLAN-T5和Alpaca。最后，我们的模型能够有效地遵循和回答多语言指令；我们在新闻生成中证明了这一点。

论文地址：https://arxiv.org/abs/2304.08460

数据和模型：https://github.com/akoksal/LongForm

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

发表至：智源

2023年4月19日

利用人工神经网络预测核反应堆核心参数的演化。

央广经济之声频道《天下财经》专访：政府工作报告重要提法系列解读 | 梁正解读“人工智能+”行动

LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

ICCV2023奖项出炉！斯坦福ControlNet和多伦多大学分别获得最佳论文！Segment Anything最佳提名

SwiftUI学习笔记04 – 如何调试SwiftUI?

理想 L7 曙光红静态体验车已抵达部分零售中心

评论（没有评论）

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30