人大提出WebBrain：NLP新任务，通过网络数据的挖掘生成真实文章

1,470次阅读

本文介绍了一种新的自然语言处理任务——通过从网络中挖掘支持证据来为查询生成简短的事实文章。在这个名为WebBrain的任务中，最终目标是为在维基百科上看不到的事实查询生成流畅、信息丰富和事实正确的短文（例如维基百科文章）。为了进行WebBrain的实验，我们通过提取英语维基百科文章和可爬取的维基百科参考文献构建了一个大规模数据集WebBrain-Raw。WebBrain-Raw比先前最大的对等数据集大十倍，这对研究社区有很大的好处。从WebBrain-Raw中，我们构建了两个任务特定数据集：WebBrain-R和WebBrain-G，分别用于训练域内检索器和生成器。此外，我们在WebBrain上经验性地分析了当前最先进的自然语言处理技术的表现，并引入了一个名为ReGen的新框架，通过改进证据检索和任务特定的预训练来增强生成的事实性。实验结果表明，ReGen在自动评估和人类评估中都优于所有基线方法。

总结：

这篇论文提出了一种名为WebBrain的方法，该方法通过利用大规模的网页文本来获取语料库的知识，并使用生成模型来生成语句，其中“概览模型”将语句转换为更具语义的表示形式，以便进行“信息抽取”和“指代消解”，并“委托模型”将语句转换为可重构的模板。生成的模板与真实模板比较，以确保其包含正确的事实信息。实验结果表明，与其他方法相比，WebBrain能够生成更准确和更多样的文章，并且具有可扩展性。

标题：WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus

作者：Hongjing Qian, Yutao Zhu, Zhicheng Dou, Haoqi Gu, Xinyu Zhang, Zheng Liu, Ruofei Lai, Zhao Cao, Jian-Yun Nie, Ji-Rong Wen

代码：https://github.com/qhjqhj00/WebBrain

人大提出WebBrain：NLP新任务，通过网络数据的挖掘生成真实文章

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

AI AR HTML RSS Web 技术

发表至：智源

2023年4月11日

大模型讲习班丨智源刘政&肖诗涛：链接大模型与外部知识，语义向量模型BGE及应用实践

悼念！商汤创始人汤晓鸥逝世，享年55岁

智源LIVE60期 WarAgent：使用多智能体理解人类历史和预防未来国际冲突

老黄深夜炸场，世界最强AI芯片H200震撼发布！性能飙升90%，Llama 2推理速度翻倍，大批超算中心来袭

B端产品经理（三）：如何做好项目POC

“头腾大战”落幕，是谁依旧头疼？

评论（没有评论）

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30