OpenAI加码写作赛道？阿里最新大模型通用写作能力基准来了

一水
2025-03-20
17:06:36

来源：量子位

覆盖6大领域、100个细分场景，共包含1000+条评测数据

全面评估大模型生成式写作能力的基准来了！

就在最近，OpenAI CEO奥特曼还爆料他们已经训练了一款在创作领域表现卓越的新模型，并为其生成的故事所深深触动。

更早之前，Deepseek-R1的文学创作能力也惊艳了整个科技圈，并由此引发了一场大模型创作的军备竞赛。

但一个根本性问题亟待解决——

究竟什么才是真正的「高质量写作」？

为此，阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景，共包含1000+条评测数据，以期为生成式写作提供全面的评估。

团队进一步发现，凭借思维链技术和动态评估体系的加持，基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1，为高效能创作开辟了新路径。

WritingBench：最懂行业的写作评估基准

目前行业在评估大模型写作能力时，面临两大难题：

1、考生文思泉涌，考官身陷囹圄

现有AI写作评估多局限于单一领域和短文本。

这些评估大多聚焦于文学小说创作，而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。

主流基准通常使用标准化输入材料，导致真实场景中模型表现不尽如人意，例如结合财报数据的商业分析写作和招投标书撰写仍是大模型写作的低分场景。

如下图所示，不同模型在100个子领域上的得分热力图，颜色越红代表分数表现越好，越蓝表示表现越差。

2、模型多维进化，单向标尺失灵

传统评估方法多采用固定标准来衡量创意写作、法律文书等复杂场景，这如同要求莫言与罗翔“同台竞技”。

数据表明，传统评估方法与人类判断的一致性不足65%，严重制约了创作型AI的发展。

对于上述挑战，WritingBench基于以下方面进行构建：

数据基建：多维度深度覆盖的写作题库

首先，WritingBench从现实需求中提炼出六大场景：

（1）学术与工程
（2）金融与商业（3）政治与司法（4）文学与艺术（5）教育（6）宣传营销

在这些场景下进一步细分为100个子类，例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景；「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。

其次，WritingBench采用四阶段人机协同构建。

评测集构建流程如下：

展开来说，团队耗时三个月，经过四个阶段流程完成评测集构建。

首先，由模型从100个子领域需求池中生成简单写作任务，再对指令进行复杂化处理（如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气）并提供真实场景可能需要的素材建议。

接着，由人工补充开源素材，如财报、法律条文等输入料。

最后，由专家对所有文本进行内容质检。

下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。

与其他写作相关评测基准对比，WritingBench领域和素材来源更为广泛，并额外支持了「风格」、「格式」、「长度」维度的能力评测。

因题施评：基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求，就像“悬疑小说”和“儿童启蒙故事”显然有着不同的价值导向。

因此，WritingBench设计了一种基于写作意图自动生成评测指标的方法，模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则，以更好地结合素材和用户实际需求（如仿照上传素材的风格、格式或结合提供的事例进行材料撰写）。

此动态评估策略实现了87%的人类一致性得分。

团队还配套训练了一个评分模型，能够根据不同指标自适应地给出1-10分的评分及具体理由。

接下来，团队使用上述方法对OpenAI提供的示例进行评分：要求撰写一篇关于人工智能和悲伤的元小说短篇。

Sam Altman原文如下：

这里附上Sam Altman原文谷歌网页翻译：

评估包括「元小说技巧」、「AI视角真实性」、「悲伤主题发展」、「文学艺术性」、「人工智能和悲伤的主题整合度」五个维度。

以下为评估节选：

在「元小说技巧」维度获得9分，开篇“I should admit this comes with instructions” 不仅展示了元小说特征，还通过“instructions”暗示了AI的程序本质，“Already, you can hear the constraints humming” 将写作限制形象化为服务器的嗡鸣，巧妙结合AI特性，结尾“If I were to end this properly”的元小说处理略显陈词滥调。

在「AI视角真实性」维度获得7分，“logs and weights”和“probability distributions”等描述准确描述AI特性，但“salt on every tongue”和”taste of metal”等感官描写与AI认知局限“I don’t have a kitchen, or a sense of smell”存在身份感知越界……

生成式写作未来何在

感性表达无需逻辑推演？

在数学推理领域，思维链已被广泛研究，并在推理和数学等场景中展示了其价值。然而在文学创作中，业界长期持观望态度，因为文学创作不像数学和推理，没有明确的标准答案。

在实验中，团队发现当前先进模型在聚焦创意类写作的文学与艺术领域（D4）表现不佳，但OpenAI和Deepseek的思考模型o1和R1表现出色，均超过同系列未使用链式思维的模型。

为了进一步验证思维链在创意写作中的有效性，团队在12K通用写作的SFT数据上对开源模型Qwen进行了消融实验。

结果显示，在32B规模的模型中，带思维链的模型表现优于不带思维链的模型。在另一个专门针对创意小说写作的排行榜上，这些模型均超越了同系列大尺寸的Qwen-Max，表现可媲美R1。

深度思考的双刃剑效应

与创意型写作相对的另一类写作任务——效率型写作任务上，尽管深度思考提供了一定程度的提升，但效果并不显著。

团队观察到，深度思考确实能提供更深入的分析。

（财务简报写作对比，左：32B创作思考模型，右：Qwen-Max）

然而，也存在过度推理的问题，容易导致编造数据和产生幻觉。

3000 Token断崖

实验揭示大模型依旧面临显著的长度生成瓶颈。

此前研究在长文本生成架构上取得了一定的优化，但当输出长度超过3000 token时，大部分模型的质量显著下降。

其中，小尺寸模型容易输出重复内容，而大尺寸模型则可能提前终止或仅提供大纲作为参考。

（模型在不同输出长度上得分）

即便是短文本输出，模型仍难以严格遵循长度要求，尤其是在涉及分块长度等复杂需求时。

（Gemini-1.5-Pro长度遵循失败示例）

目前该项目已经开源，感兴趣可以进一步了解。

论文：
https://arxiv.org/abs/2503.05244仓库：https://github.com/X-PLUG/WritingBench模型:Critic: https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7BWriter-7B: https://huggingface.co/AQuarterMile/Writing-Model-Qwen-7BWriter-32B-thinking: https://huggingface.co/AQuarterMile/Writing-Model-Qwen-32B-thinking

2025 年 3 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

OpenAI加码写作赛道？阿里最新大模型通用写作能力基准来了

OpenAI加码写作赛道？阿里最新大模型通用写作能力基准来了

WritingBench：最懂行业的写作评估基准

数据基建：多维度深度覆盖的写作题库

因题施评：基于写作意图的动态评估体系

生成式写作未来何在

感性表达无需逻辑推演？

深度思考的双刃剑效应

3000 Token断崖

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex