Post Title

编辑部整理自 AIGC峰会
量子位 | 公众号 QbitAI

大模型能力与日俱增，如何将其转化为生产力？

中国AIGC产业峰会上，北京大学深圳研究生院助理教授袁粒给出了他的看法：

如果大模型只会闲聊，用户是不会买单的，唯有打造垂域应用，才能把大模型变为生产力。

袁粒专注于多模态深度学习研究方向，一作论文单篇被引用千余次。

屡屡登上热搜的ChatExcel、ChatLaw等垂直领域产品，都是出自他的团队。最近，由他们发起的Sora复现计划“OpenSora”，更是引发了广泛关注。

Post Title

为了完整体现袁粒的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的行业峰会，20位产业代表与会讨论。线下参会观众近千人，线上直播观众300万，获得了主流媒体的广泛关注与报道。

话题要点

用来闲聊的玩具并不能满足用户真正的需求，将大模型转化为生产力的关键，在于垂域应用。
要做好垂域应用，必须先解决大模型的幻觉问题，一个重要方法就是检索增强生成（RAG）。
AI发展到今天，开源世界的贡献功不可没，正是有很多开源模型才推动了AI领域的繁荣。

以下为袁粒演讲全文：

怎样将大模型转化为生产力

我今天主要是来讲讲我们在多模态模型垂域上面的应用，主要是我们自己团队的工作。

首先引用浙大赵（俊博）老师的拷问，你会为一个闲聊的玩具买单吗，这是当Chat系列模型出来后，大家都会思考的。

Post Title

同时在去年5、6月份，ChatGPT用户量出现了微跌，也就是说如果大家只是为了一个聊天去用一个产品，肯定是不够的，需要实实在在的转化成生产力，生产力由什么转化，就是垂域应用。

我们知道后来OpenAI动作很快，推出了GPT store，也就是GPT的商店。

我认为GPT商场中的每一个应用，就是一个垂域的产品。我们的团队也是做了一些多模态垂域的开发，包括ChatExcel、ChatLaw，既有语言生成应用，也有视觉生成的一些模型。

我们的基础平台是基于鹏城的云脑加上我们自建的算力，以及通用和行业的数据来进行应用的开发的。

我们先来简单看看一些代表性工作。

第一个就是数据垂域的应用ChatExcel，它其实是早于微软的Copilot发布的，在2022年下半年开始研发，23年2月发布。

一开始的想法很简单，是2022年下半年的时候，我的一个博士生告诉我，他说老师，我想给女朋友减负。

因为他的女朋友是一个高校的信息老师，天天要处理很多表格，大家也知道企业有很多“表哥、表姐”。所以当时我觉得这个想法很好，背后代表了大家普遍的需求，所以就出来了ChatExcel。

Post Title

ChatExcel是从传统到生成式路线，而且会比生成式路线再往前推了一步，就是多模态生成。

我们看看在第一版的时候，线上能体现到这边这一部分，用文字直接操纵表格，其实WPS当前也已经能做这到一步，因为我们从2022年下半年到2023年初发布。

当然在这个之后，我们进行了升级，升级成一个多模态的模型，这个视频放一下，这也是我们目前部署给某奢侈品巨头的一个真正落地的case，大家可以看到已经不是单模态，能进行数据的可视化，以及能进行一些营销的处理，包括帮你分析这个产品哪一个明星来代言会更好。

我们ChatExcel孵化了一家企业，这个是我的学生创业做的一件事情，我也很支持他。如果大家感兴趣可以在互联网上搜到。

打造垂域应用，要先解决幻觉问题

第二个应用是ChatLaw，ChatLaw是中文法律垂域应用。

ChatLaw这个应用的动机很简单，就是在食堂和一个法学院的老师吃饭的时候，他说我们北大的法律比清华还是好的，但是法律科技在那个时候没有拥抱大模型，我们是否能做一些法律上面的东西。

所以我们一起合作做出来这个ChatLaw的模型。

其实这个很简单，思路就是用户提出需求，我们用Agent进行模型的调度、处理，最后提供法律助手服务，包括信息的分析、结构化抽取，同时能够为用户包括律师生成一些大家所熟知的诉讼状，一些文本的文件，这个是可以给普通用户，同时也可以帮律师。

当然我们目标从来不是替换律师，而是成为律师的助手，替换一些底层重复性的工作。

我们可以看看一些简单的能力，有人被裁员之后去问我的模型，我的模型会让他上传合同和HR沟通录音，然后给他分析事实，最后给出建议。

基于这个建议，我们告知他其实被裁员之后可以走劳动仲裁，仲裁流程以及劳动仲裁申请书都可以由ChatLaw生成，还会推荐一些类似的案例和判决结果。

同时我自己的学生，以及我个人，也有从这个模型中受益，这是当时ChatLaw内测的时候，我的学生身上发生的真实案例。

我的学生想买一个车，在4S店试驾，结果就遇到了一个法律问题。

一般情况下，在试驾的时候需要签一份“免责协议”，大概内容是如果开着这个车出了交通事故，责任完全由试驾人员承担，4S店则不承担责任。

但是很不幸，我这个学生把车开回4S店的时候，在视觉盲区中和一辆电动车发生了刮蹭。

当时我的学生被4S店告知，要么把这个车买下来，要么在完成定损之后全额赔偿。

当时ChatLaw正好在内测，我的学生就问了模型，我的模型最后给他的答案是，4S店的“免责协议”违背了《侵权责任法》第42条（现《民法典·侵权责任编》第1203条）的规定。

同时，ChatLaw也给这个学生生成了一份调解建议书，阐明了因为这个产品归属于4S店，所以这个“协议”属于霸王条款。

于是，这名学生拿着法律依据以及生成的文书给4S店，然后4S店对这件事情就没有再过问了，不了了之了。

虽然我的学生最后买的也是这款车，但没有在这家4S店。

这就是法律真正在普惠个人，包括我个人在现在生活当中一些小问题，也会问模型，因为很多时候它确实有效。

当然，大家也许会说，通用模型本身也能回答大家的这些法律问题。

但是通用模型有一个问题——在专业领域，最大的问题是幻觉问题，俗称“一本正经地胡说八道”。

大家知道如果问ChatGPT，“林黛玉倒拔垂杨柳”是怎么回事，ChatGPT会把这个过程说得非常清晰生动，甚至最后林黛玉的性格都能分析出来，说是《红楼梦》某一回的，这种问题非常严重。

Post Title

去年上半年我们开发垂域模型的时候就知道，垂域模型必须要解决幻觉问题，所以我们当时提出来，现在大家都很熟知这个词叫检索增强生成。

那个时候确实是我们首次做出来的，只是我们没有把这个概念提出来，让大模型做大模型的事情，让检索做检索的事情。

当然这套框架，大家感兴趣可以读论文，我们也开源了一部分模型，但是商业版比开源模型更好。

其实简单说就是用检索的方式在数据库里面提取出一个参考信息，让这个检索参考信息抑制或者缓解模型的幻觉，尤其是发动“紧急立法权”编造法律条文这种重大问题。

这也是通用模型和垂域模型一个重要的差异，尤其在法律这种严肃的场景下一定要考虑这个问题。

“开源版Sora”是产业的期待

做完垂域应用的时候，当然大家可能说，一个高校团队好像做的事好多，确实，为什么？

因为我们在高校里面，不是追求必然的商业化，而是做有意思的科研和有意思的事情。

我最后介绍的一个东西是联合实验室最近的一项工作，叫做Open-Sora Plan，Sora的开源计划。

我刚开始发起这个计划的时候，很多人问说为什么叫复现，不叫超越。

我说我们还是要实事求是，我们离国外的大模型还是有一定差距，我们能把它复现出来，尤其我们作为高校团队，在算力和数据资源都有限的情况下，我们能复现出一版tiny Sora已经不错了。

而且我们这个是开源项目，我们选用的是MIT license，同时所有的人都可以无条件的用我们开源的数据和模型。

当然我们大家知道，在大语言模型ChatGPT出来的时候，其实还没有开源的模型，整个商业界或者整个产业界和学术界都比较难受——学术界没有研究对象，商业的生态也没有繁荣。

所以后来有了Meta的Llama，我们这个开源的目标就是能否做出一版视觉版的Llama。

这个事情为什么想在高校做，因为高校的姿态是中立，所有人都可以受益，我们拿的是纳税人的钱，做的事情繁荣了生态，也就没有浪费他们的钱。

所以我们想做这件事情。

Post Title

于是我们很快把这套框架搭起来了，这个框架分为三个部分——视频编解码器、Diffusion Transformer，以及条件注入。

我们把这个框架搭起来之后扔给开源世界，整个开源世界，尤其在推特上面发布之后，对此是很支持的。

我们最看重是技术社区的评价，因为它才是大家真正从技术角度考虑的结果。我们也很快在GitHub上登了第一，目前Star超过 10K。我们这个特点是什么？

我觉得Sora这条技术路线的优势是能生成长时视频，原因之一是因为在训练的时候，喂给了它很长的视频片段。

所以里面核心模块之一是第一部分Video VAE，就是视频编解码，需要对视频进行压缩，因为无法将一个1分钟的视频直接放在一个80G显存的显卡。

所以我们在Video VAE做了很多工作，目前Video VAE能够对视频进行压缩，而且压缩完之后能重建保持高清晰度。

我们现在能够把1分钟1080P的视频塞进80G的显卡，如果是半分钟720P的视频，我们能塞4个。

我个人认为，视频重建就是视频生成的上限。如果无法压缩重建一个视频，也就无法生成。

我们现在能够对视频进行256倍的压缩，而且信噪比能保持30以上，信噪比越高，表示重建信号越好。

而且重建视频的同时也能够重建图像。我们现在开源的版本是能够压缩256位的视频，当然下一步目标是压缩512位，大家可以用我们的CausalVideoVAE进行视频压缩。

我们也进行了数据收集，有两类方案。

一个是爬取视频数据，因为是文生视频，需要打文本的标签。

但是这个很受限于标注模型的准确度，会受限于现在用的多模态理解模型，所以文本和视频的对齐度不高。

方案二也是用文本驱动物理引擎，比如游戏引擎去合成数据，这样的话文本和视频的对齐度和细粒度会非常高。

而且我们也是刚刚打通了这套数据收集方式，用文本的Prompt驱动游戏画面，让人物做出特定动作。

这种合成数据有个好处，就是对齐度高，收集速度也快很多，因为不需要打标，只需要构造很好的文本Prompt，驱动物理引擎。

大家知道Sora里面有很多case的场景很像物理引擎生成的，我个人认为就是这样的数据的功劳，所以我们现在也把这条路刚刚打通。

关于模型收敛情况，我们在上周发布了第一版预训练模型，坦率讲离Sora差距很大，不过我们仅仅用了一个实验室，用很少的算力预训练。

从我们生成的一些Demo来看，包括面包被烤熟、种子发芽这种质变场景，都比较符合物理规律，这个是Sora模型的核心。

视频生成的长度则是几秒钟到十秒钟。

当然，还可以建模游戏里面的一些场景，比如让它生成“我的世界”中建造房子的过程。

我们也有我们三阶段的复现目标，第一阶段已经完成了，就是1.0的版本，现在已经公开。

大家都可以用，包括压缩工具CausalVideoVAE也可以，不需要我们的商业授权，因为这就是开源的事情。

Post Title

我们现在在第二阶段，该阶段目标也是开源项目的最终目标，我们希望训练出的模型可以生成20秒以上、720P清晰度的视频。

开源世界对我们支持了很多，比如我们合作伙伴，也是联合发起方兔展智能，为我们提供了百卡H100和H800的算力，进行第二阶段开源项目的研发。

华为昇腾团队也和我们积极合作，为我们提供了算力支持。

同时我们也承诺，第二阶段仍然开源。

当然在第三阶段，是超越开源项目的目标，这个是在座各位以及工业界能有更多的算力和更多数据，让它更接近Sora，尤其是在泛化性和时长上。

最后，我个人觉得AI发展到今天，开源世界的贡献功不可没。

大家知道的ImageNet数据集是开源的，很多的深度学习模型也都是开源的，所以才推动了这个领域的繁荣。

所以这个事情的意义是比较大的，学术界和产业界都有一个可以用的类Sora架构的模型。

好，我的演讲到这，谢谢大家。

2024 年 5 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

话题要点

怎样将大模型转化为生产力

打造垂域应用，要先解决幻觉问题

“开源版Sora”是产业的期待

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex