OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

国科大&旷视团队投稿
量子位 | 公众号 QbitAI

想将一份文档图片转换成Markdown格式？

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——

这一次，只需一句话命令，多模态大模型Vary直接端到端输出结果：

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

无论是中英文的大段文字：

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

还是包含了公式的文档图片：

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

又或是手机页面截图：

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

甚至可以将图片中的表格转换成latex格式：

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

当然，作为多模大模型，通用能力的保持也是必须的：

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

Vary表现出了很大的潜力和极高的上限，OCR可以不再需要冗长的pipline，直接端到端输出，且可以按用户的prompt输出不同的格式如latex 、word 、markdown。

通过大模型极强的语言先验，这种架构还可以避免OCR中的易错字，比如“杠杆”和“杜杆”等，对于模糊文档，也有望在语言先验的帮助下实现更强的OCR效果。

项目一出，引发了不少网友的关注，有网友看后直呼“kill the game！”

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

那么这样的效果，是如何做到的呢？

受大模型启发打造

目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实，在400M图像文本对训练的CLIP有很强的视觉文本对齐能力，可以覆盖多数日常任务下的图像编码。

但是对于密集和细粒度感知任务，比如文档级别的OCR、Chart理解，特别是在非英文场景，CLIP表现出了明显的编码低效和out-of-vocabulary问题。

纯NLP大模型（如LLaMA）从英文过渡到中文（对大模型来说是“外语”）时，因为原始词表编码中文效率低，必须要扩大text词表才能实现较好的效果。

正是这一特点给研究团队带来了启发。

现在基于CLIP视觉词表的多模态大模型，面临着同样的问题，遇到“foreign language image”，如一页论文密密麻麻的文字，很难高效地将图片token化。

而Vary就是这一问题的一种解决方案，它可以在不重建原有词表前提下，高效扩充视觉词表。

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

不同于现有方法直接用现成的CLIP词表，Vary分两个阶段：

第一阶段先用一个很小的decoder-only网络用自回归方式帮助产生一个强大的新视觉词表；

然后在第二阶段融合新词表和CLIP词表，从而高效地训练LVLM拥有新feature。

Vary的训练方法和模型结构如下图：

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

通过在公开数据集以及渲染生成的文档图表等数据上训练，Vary极大增强了细粒度的视觉感知能力。

在保持vanilla多模态能力的同时，激发出了端到端的中英文图片、公式截图和图表理解能力。

另外，研究团队注意到原本可能需要几千tokens 的页面内容，通过文档图片输入，信息被Vary压缩在了256个图像tokens中，这也为进一步的页面分析和总结提供了更多的想象空间。

目前，Vary的代码和模型均已开源，还给出了供大家试玩的网页demo。

感兴趣的小伙伴可以去试试了～

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

2023 年 12 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

国科大&旷视团队投稿
量子位 | 公众号 QbitAI

受大模型启发打造

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

国科大&旷视团队 投稿量子位 | 公众号 QbitAI

受大模型启发打造

文心AIGC

国科大&旷视团队投稿
量子位 | 公众号 QbitAI