文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

新智元报道

编辑：LRS 好困

【新智元导读】文字也是一种视觉信息，多模态大语言模型KOSMOS-2.5不光能读懂论文，还能输出markdown格式！

当前一个显著的趋势是致力于构建更大更复杂的模型，它们拥有数百/数千亿个参数，能够生成令人印象深刻的语言输出。

然而，现有的大型语言模型主要集中在文本信息上，无法理解视觉信息。

因此多模态大型语言模型（MLLMs）领域的进展旨在解决这一限制，MLLMs将视觉和文本信息融合到一个基于Transformer的单一模型中，使该模型能够根据这两种模态学习和生成内容。

MLLMs在各种实际应用中显示出潜力，包括自然图像理解和文本图像理解。这些模型利用语言建模作为处理多模态问题的通用接口，使其能够根据文本和视觉输入处理和生成响应。

不过，现有的MLLMs主要关注分辨率较低的自然图像，对于文本密集图像的MLLM研究还不多见，因此充分利用大规模多模态预训练来处理文本图像是MLLM研究的一个重要的研究方向。

通过将文本图像纳入训练过程并开发基于文本和视觉信息的模型，我们可以开辟涉及高分辨率文本密集图像的多模态应用的新可能性。

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

论文地址：https://arxiv.org/abs/2309.11419

KOSMOS-2.5是一个基于文本密集图像的多模态大型语言模型，它是在KOSMOS-2的基础上发展而来的，突出了对于文本密集图像的多模态阅读和理解能力（Multimodal Literate Model）。

该模型的提出突显了其在理解文本密集型图像方面的卓越性能，弥合了视觉和文本之间的差距。

与此同时，它也标志着该任务范式的演变，从以前的编码器-解码器（encoder-decoder）架构转变为纯解码器（decoder only）架构。

KOSMOS-2.5的目标是在文本丰富的图像中实现无缝的视觉和文本数据处理，以便理解图像内容并生成结构化文本描述。

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

图1：KOSMOS-2.5概览图

如图1所示，KOSMOS-2.5是一个多模态模型，旨在使用统一的框架处理两个紧密相关的任务。

第一个任务涉及生成具有空间感知的文本块，即同时生成文本块的内容与坐标框；

第二个任务涉及以Markdown格式生成结构化的文本输出，同时捕捉各种样式和结构。

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

图2：KOSMOS-2.5架构图

如图2所示，两个任务利用共享的Transformer架构与任务特定的提示。

KOSMOS-2.5将基于ViT（Vision Transformer）的视觉编码器与基于Transformer架构的解码器相结合，通过一个重采样模块连接起来。

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

图3：预训练数据集

如图3所示，为了训练这个模型，作者准备一个庞大的共324.4M的数据集进行预训练。

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

图4：带有边界框的文本行的训练样本示例

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

图5：Markdown格式的训练样本示例

该数据集包含各种类型的文本密集图像，其中包括带有边界框的文本行和纯文本的Markdown格式，图4和图5为训练样本示例可视化。

这种多任务的训练方法增强了KOSMOS-2.5在整体上的多模态能力。

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型 [图6] 端到端的文档级文本识别实验

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

图7：从图像中生成Markdown格式文本实验

如图6和图7所示，KOSMOS-2.5在两个任务上进行评估：端到端的文档级文本识别和从图像中生成Markdown格式文本。

实验结果展示了KOSMOS-2.5在理解文本密集的图像任务方面的出色表现。

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

图8：KOSMOS-2.5的输入和输出样例展示

此外，KOSMOS-2.5在少样本学习和零样本学习的场景中展现了有前景的能力，使其成为处理文本丰富图像的实际应用的多功能工具。

作者指出，指令微调是一个很有前景的方法，可以实现模型更广泛的应用能力。

在更广泛的研究领域中，一个重要的方向在于进一步发展模型参数的扩展能力。

随着任务范围的不断扩大和复杂性的不断提高，扩展模型以处理更大量的数据对于文字密集的多模态模型的发展至关重要。

最终目标是开发出一种能有效解释视觉和文本数据的模型，并在更多文本密集型多模态任务中顺利推广。

参考资料：https://arxiv.org/abs/2309.11419

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

新智元报道

【新智元导读】文字也是一种视觉信息，多模态大语言模型KOSMOS-2.5不光能读懂论文，还能输出markdown格式！

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

TRAE推出SOLO模式，业内首个「Context Engineer」来了

这个5亿播放的AI视频，邪乎得平平无奇

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”