DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

354次阅读
没有评论

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源

网友直呼:AI的JPEG时刻!

DeepSeek最新开源的模型,已经被硅谷夸疯了!

因为实在太DeepSeek了。3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。

唯一的问题可能就是被“OCR”命名耽误了。

是的,DeepSeek刚刚开源即火爆的模型就叫:DeepSeek-OCR

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

这个模型瞄准的是大模型处理长文本时的算力爆炸难题……虽然模型参数很小,但四两拨千斤,其背后所代表的“用视觉方式压缩一切”的思想,大道至简,既是人类智能的现实,也不断出现在诸如《三体》的科幻作品中。

简单来说,由于一张图能包含大量文字(用的token还更少),所以他们想到并验证了“将视觉作为文本压缩媒介”这一方法——就好比优秀的人看书都是扫一眼就知道内容,不必一字一句读完才理解内容。

一图胜千言。

而且DeepSeek研究后发现,当压缩率小于10倍时(即文本token数是视觉token数的10倍以内),模型OCR解码准确率高达97%;即使压缩率高达20倍,准确率依旧能保持在60%左右,效果相当能打。

更主要的是,DeepSeek再次展现了高效能风格,他们的方法之下,生成训练数据——仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据

所以这个研究一经公布,已经快速在GitHub斩获了3.3K star。HuggingFace则已经热榜第二……X上热议,好评声一片。

刚“尖锐”评价过AI现状的卡帕西说:我很喜欢……特别是图像比文字更适合LLM输入,妙啊。

还有人认为这是“AI的JPEG时刻”,AI记忆架构打开了新路径。

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

还有爆料猜测,谷歌Gemini的核心商业机密被开源了:

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

当然,如此火爆的工作还带了更多思考——不少人看过论文后,认为这种统一视觉与语言的方法,或许是通往AGI的大门之一。

以及DeepSeek还在论文中,谈到了AI的记忆和“遗忘”机制。

所以,DeepSeek的新模型,论文究竟是怎么说的?

DeepSeek新研究:两大核心组件实现“以小博大”

概括而言,DeepSeek这次提出了一种名为“上下文光学压缩”(Contexts Optical Compression)的思路。

其灵感来自这样一个巧妙的逆向思维:

既然一张图片能“装下”成千上万个字,那我们能不能把文字信息压缩到图片里,让模型通过“看图”来理解内容呢?

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

本质上来说,这就是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

为验证这一想法,他们构建了3B大小的DeepSeek-OCR模型,结果发现它在主流文档解析基准OmniDocBench上取得了新SOTA。

下图显示,DeepSeek-OCR(红色圆点)在“平均每张图的视觉token数”(横轴)上位于最右侧,这说明它使用的token数量最少;而在“整体性能”(纵轴,越低越好)上,它却达到了SOTA水平,而且大多还是“以小博大”。

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

更具体的对比如下:

  • 仅用100个视觉token,DeepSeek-OCR就超过了每页使用256个token的GOT-OCR2.0;
  • 当使用400个视觉token时(其中有效token为285),DeepSeek-OCR就能和之前的SOTA模型表现相当;
  • 使用不到800个视觉token,DeepSeek-OCR便大大超过了平均每页近7000个视觉token的MinerU2.0。
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

这一切背后都不开DeepSeek-OCR架构的两大核心组件:

  • 编码器DeepEncoder:负责把图片转成高度压缩的视觉token;
  • 解码器DeepSeek3B-MoE-A570M:负责从压缩的视觉token里重建文字。
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

这里重点说一下整个系统的创新关键——编码器DeepEncoder

其核心使命为,在处理高分辨率图像时,能够产出数量极少但信息密度极高的视觉token。

为此它采用了“先局部处理,再压缩,后全局理解”的串行设计

  • 局部处理:利用仅使用“窗口注意力”机制的SAM-base模型(8000万参数),第一步先在高分辨率图像上进行细粒度的局部特征提取。尽管此时生成的视觉token数量庞大,但由于窗口注意力的高效性,内存开销仍在可控范围内;
  • 再压缩:然后在中间部分加一个16倍卷积压缩器,从而在特征进入全局注意力模块前大幅砍掉token数量,比如一张1024×1024的图片,经过第一阶段会产生4096个token,但经过压缩机后,只剩下256个token进入第二阶段;
  • 后全局理解:最后利用使用“全局注意力”机制的CLIP-large模型(3亿参数),更深入地理解这些经过浓缩后的少量token,此时由于输入的token数量已经大幅减少,所以这里的计算开销也变得可以接受。

此外值得一提的是,为了灵活应对不同的压缩比需求和实际应用场景,DeepEncoder被训练成支持从“Tiny”(512×512, 64token)到“Gundam”(动态分块,近800token)等多种输入模式。

就是说,同一个模型可以根据任务需要,随机应变地调整其“压缩强度”

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

总之,基于以上原理和组件搭配,目前DeepSeek-OCR除了具备常规识别能力,还支持对金融报表、化学分子式、数学几何图、100多种语言等更为复杂的图像进行深度解析。

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

三位作者亮相

如此被夸赞的新研究,来自三位研究人员,依然很DeepSeek——几人都相对低调,网上公开资料很少。

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

Haoran Wei,曾就职于阶跃星辰,当时还主导开发了意在实现“第二代OCR”的GOT-OCR2.0系统。

(2024年9月发表的这篇论文显示,身为论文一作的Haoran Wei所处单位为阶跃。)

此次DeepSeek-OCR的工作也可谓延续了GOT-OCR2.0之前的技术路径,即致力于通过端到端模型解决复杂文档解析问题。

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

Yaofeng Sun,从去年开始就陆续参与DeepSeek多款模型研发,包括R1、V3中都有他的身影。

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

Yukun Li(李宇琨),谷歌学术论文近万引研究员,也持续参与了包括DeepSeek V2/V3在内的多款模型研发。

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

有意思的是,这三人在提出DeepSeek-OCR之后,还贡献了一个脑洞大开的想法——

用光学压缩模拟人类的遗忘机制

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

只需将上下文光学压缩与人类记忆的衰退过程进行类比,我们就能发现二者高度相似:

  • 近期记忆:就像近处的物体,清晰可见。所以可以将其渲染成高分辨率图像,用较多的视觉token来保留高保真信息。
  • 远期记忆 :就像远处的物体,逐渐模糊。所以可以将其渐进式地缩放成更小、更模糊的图像,用更少的视觉token来表示,从而实现信息的自然遗忘和压缩。

这样一来,理论上模型就可以在处理超长对话或文档时,动态地为不同时期的上下文分配不同数量的计算资源,从而可能构建出一种无限长上下文的架构

团队表示,虽然这还是个早期研究方向,但不失为模型处理超长上下文的一种新思路。

这个思路确实也更像人类的智能。

之前AI的上下文研究,对于短期中期远期的都是一视同仁,机器味儿十足,但计算资源和响应问题也会相应暴涨……

而现在,DeepSeek提出新思路,是时候让AI记忆更像人了。

传送门:
Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
GitHub:
https://github.com/deepseek-ai/DeepSeek-OCR

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...