挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

梦晨发自凹非寺
量子位 | 公众号 QbitAI

看看这张图中有几个房子？如果你回答3个，就和GPT-4V的答案一样。

但是最新开源的国产多模态模型CogVLM-17B，就能看出另有玄机。

甚至能区分在图中完整可见的有3个和部分可见的有1个。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

CogVLM由清华和智谱AI合作开发，通讯作者为唐杰和丁铭，论文和开源代码已上传到GitHub。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

除这个单独案例之外，CogVLM-17B还在10项权威跨模态基准上取得了SOTA性能。

另外在VQAv2, OKVQA, TextVQA, COCO captioning取得第二，超越或匹配谷歌的PaLI-X 55B。

与之前的开源多模态大模型相比，可以算是14边形战士。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

雷达图中包含13个基准，最后一个TDIUC单独展现。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

CogVLM可以回答各种类型的视觉问题，比如从马斯克的阴阳怪气中推理出小扎假装去旅行了，回避约架。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

认出照片中的C罗，并回答他在2018年世界杯中有多少进球。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

带图的编程题也能给出代码了。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

甚至能完成复杂的目标检测，并打上标签，自动数据标注成了。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

从浅层对齐到深度融合

CogVLM模型包含4个基本组件

ViT编码器
MLP适配器
大型预训练语言模型
视觉专家模块

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

其中，每层中都添加了可训练的视觉专家模块，以实现图像特征和文本特征的深度对齐，而不会牺牲任何NLP任务的性能。

之前主流的浅层对齐方法，如BLIP-2，图像特征和语言模型之间缺乏深度融合,导致性能不佳。

但微调语言模型的全部参数又会损害其NLP能力。

CogVLM的方法可以说是改变了视觉语言模型的训练范式，从浅层对齐转向深度融合。

另外值得注意的是，CogVLM训练数据中没有专门的OCR数据，但表现出了很强的文字识别能力。

CogVLM开源并给出了在线试玩。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

不过目前仅支持英文，后续会提供中英双语版本支持，可以持续关注。

试玩地址：
http://36.103.203.44:7861

开源及论文地址：
https://github.com/THUDM/CogVLM

— 完 —

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

MEET 2024大会已启动！点此了解详情。

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

2023 年 10 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

梦晨发自凹非寺
量子位 | 公众号 QbitAI

从浅层对齐到深度融合

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

从浅层对齐到深度融合

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

梦晨发自凹非寺
量子位 | 公众号 QbitAI