允中发自凹非寺

量子位 | 公众号 QbitAI

视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。

字节提出新基础模型——ViTamin，专为视觉语言时代设计。

在使用相同的数据集和训练方案时，ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

当进一步扩展参数规模时，ViTamin-XL仅有436M参数，却达到了82.9%的ImageNet零样本准确率，超过了拥有十倍参数（4.4B）的EVA-E。

最终这一成果，入选计算机视觉顶会CVPR2024。

视觉语言时代新基准

在视觉语言时代下，如何设计一个更好可扩展的视觉模型？

在ImageNet时代，新的视觉模型在ImageNet数据集得以验证，也造就了不断有新的视觉模型涌现。但在视觉语言时代，新的视觉模型鲜为人见。

此外，基于现有常见视觉模型，在面对比ImageNet数据规模还大的情况下表现又是如何？研究团队们测试了几种常见模型，包括纯Transformer的ViT，纯卷积网络的ConvNeXt，以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较，得出了一些关键发现：

第一，模型的扩展性：由于可扩展的自注意力机制，ViT能最好地适应不同规模的任务。
第二，数据的扩展性：随着训练数据的增加，所有模型的性能都有所提升。
第三，特征的分辨率：在训练过程中，模型需要理解更广泛的信息，而不仅仅是简单的类别标签。因此，提取的特征的分辨率对模型的预测能力有很大影响。
第四，混合架构：在一般情况下，CoAtNet表现优于其他模型，但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现，研究人员设计了ViTamin模型。

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks，第三个阶段包含了可扩展的Transformer Blocks。

具体来说，一张图片首先经过卷积stem处理，得到2倍降采样的特征图。

然后，这个特征图经过第一阶段，由两个MBConv-LN Blocks组成，接着经过第二阶段，由四个MBConv-LN Blocks组成，然后降采样得到16倍降采样的二维特征。

接下来，这些特征被展平成一维，并输入到第三阶段，该阶段由N_B个TFB-GeGLU Block组成。最后，通过对比图像特征和语言特征，来学习对比损失函数。

作者们致力于简单有效的scaling law，只考虑模型的宽度C和模型第三阶段的深度N_B，因此在scaling到更大的模型中，通过模型的参数规模可以直接反推需要多大的宽度和深度，进而实现模型的scaling。

多项SOTA

在零样本性能上面，研究结果显示，ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时，ViTamin-L的准确率进一步提高到了81.8%，比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上，ViTamin-L比ViT-H/14模型高出了0.4%，而且参数数量只有ViT-H/14的一半。

此外，当进一步扩大模型规模时，参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率，超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器。

作者们引入了一系列下游任务，包括开放词汇检测和分割，以及多模态大模型（LMMs）。

ViTamin在开放词汇检测任务OV-LVIS上，相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中，相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上，并在12个多模态问答等基准上表现出色。值得注意的是，ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中，作者们建立了主流视觉模型在视觉语言情境下的评估基准，并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导，ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT，而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队，覆盖了计算机视觉、音视频编辑、特效处理等技术领域。

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围，实现了前沿算法 – 工程系统 – 产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

论文链接：
https://arxiv.org/pdf/2404.02132.pdf
项目主页:
https://beckschen.github.io/vitamin

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

视觉语言时代新基准

多项SOTA

来自智能创作团队

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC