666 | 突破视觉模型类别限制,全面支持开放域感知!

1,465次阅读
没有评论

666 | 突破视觉模型类别限制,全面支持开放域感知!

时光荏苒,岁月如梭,不知不觉,我们又一起走过了 2023 年的第三季度。在过去的三个月里,OpenMMLab 又攒了哪些“瓷器活儿”,各个算法库进行了哪些重大更新?社区里开展了哪些精彩的活动呢?现在我们就来向社区的小伙们报告啦!

01

核心进展

开放域感知,让视觉模型突破类别限制

开放域感知是目前视觉领域的研究热点之一。传统感知任务中,模型能力往往受限于训练数据中的样本类别。开放域感知突破了这一限制,让训练后的模型可以感知训练集之外的物体类别,甚至感知任意的语义概念,大大拓展了模型的能力边界和应用场景。

OpenMMLab 此次更新增加了多个热门的开放域感知算法:

  • 支持了开放域目标检测算法 GoundingDINO,并提供了目前唯一的开源微调方案,性能超过官方结果(~1 AP)

666 | 突破视觉模型类别限制,全面支持开放域感知!

MMDetection 支持 GroundingDINO 微调,

性能优于官方模型

  • 支持了视觉定位算法 GLIP 微调,性能优于论文结果

  • 支持了开放词汇检测算法 Detic,可以联合使用分类和检测数据进行训练

  • 增加开放词汇分割算法 SAN(CVPR23),并支持了完整的训练流程

高性能全身姿态估计:SOTA 精度,实时推理

OpenMMLab 自研高性能感知模型 RTM 系列迎来新成员——全身关键点模型 RTMW。

666 | 突破视觉模型类别限制,全面支持开放域感知!

RTMW 模型效果展示

全身关键点检测提供了对人体姿态、表情、手势的全面且精细的刻画,对下游任务如动作捕捉、运动分析、人机交互、AI 图像生成(如 ControlNet)等有非常重要的意义。此次发布的 RTMW 模型,对精度和推理速度做了深度优化:

  • 首个在 COCO-Wholebody 上突破 70 AP 的开源模型

  • 更加精准的手部细节,实时推理,满足应用场景需求

  • 完整的模型部署工具链,开箱即用的 SDK

  • 在线试玩 Demo:https://openxlab.org.cn/apps/detail/mmpose/RTMPose

666 | 突破视觉模型类别限制,全面支持开放域感知!

RTMW 模型性能

训练框架升级,大模型一样“玩得转”

前沿视觉模型在复杂任务和困难场景上不断取得突破,但随之而来的模型参数量和数据规模增加,也给训练框架提出了新的挑战。MMEngine 全面支持了 ColossalAI、FSDP、DeepSpeed 等高性能大模型训练框架,带来极致的训练速度提升和显存优化。

基于新版本的 MMEngine,我们也在 MMDetection 中提供了训练检测大模型的应用案例。

666 | 突破视觉模型类别限制,全面支持开放域感知!

MMEngine 支持 ColossalAI,

优化大模型训练速度和显存开销

02

算法库重要更新

MMCV

  • 支持 PyTorch2.1.0

  • 添加 PointsInPolygons 和 BoxIouRotated 算子对华为昇腾芯片的支持

MMEngine

  • 支持大模型训练框架 ColossalAI,极致提升训练速度并降低显存占用

  • 支持梯度检查点 Gradient Checkpoint ,一行配置即可减少模型显存占用

  • 支持多种可视化后端,包括 NeptuneVisBackend、DVCLiveVisBackend 和 AimVisBackend

MMDetection

  • 检测 Transformer SOTA 模型大合集

    -支持了 DDQ、CO-DETR、AlignDETR 和 H-DINO 4 个更新更强的 SOTA Transformer 模型

    -基于 CO-DETR,  MMDet 中发布了 COCO 性能为 64.1 mAP 的模型

    -DINO 等算法支持 AMP/Checkpoint/FrozenBN,可以有效降低显存

  • 提供了全面的 CNN 和 Transformer 的性能对比

    -RF100 是由 100 个现实收集的数据集组成,包括 7 个域,可以验证 DINO 等 Transformer 模型和 CNN 类算法在不同场景不同数据量下的性能差异。用户可以用这个 Benchmark 快速验证自己的算法在不同场景下的鲁棒性

666 | 突破视觉模型类别限制,全面支持开放域感知!

CNN vs Transformer 

检测模型性能 benchmark

  • 支持了 GLIP 和 Grounding DINO 微调,性能均优于官方结果

    -值得一提的是,MMDetection 也是目前唯一支持 GroundingDINO 微调的开源代码库。此外,我们还提供了详细的 Grounding DINO 在自定义数据集上训练评估的流程,欢迎大家试用

  • 支持开放词汇检测算法 Detic 并提供多数据集联合训练可能

  • 支持使用 FSDP 和 DeepSpeed 训练检测模型

666 | 突破视觉模型类别限制,全面支持开放域感知!

使用 FSDP 优化检测模型训练速度和内测开销

  • 支持了 V3Det 1.3w+ 类别的超大词汇检测数据集

666 | 突破视觉模型类别限制,全面支持开放域感知!

支持 V3Det 数据集:

超过 1.3w 类别的超大词汇目标检测

MMDetection3D

  • 支持 DSVT,Waymo 数据集上纯 LiDAR 3D Object Detection SOTA 算法

  • 新增点云检测、分割,单目检测及多模态 Inferencer 的 demo 演示

  • 重构 Waymo 数据集支持,加速数据集处理、训练启动、验证

MMSegmentation

  • 支持深度估计任务,新增 VPD 算法和 NYU 数据集,并支持深度图可视化

  • 支持 SAN 开放集语义分割算法

  • 新增 RSInferencer API,支持遥感图像快速推理

666 | 突破视觉模型类别限制,全面支持开放域感知!

MMSegmentation 支持深度估计任务

666 | 突破视觉模型类别限制,全面支持开放域感知!

开放词汇分割算法 SAN(CVPR23)

MMPreTrain

  • 支持 MiniGPT-4 训练及推理,并额外提供中文支持

666 | 突破视觉模型类别限制,全面支持开放域感知!

图文多模态算法 MiniGPT-4

  • 支持 DINO 自监督学习

  • 支持 CLIP zero-shot 分类

MMPose

  • 支持 MotionBERT、DWPose、YOLOX-Pose、InterNet 算法的训练,支持 EDPose、Uniformer、Associate Embedding 算法推理

  • 支持 Ubody、InterHand2.6M、300W-LP 数据集

  • 支持 BadCase 可视化分析、多数据集评测、关键点可见性预测

  • 发布 RTMPose 系列全身姿态估计模型 RTMW 的 alpha 版本,精度相比于 SOTA 方案有 3.7 AP 提升,算法当前还在不断迭代优化中,欢迎用户探索和试用

666 | 突破视觉模型类别限制,全面支持开放域感知!

3D 姿态估计算法 MotionBERT(ICCV 23)

MMAction2

  • 支持了 VindLU 视频-语言多模态训练

  • 支持了 Dense Regression Network, 一种Video Grounding 方法

  • 支持了 ASFormer,一种用于动作分割的 transformer

MMagic

  • 支持了新算法 ViCo, 一种新的 SD personalization 方法

666 | 突破视觉模型类别限制,全面支持开放域感知!

MMagic 支持扩散模型个性化生成算法 ViCo

  • 支持了新算法 AnimateDiff, 一种流行的文本转动画方法

666 | 突破视觉模型类别限制,全面支持开放域感知!

AnimateDiff,从文本生成动画

  • 支持了新算法 SDXL

  • 支持了基于 MMagic 实现的 DragGAN

  • 支持了新算法 FastComposer

MMDeploy

  • 支持 DINO 等 DETR 系列检测模型的部署

  • 支持 Mask2Former 等全景分割模型的部署

  • 升级 Docker 镜像和预编译包至 cuda=11.8, tensorrt=8.6.1, onnxruntime=1.15.1

03

社区组织与活动回顾

贡献组织 MMSIG

MMSIG 社区在第三季度不断壮大和完善,认证 40 余位社区 Committer 和 Active Contributor, 举办贡献者线下沙龙和 10 余次线上分享圆桌会。目前  OpenMMLab 贡献者总数已超过 2000 人,吸引来自清北交复等顶尖高校、抖音阿里等头部互联网企业超过 200 位贡献者。社区正在不断丰富活动奖池和激励机制,为社区成员提供更多升级福利,敬请期待!

OpenMMLab 线下沙龙

8 月 19 日,由 OpenMMLab 社区举办的贡献者线下沙龙在上海徐汇西岸智塔圆满举办,吸引来自全国各地的 50 多位社区开发者。活动期间,OpenMMLab 算法研究员和核心开发者现场分享最新的研究进展和未来规划,更有社区开发者分享自己的贡献经历和个人成长的故事。未来 OpenMMLab 会创造更多合作和交流的机会,期待有更多贡献者参与到我们的线下活动中来!

666 | 突破视觉模型类别限制,全面支持开放域感知!

贡献者新动态

经过 3 个月紧锣密鼓的开发, 12 名同学在 OpenMMLab 夏令营中顺利结项,项目成果已随相关 PR 的合并陆续合入社区。每年均有学生通过夏令营深入社区贡献,在社区内进一步成长。

第二期超级视客营发布后,社区响应十分热烈,历经两个多月的时间,共有 111 个任务完成开发,40 余名新同学荣升贡献者。

开源的星星之火,愈燃愈旺,期待有更多开发者加入 OpenMMLab 开源生态,与我们一同前行。

666 | 突破视觉模型类别限制,全面支持开放域感知!

OpenMMLab 技术写作训练营

OpenMMLab 技术写作训练营第 2 期成功举办,共有 200+ 社区成员报名参与了此次训练营。专业老师提供全方位系统性教学,再度献上了一场技术写作盛宴,学员们围绕着 AI、计算机视觉、学习、职场等众多主题展开写作实践,参与者纷纷表示“收获颇丰”,更有佳作在 OpenMMLab 官方渠道亮相,受到读者们的喜爱!

666 | 突破视觉模型类别限制,全面支持开放域感知!

第四季度活动预告

1024 AI 小故事创作活动】已在火热进行中,欢迎大家参加!除此之外,我们还将举办 AI 实战营第 3 期、大模型专题直播等活动,敬请期待哦!

最后,感谢社区小伙伴们一直以来的支持和关注,OpenMMLab 的成长和发展,离不开每一个小伙伴的支持和贡献,谢谢大家!


PS:OpenMMLab 线下活动即将扩展到更多城市!期待与你相见。快在评论区留言告诉我们你最期望的城市,也许下一站就是哦~

用AI搞一种很新的创作,用InternLM书写和代码之间的爱恨情仇!

2023-10-11

666 | 突破视觉模型类别限制,全面支持开放域感知!

首个图文混合创作大模型“书生·浦语灵笔”正式开源

2023-10-10

666 | 突破视觉模型类别限制,全面支持开放域感知!

24GB显卡轻松上手InternLM-20B大模型,手把手教程来啦!

2023-10-08

666 | 突破视觉模型类别限制,全面支持开放域感知!

666 | 突破视觉模型类别限制,全面支持开放域感知!

666 | 突破视觉模型类别限制,全面支持开放域感知!

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...