赛事开启|CNVSRC 2023 中文连续视觉语音识别挑战赛正式发布

1,332次阅读
没有评论

赛事开启|CNVSRC 2023 中文连续视觉语音识别挑战赛正式发布

中文连续视觉语音识别挑战赛 (CNVSRC)

赛事开启|CNVSRC 2023 中文连续视觉语音识别挑战赛正式发布

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集,成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。

为推动这一研究方向的发展,由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题:中文连续视觉语音识别挑战赛(CNVSRC, Chinese Continuous Visual Speech Recognition Challenge)正式对外发布。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。比赛结果将在 NCMMSC 2023 会议上宣布并颁奖。

01

数据集

•  CN-CVS: CN-CVS包含2557名说话人超过300小时的音视频数据,覆盖新闻播报与公开演讲场景,是目前最大的开源中文音视频数据集。主办方为本次竞赛提供了该数据库的文本标注。更多关于CN-CVS的信息请访问数据库官网http://www.cnceleb.org/。该数据集作为本次竞赛闭集任务的训练集。

•  CNVSRC-Single: CNVSRC2023单人大数据。包含一名说话人超过100小时的音视频数据,数据来源于网络视频,其中十分之九的数据构成开发集,剩余十分之一的数据作为测试集。


•  CNVSRC-Multi: CNVSRC2023多人限量数据。包含43名说话人的音视频数据,每人的数据量接近1小时,其中每个人的三分之二数据构成开发集,剩余数据构成测试集。其中23名说话人的数据来源于受控环境下朗读固定机位录制,且单条数据时长相对较短。另20名说话人的数据来源于网络的演讲视频,单条数据时长较长,环境和内容较为复杂。

对于训练集和开发集,主办方提供音频、视频和对应的转录文本;对于测试集,则仅提供视频数据。参赛者不得以任何方式使用测试集,包括但不限于使用测试集帮助模型训练或者微调等。

数据集

CNVSRC-Single

CNVSRC-Multi

开发集 Dev

测试集 Eval

开发集 Dev

测试集 Eval

视频条数

25947

2881

20450

10269

视频时长(小时)

94.00

8.41

29.2414.49

注:CNVSRC-Multi中的朗读数据来自海天瑞声赠与清华大学的【中文普通话音视频识别库(手机)】数据集。海天瑞声(网址:www.dataoceanai.com)向清华大学赠与数据集,以促进科学事业发展。

02

任务设置

CNVSRC 2023 设计特定说话人视觉语音识别(T1)和多说话人视觉语音识别(T2) 两个任务,前者关注对某一特定说话人进行大数据调优后的性能,后者关注系统对非特定说话人的基础性能。每一任务又分为“固定赛道”和“开放赛道”,其中固定赛道只能使用组委会约定的数据和其它资源,开放赛道可使用除测试集外的任意资源。

固定赛道中不能使用的资源包括:作为特征提取的非公开性预训练模型,超过1B参数或非公开的预训练语言模型。可使用的工具和资源包括:人脸检测、提取、口唇区域提取、轮廓提取等公开可获得的预处理工具;用于数据增强的公开可获得的外生模型及工具、数据集;公开的词表、发音词典、n-gram语言模型、小于1B参数的神经语言模型。

固定赛道开放赛道T1: 特定说话人唇语识别CN-CVS, CNVSRC-Single 开发集任意数据、工具T2: 多说话人唇语语别CN-CVS, CNVSRC-Multi 开发集任意数据、工具

03

参赛方式

参赛者需在CNCeleb官网上注册CNVSRC账号

请访问如下网址进行注册:

http://cnceleb.org/competition

注册以后,用户可以依据提示下载数据资源(CN-CVS, CNVSRC-Single, CNVSRC-Multi)。

CNVSRC 2023 以字错误率(Character Error Rate, CER)为评测准则。结果提交时,参赛者需要登录CNVSRC账号,进入CNVSRC 2023结果提交页面,选择对应的任务和赛道,提交结果文件。结果文件中每一行对应一条测试视频,以该视频的ID开始,后接对应的转录文本。内容提交后,系统自动计算CER并显示给参赛者。对每个任务每个赛道,参赛者有5次提交机会。

04

基线系统

主办方提供了固定赛道条件下多说话人和特定说话人两个任务的基线系统供。该基线系统采用基于Conformer的结构,模型性能如下。

Task

Single-speaker VSR

Multi-speaker VSR

CER on Dev Set

48.57%

58.77%

CER on Eval Set

48.60%

58.37%

参赛者可以通过下面网址获得基线系统的代码:https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

05

赛程安排

时间

议程

2023/09/20

开启报名,训练数据集、开发数据集、基线系统发布

2023/10/10

测试数据集发布

2023/11/01

提交系统开放

2023/12/01 晚12点

提交结果截止

2023/12/09

NCMMSC 2023 Workshop,公布成绩、优秀竞赛方案分享

06

组委会

姓名

单位

王东

清华大学

陈琛

清华大学

李蓝天

北京邮电大学

李科

海天瑞声

卜辉

语音之家

🚪 报名传送门 🚪


2023 中文连续视觉语音识别挑战赛

Chinese Continuous Visual Speech Recognition Challenge 2023

Step1.  注册CNVSRC账号

http://cnceleb.org/competition 

*注册后可下载数据资源:CN-CVS, CNVSRC-Single, CNVSRC-Multi

Step2.  基线系统代码

https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline 

赛事开启|CNVSRC 2023 中文连续视觉语音识别挑战赛正式发布

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...