中文读唇总动员:CNVSRC 2023 视觉语音识别挑战赛启动

2023-09-21 11:15:06

由 NCMMSC 2023 组委会发起,清华大学北京邮电大学海天瑞声语音之家共同主办的 CNVSRC 2023 中文连续视觉语音识别挑战赛即日启动,诚邀参与报名。

赛事官网:http://cnceleb.org/competition

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。关于CN-CVS数据集的更多信息,可访问数据库官网 http://cnceleb.org 。

为推动这一研究方向的发展,清华大学联合北京邮电大学、海天瑞声和语音之家将在  NCMMSC 2023 举办中文连续视觉语音识别挑战赛 (CNVSRC, Chinese Continuous Visual Speech Recognition Challenge)。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。比赛结果将在 NCMMSC 2023 会议上宣布并颁奖。

图片

图1 CN-CVS 数据库官网 http://cnceleb.org

任务设置 

CNVSRC 2023 共设有两个任务:

  • T1:特定说话人视觉语音识别 (Single-speaker VSR) 

  • T2:多个说话人视觉语音识别 (Multi-speaker VSR)

前者侧重于针对某一特定说话人进行大量数据调优后的性能,后者侧重于系统对非特定说话人的基础性能。每个任务根据训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)。

固定赛道仅允许使用 CN-CVS 数据集即各任务发布的开发集作为训练集,旨在验证算法的先进性。开放赛道则可以使用任何数据进行训练,旨在验证当前技术能够达到的性能上限。清华大学将提供固定赛道上的基线系统代码,供参赛者作为参考。

参赛方式 

CNVSRC 2023 对任何个人和机构开放。目前,竞赛官网已经启动并接受报名。关于竞赛规则、时间节点等更多信息,可进入竞赛官网。

浏览器访问: http://cnceleb.org/competition

[1] C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.

更多推荐

关于时空数据的培训 GAN:实用指南(第 01/3 部分)

第1部分:深入了解GAN训练中最臭名昭著的不稳定性。一、说明GAN是迄今为止最受欢迎的深度生成模型,主要是因为它们最近在图像生成任务上产生了令人难以置信的结果。然而,GAN并不容易训练,因为它们的基本设计引入了无数的不稳定性。如果你尝试过用MNIST以外的任何东西训练GAN,你很快就会意识到,所有关于训练他们的痛苦(以

【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils )

文章目录一、下载Hadoop二、解压Hadoop三、设置Hadoop环境变量四、配置Hadoop环境脚本五、安装winutils六、重启电脑七、验证Hadoop安装效果一、下载HadoopHadoop发布版本在https://hadoop.apache.org/releases.html页面可下载;当前最新版本是3.3

Flutter插件之阿里百川

上一篇:Flutter插件的制作和发布,我们已经了解了如何制作一个通用的双端插件,本篇就带领大家将阿里百川双端sdk制作成一个flutter插件供项目调用!目录登录并打开控制台,创建应用:填写应用相关信息开通百川电商SDK申请安全图片下载SDK创建插件项目将ios端sdk下的framework和bundle文件夹复制到

WEB漏洞原理之---【XML&XXE利用检测绕过】

文章目录1、概述1.1、XML概念1.2、XML与HTML的主要差异1.3、XML代码示例2、靶场演示2.1、Pikachu靶场--XML数据传输测试玩法-1-读取文件玩法-2-内网探针或攻击内网应用(触发漏洞地址)玩法-3-RCE引入外部实体DTD无回显-读取文件开启phpstudy--apache日志3、XXE绕过

LwIP介绍

文章目录一、LwIP简介二、LwIP主要特性:三、文件说明lwip-2.1.3contrib-2.1.0一、LwIP简介lwIP(LightweightIP)是瑞典计算机科学院(SICS)的AdamDunkels开发的一个小型开源的TCP/IP协议栈。LwIP是LightWeight(轻型)IP协议,有无操作系统的支持

ArcGIS10.1软件安装教程

ArcGIS10.1中英文(32/64位)下载地址:链接:https://pan.baidu.com/s/1Ksm112WaKMMk6La9ircCng密码:t70f安装步骤:1、我们对安装包进行解压,直接鼠标右击解压即可。2、打开我们解压的文件夹,点击Desktop3、鼠标右击setup.exe图标,选择以管理员的身

9月20日,每日信息差

今天是2023年09月20日,以下是为您准备的12条信息差第一、法国欲推进欧盟境内航班最低限价,以期减轻民航业碳排放对气候变化的影响第二、2022年中国自主研发游戏海外市场销售收入超过173亿美元第三、京东发布三大生态升级举措。“流量生态”“运营生态”以及“成长生态”三大生态升级。据了解,京东将在直播、短视频、新品等方

PMP证书含金量怎么样?

对于职场打工人来说,拥有PMP®证书证明了自己擅长项目管理内容,直观增加在同事、雇主和猎头中的辨识度。目前国内一些领袖公司已经开始在企业内发起PMP®的认证,许多企业在项目管理岗位的招聘要求中也明确表示拥有PMP®证书者优先录取。PMP®证书不分行业,适合任何领域行业的项目。作为通用的项目管理理念,受到了当下不少企业的

java版网页代码生成器系统myeclipse定制开发mysql数据库网页模式java编程jdbc生成无框架java web网页

一、源码特点java版网页代码生成器系统是一套完善的web设计系统,对理解JSPjava编程开发语言有帮助,系统具有完整的源代码,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0,使用java语言开发。java版网页代码生成器系统myeclipse定制开发

iTOP-2K1000开发板拷贝镜像到固态

在本章的刚开始,我们就提到了烧写系统到固态硬盘我们需要使用U盘启动作为桥梁,把系统镜像以及系统配置文件拷贝到固态硬盘里面。所以我们需要先准备一个可以成功系统的U盘来启动开发板。那此时U盘里面是不是就有系统呢?所以这一步我就要把U盘里面的系统镜像拷贝到固态。使用命令cd/mnt进到固态所挂载的文件夹下,接着使用命令cp-

c++ unordered_set

unordered_set可直译为“无序set容器”,即unordered_set容器和set容器很像,唯一的区别就在于set容器会自行对存储的数据进行排序,而unordered_set容器不会。本质是使用hash散列的方式存储数据,是一种使用hash值作为key的容器,所以当有频繁的搜索、插入和移除拥有常数时间。un

热文推荐