江南(中国)

讲准字【2025】第227号:Zapformer:模型架构的最新进展

发布时间:2025-10-16 浏览量:

讲座报告主题:Zapformer:模型架构的最新进展
专家姓名:Daniel Povey
日期:2025-10-18 时间:09:15
地点:江苏镇江明都大饭店商务楼二楼华怡厅
主办单位:计算机科学与通信工程学院


主讲简介:Daniel Povey 博士是著名开源语音识别工具 Kaldi 的提出者和主要维护者,被业界称为 “Kaldi 之父”。Kaldi 项目在学术界和工业界都极具影响力,广泛应用于各研究机构和国内外知名公司,有力地推动了智能语音处理的产业化。Daniel Povey 在智能语音处理的技术上做出了非常多的贡献。他首次将序列区分性训练方法应用于语音识别,他提出的 LF-MMI 建模方法至今仍为商用语音识别系统普遍使用的标准技术。他也是将深度学习用于语音识别领域的重要引领者,在语音识别中推广了时延神经网络,配合 LF-MMI 训练,是 2015-2020 年学术界和工业界普遍使用的最佳组合。他还是深度学习在声纹识别领域的重要引领者,提出的 X-vectors 方法是第一个取得成功并被普遍应用的深度学习说话人识别方法,广泛应用于工业界。他在国际顶级会议和期刊发表论文200多篇,谷歌学术引用近 52000 次,h-index 70,担任 Signal Processing Letters 的终身副主编。研究专长:语音识别和声学建模。


主讲内容简介:我们此前发布的Zipformer架构在语音识别应用中达到了业界领先的性能水平,但其应用受限于模型复杂性和训练流程的繁琐性。新推出的"Zapformer"架构旨在简化Zipformer,并采用比以往更大的数据集进行架构调优和训练方法改进。在ASR应用中,Zapformer的性能显著优于Zipformer,而Zipformer本身也优于Conformer或Transformer。主要改进包括:移除随机化元素(如丢弃和层丢弃),用辅助损失函数替代其稳定性和泛化促进效果。


欢迎师生参加!

专家姓名 Daniel Povey 讲座时间 2025-10-18 09:15
讲座地点 江苏镇江明都大饭店商务楼二楼华怡厅