分类
学界业界动态 智能语音技术

10分钟标注数据胜过一年前的960h数据,FAIR新研究取得语音识别大进展(模型已开源)

点击量:119

近日,来自 FAIR 的研究者提出结合自训练和无监督预训练执行语音识别任务,证明这两种方法存在互补性,并取得了不错的结果。

来自机器之心翻译,有修改 https://www.jiqizhixin.com/articles/2020-11-05-10

自训练和无监督预训练已经成为使用无标注数据改进语音识别系统的有效方法。但是,我们尚不清楚它们能否学习类似的模式,或者它们能够实现有效结合。

最近,Facebook 人工智能研究院(FAIR)一项研究显示,伪标注和使用 wav2vec 2.0 进行预训练在多种标注数据设置中具备互补性。

只需来自 Libri-light 数据集的 10 分钟标注数据和来自 LibriVox 数据集的 5.3 万小时无标注数据,该方法就能在 Librispeech clean 和 other 测试集上取得 3.0%/5.2% 的 WER(词错率),甚至打败了仅仅一年前的基于 960 个小时标注数据训练的最优系统。在 Librispeech 所有标注数据上训练后,该方法可以达到 1.5%/3.1% 的词错率。

分类
ASRT 智能语音技术

Python复现谷歌SpecAugment数据增强算法

点击量:111

       谷歌在2019年提出了用于语音识别数据增强的SpecAugment算法,基本原理是对频谱图进行各种遮盖,例如横向进行频率范围遮盖,以及纵向进行时间段遮盖,也可以将二者组合起来,如图所示。本文将以代码来介绍在实际应用中如何复现SpecAugment算法,并介绍如何将该代码应用到AI柠檬的ASRT语音识别系统( https://github.com/nl8590687/ASRT_SpeechRecognition )的训练中。

分类
智能语音技术 机器学习

看懂语音识别中CTC解码器的原理,这篇文章就够了

点击量:178

在DNN-HMM架构的语音识别系统的声学模型中,训练一个DNN模型通常需要先进行帧和标签的对齐操作,此时需要先使用GMM通过EM算法不断迭代实现。而且隐马尔可夫假设一直饱受诟病,随着深度学习的发展,尤其是基于CTC的CNN和RNN模型的出现,使得实现端到端的语音识别声学模型成为了可能。CTC由于其强大的在时间序列上进行标签自动对齐的能力,可被用于语音识别、图像验证码(或者文本)识别和视频手势识别(手语识别)等问题中。

分类
ASRT 智能语音技术

ASRT开放免费测试版公共API

点击量:162

ASRT语音识别项目现在已经开放免费测试版的公共API调用接口了,欢迎大家使用Demo客户端或客户端SDK进行调用测试,测试用API的接口链接:https://api.ailemon.net/asrt/v1/ ,详细使用方法请查看ASRT项目文档内容( https://asrt.ailemon.me/docs/ )。由于目前部署的API服务器的硬件配置性能和网络性能有限,请使用ASRT的Demo客户端或者客户端SDK,在正常使用情况下进行测试,避免高并发调用,以防止服务器负载过高。

分类
ASRT 应用开发 智能语音技术 生活点滴

AI柠檬网站上线站内搜索引擎,支持语音搜索

点击量:56

近日,AI柠檬网站上线了站内搜索引擎,并且支持语音搜索功能,以方便一个地方即可搜索包括AI柠檬的中文博客、英文博客和ASRT语音识别项目网站和文档等所有站点页面,大大优化了用户体验。搜索网站地址为:https://s.ailemon.me/ ,也可通过中文博客底部的搜索框进行搜索。打开后,直接在搜索框中输入文本即可,或点击“话筒”图标,说话完毕后,再次点击即可直接跳转到搜索结果页面。其中,语音搜索功能由ASRT中文语音识别项目实现和驱动。

分类
ASRT 应用开发 智能语音技术

ASRT上线测试Demo啦

点击量:173

ASRT项目最近新上线了Web网页端的测试Demo,以供各位测试ASRT最终的使用效果。测试地址为:https://asrt.ailemon.me/demo ,欢迎大家进行测试使用。开源的JavaWeb项目地址为:https://github.com/nl8590687/ASRT_SpeechClient_JavaWeb 。由于后端服务器的规模和性能限制,以及网络的延迟,可能存在着等待时间偏长的问题,请耐心等待,不要不停地点击识别按钮,会加重服务器负担。如果显示没有变化,可能是本身没录上音或者录音声音为空白噪声。

分类
智能语音技术 深度学习

[论文分享]迁移学习实现基于预算的语音识别

点击量:108

Kunze, Julius, et al. “Transfer learning for speech recognition on a budget.” arXiv preprint arXiv:1706.00290 (2017).

大家好,本次我要分享的论文是Transfer Learning for Speech Recognition on a Budget

分类
智能语音技术

[论文分享]FastSpeech: 快速鲁棒可控的语音合成

点击量:104

Ren, Yi, et al. “Fastspeech: Fast, robust and controllable text to speech.” Advances in Neural Information Processing Systems. 2019.

本次分享的论文是FastSpeech语音合成框架,这篇论文由微软研究院和浙大联合发表在NIPS2019上。

分类
ASRT 智能语音技术

教你如何使用ASRT部署中文语音识别API服务器

点击量:1086

ASRT是一个中文语音识别系统,由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上,为了便于大家使用,本文将手把手按顺序教你如何使用ASRT语音识别系统在测试和生产环境中部署中文语音识别API服务器。文本以CPU (Intel x86_64) + Linux + Python 3 + Nginx 为示例运行环境。

分类
智能语音技术

[论文分享]用GAN从MFCC合成语音波形

点击量:129

Juvela, Lauri, et al. “Speech waveform synthesis from MFCC sequences with generative adversarial networks.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

本次论文分享的是一篇2018年发表在IEEE上的用GAN从MFCC合成语音波形的论文。