分类
ASRT 学界业界动态 智能语音技术

ASRT开源语音识别项目开始兼容TensorFlow 2.X

大约三周前,一位GitHub用户在ASRT开源语音识别项目提交了一个Issue,指出该项目不能运行于TensorFlow 2.X环境下,存在兼容问题。于是他上周向本项目提交了修改代码的Pull Request。经过本人实际测试,修改后的代码同时兼容TensorFlow 1.X版和2.X版,并且完全无错误正确运行。

分类
ASRT 智能语音技术

[论文翻译]SpecAugment:一种用于自动语音识别的简单数据扩增方法

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

原文:https://arxiv.org/abs/1904.08779

Daniel S. Park∗, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le

Google Brain

{danielspark, williamchan, ngyuzh, chungchengc, barretzoph, cubuk, qvl}@google.com

分类
ASRT 模式识别 综合技术

xdlinux FSD2019分享会:ASRT和我的开源经历

西安电子科技大学开源社区2019年一年一度的软件自由日再次来临,AI柠檬博主应邀参加,并做了主题为《ASRT和我的开源经历》的演讲,以下是PPT演讲的内容。

分类
ASRT 智能语音技术 模式识别 深度学习

ASRT语音识别程序依赖环境说明

ASRT语音识别项目是AI柠檬博主于2017年初开始着手实现的一个开源项目。由于本项目从最初第一个可用版发布到现在已经有较长时间了,在软件的依赖包方面,已经与两年前有了很大的不同,本文将介绍ASRT项目在程序运行的依赖环境上的一些问题,供参考,如果后续有变化,会及时更新。几乎所有基于TensorFlow 1.x版本和Keras的程序都可以参考本文的配置。

分类
ASRT Python学习笔记 程序设计

Python实现录音和播放功能

我们在需要跟用户使用语音进行交互的场景中,经常需要使用到录音的功能,比如网络语音通话和语音助手等,而完整的从底层实现录音功能往往是相当困难的,通常通过调用相关API来实现。这里我们介绍一种使用Python(3.x)中的PyAudio软件包来实现录音的方法。

分类
ASRT 智能语音技术 机器学习

[翻译]使用CTC进行序列建模

原文:https://distill.pub/2017/ctc/

Hannun A. Sequence modeling with ctc[J]. Distill, 2017, 2(11): e8.

下面是连结时序分类(CTC)的一个可视化指导图,CTC是一种用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法。

CTC的工作原理

分类
ASRT Python学习笔记 深度学习

为Keras包装一个线程安全的数据生成器

我们在使用Keras训练深度学习模型时,往往不能一次将数据全部加载进内存中,那样会导致内存不足的问题。包括Keras在内的深度学习框架提供了动态数据加载的模式,也就是说,需要使用到哪些数据时,才会加载哪些数据,而Keras需要我们自己定义一个数据生成器,并通过多线程的机制调用我们传入的数据生成器,克服硬盘的IO速度瓶颈,以实现数据的动态加载。

分类
ASRT 智能语音技术 机器学习 模式识别

几个最新免费开源的中文语音数据集

工欲善其事必先利其器,做机器学习,我们需要有利器,才能完成工作,数据就是我们最重要的利器之一。做中文语音识别,我们需要有对应的中文语音数据集,以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。

分类
ASRT 后端开发 智能语音技术 模式识别 深度学习

ASRT:一个中文语音识别系统

ASRT是一套基于深度学习实现的语音识别系统,全称为Auto Speech Recognition Tool,由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用,也一起开源在GitHub上了。

分类
ASRT Python学习笔记 智能语音技术 程序设计

Python读取wav格式文件

我们经常需要处理wav格式的文件,读取其中的声音信号和相关参数,来做一些事情。如果我们使用C++来做,那么需要对文件的底层存储格式有一个透彻的了解才行,而且考虑不周还有可能出Bug;如果使用MatLab来做,虽然只有一行代码就可以读取文件,但是MatLab语言自身的局限性使得写出的代码难以在实际中投入使用。因此,兼顾简介易用和实用性,用Python来做就显得比较好了。