ASRT语音识别程序依赖环境说明

点击量:16

ASRT语音识别项目是AI柠檬博主于2017年初开始着手实现的一个开源项目。由于本项目从最初第一个可用版发布到现在已经有较长时间了,在软件的依赖包方面,已经与两年前有了很大的不同,本文将介绍ASRT项目在程序运行的依赖环境上的一些问题,供参考,如果后续有变化,会及时更新。几乎所有基于TensorFlow 1.x版本和Keras的程序都可以参考本文的配置。

继续阅读“ASRT语音识别程序依赖环境说明”

机器学习:感知机模型

点击量:72

感知机(perceptron)是线性二分类模型,输入是实例的特征向量,输出是用“+1”和“-1”表示的实例类别。AI柠檬曾在两年半前的文章中,详细介绍过机器学习中的逻辑斯蒂回归模型,它是感知机模型的一种变种。作为判别模型,感知机将实例用一个超平面划分为正负两类,是神经网络和支持向量机的基础。

继续阅读“机器学习:感知机模型”

使用N-DenseNet实现城市声音事件分类模型

点击量:194

现代社会中,智慧城市的构建是一个当前的趋势,其中包括利用传感器网络收集目标城市的城市声音时间的信息采集和分类研究用相关音频数据并进行分析,这对于是提高智能感知水平的重要一步。来自江南大学的一研究团队,通过采用N-DenseNet网络模型,实现了对城市声音事件的分类,其一阶和二阶模型的分类准确率达到了83.63%和81.03%,并且具有良好的泛化能力。

继续阅读“使用N-DenseNet实现城市声音事件分类模型”

Docker介绍

点击量:279

在服务器端上线并提供一项软件服务的时候,最常见的方式是手工部署安装运行相关的服务软件(比如网站)。如果仅仅是部署一次就长期使用下去还好,但是如果需要在多台机器上批量部署,或者每过一段时间就有服务迁移的可能的情况下,如果配置非常的繁琐或耗时,数据配置迁移和升级维护过程较复杂,批安装量较大,以及不同的机器上的基础运行环境存在差异,那么使用Docker来统一进行安装和维护则是比较明智的选择。使用Docker安装,只需要在安装好docker软件后,使用一个相应的配置文件,即可快速批量完成服务的安装。

继续阅读“Docker介绍”

[翻译]Deep Speech:中文和英文中的端到端的语音识别

点击量:466

本文翻译自百度Deep Speech 论文

原文:
https://openreview.net/forum?id=XL9vPjMAjuXB8D1RUG6L

百度研究院 – 硅谷AI实验室
Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro,
Jingdong Chen, Mike Chrzanowski, Adam Coates, Greg Diamos, Erich Elsen, Jesse Engel,
Linxi Fan, Christopher Fougner, Tony Han, Awni Hannun, Billy Jun, Patrick LeGresley,
Libby Lin, Sharan Narang, Andrew Ng, Sherjil Ozair, Ryan Prenger, Jonathan Raiman,
Sanjeev Satheesh, David Seetapun, Shubho Sengupta, Yi Wang, Zhiqian Wang, Chong Wang, Bo Xiao, Dani Yogatama, Jun Zhan, Zhenyao Zhu

继续阅读“[翻译]Deep Speech:中文和英文中的端到端的语音识别”

Python实现录音和播放功能

点击量:288

我们在需要跟用户使用语音进行交互的场景中,经常需要使用到录音的功能,比如网络语音通话和语音助手等,而完整的从底层实现录音功能往往是相当困难的,通常通过调用相关API来实现。这里我们介绍一种使用Python(3.x)中的PyAudio软件包来实现录音的方法。

继续阅读“Python实现录音和播放功能”

AI柠檬新版个人主页上线:采用极简瀑布流布局模板

点击量:255

昨日,AI柠檬正式将新版个人主页上线部署,使用更简洁清新的主题替换了使用两年半的扁平彩色方格主题页面,美观度MAX。新版个人主页基于Spring MVC架构,采用Java语言和JSP技术设计开发,并使用Apache Tomcat + Nginx服务器进行部署,不再是简单纯HTML的静态网站。后续还将根据需要对网站进行版本迭代,在个人主页功能的基础上开发一系列周边功能。

继续阅读“AI柠檬新版个人主页上线:采用极简瀑布流布局模板”

MCNN-CTC:将语音识别错误率再降12%

点击量:586

近些年来,随着深度学习的发展,语音识别的准确率已经达到较高水平。卷积神经网络的应用,对于语音识别系统准确率的提升起了至关重要的作用。虽然普通的深度卷积神经网络,随着深度的增加,准确率应该会有所提升,但是其在宽度上的限制,使得其可能无法捕捉到人类语音信号中足够的信息。近日,江南大学一团队提出了深度多路卷积神经网络MCNN-CTC模型,在没有语言模型的情况下,可将端到端声学模型的错误率相比DCNN-CTC模型下降1.10%-12.08%,并有着更好的性能。相关论文发表在Intelligent Robotics and Applications 2019。

继续阅读“MCNN-CTC:将语音识别错误率再降12%”

[翻译]使用CTC进行序列建模

点击量:436

原文:https://distill.pub/2017/ctc/

Hannun A. Sequence modeling with ctc[J]. Distill, 2017, 2(11): e8.

下面是连结时序分类(CTC)的一个可视化指导图,CTC是一种用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法。

CTC的工作原理

继续阅读“[翻译]使用CTC进行序列建模”

为keras基于TensorFlow后端实现多GPU并行计算

点击量:591

在训练深度学习模型的时候,尤其是大规模深度学习模型的训练,我们可能会遇到一些问题,比如觉得计算速度不够快,或者显存不够用,然而,我们却无法为了提升速度或者降低存储空间占用,从而缩小模型的规模或者数据输入输出的尺寸等。这时,我们可以通过多GPU并行计算来解决这一问题。在Keras框架中,虽然本身内置了一些可以多GPU并行计算的API,但是似乎不起作用而且还常常报错。这里有一份基于TensorFlow后端实现的多GPU并行计算的模块,在Keras上亲自测试通过,可以起到通过多卡扩展显存空间和取得加速比的作用。

继续阅读“为keras基于TensorFlow后端实现多GPU并行计算”