分类
智能语音技术 深度学习

[论文分享]迁移学习实现基于预算的语音识别

点击量:32

Kunze, Julius, et al. “Transfer learning for speech recognition on a budget.” arXiv preprint arXiv:1706.00290 (2017).

大家好,本次我要分享的论文是Transfer Learning for Speech Recognition on a Budget

分类
模式识别 深度学习

[论文翻译] Dropblock:一个用于卷积网络的正则化方法

点击量:68

GolnazGhiasi, Tsung-YiLin, QuocV.Le
Google Brain

摘要

当深度神经网络被过度参数化并经过大量噪声和正则化训练(例如权重衰减和dropout)时,它们通常可以很好地工作。尽管Dropout被广泛用作全连接层的正则化技术,但对于卷积层而言,效果通常较差。卷积层Dropout的不太成功可能是由于以下事实:卷积层中的激活单元在空间上相关,因此尽管有丢失,信息仍可以通过卷积网络流动。因此,需要结构化的Dropout形式来规范卷积网络。在本文中,我们介绍了DropBlock,这是一种结构化的Dropout形式,其中特征图的连续区域中的单元被一起Drop掉。我们发现,在卷积层之外的跳过连接中应用DropbBlock可以提高准确性。同样,在训练过程中逐渐增加的Drop单元数量会产生更佳的准确性和对超参数选择的鲁棒性。大量的实验表明,在正则化卷积网络中,DropBlock的效果要优于Dropout。在ImageNet分类中,带有DropBlock的ResNet-50体系结构可实现78.13%的准确度,比基线提高了1.6%以上。在COCO检测时,DropBlock将RetinaNet的平均精度从36.8%提高到38.4%。

分类
机器学习 模式识别 深度学习

[论文分享]Dropblock:一个用于卷积网络的正则化方法

点击量:48

Ghiasi, Golnaz, Tsung-Yi Lin, and Quoc V. Le. “Dropblock: A regularization method for convolutional networks.” Advances in Neural Information Processing Systems. 2018.

卷积层Dropout的不太成功可能是由于以下事实:卷积层中的激活单元在空间上相关,因此尽管有丢失,信息仍可以通过卷积网络流动。所以我们需要使用一个新的可以用于卷积层的Drop方法。

分类
模式识别 深度学习

[翻译]生成对抗网络

点击量:168

本文为论文 Generative Adversarial Nets 的翻译文

论文原文链接: https://arxiv.org/abs/1406.2661

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley,

Sherjil Ozair, Aaron Courville, Yoshua Bengio§

Departement d’informatique et de recherche op´ erationnelle´

Universite de Montr´ eal´

Montreal, QC H3C 3J7´

分类
模式识别 深度学习

西电华为俱乐部演讲:深度学习的应用

点击量:268

近日,AI柠檬博主在西电华为俱乐部进行了关于深度学习应用相关的演讲,与各位同学分享深度学习的发展和最新应用,以下是演讲的全部PPT内容。

分类
模式识别 深度学习

tensorflow 2.0实现mnist手写数字识别

点击量:351

最近这一段时间,TensorFlow 2.0发布,这是你从没有体验过的全新的版本,为了能够尽快接触和体验到2.0新版本的特性,AI柠檬博主从mnist手写数字识别Demo入手,开始学习TensorFlow 2.0版。由于tf2原生内置keras包,无需另外安装,本样例将以tf.keras代码实现,并且在这一过程中发现,原本的keras代码仅需极少数改动即可迁移到TensorFlow 2.0,这对于之前一直使用Keras的用户来说,可谓非常友好了。

分类
ASRT 智能语音技术 模式识别 深度学习

ASRT语音识别程序依赖环境说明

点击量:616

ASRT语音识别项目是AI柠檬博主于2017年初开始着手实现的一个开源项目。由于本项目从最初第一个可用版发布到现在已经有较长时间了,在软件的依赖包方面,已经与两年前有了很大的不同,本文将介绍ASRT项目在程序运行的依赖环境上的一些问题,供参考,如果后续有变化,会及时更新。几乎所有基于TensorFlow 1.x版本和Keras的程序都可以参考本文的配置。

分类
学界业界动态 智能语音技术 模式识别 深度学习

使用N-DenseNet实现城市声音事件分类模型

点击量:469

现代社会中,智慧城市的构建是一个当前的趋势,其中包括利用传感器网络收集目标城市的城市声音时间的信息采集和分类研究用相关音频数据并进行分析,这对于是提高智能感知水平的重要一步。来自江南大学的一研究团队,通过采用N-DenseNet网络模型,实现了对城市声音事件的分类,其一阶和二阶模型的分类准确率达到了83.63%和81.03%,并且具有良好的泛化能力。

分类
智能语音技术 模式识别 深度学习

[翻译]Deep Speech:中文和英文中的端到端的语音识别

点击量:1075

本文翻译自百度Deep Speech 论文

原文:
https://openreview.net/forum?id=XL9vPjMAjuXB8D1RUG6L

百度研究院 – 硅谷AI实验室
Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro,
Jingdong Chen, Mike Chrzanowski, Adam Coates, Greg Diamos, Erich Elsen, Jesse Engel,
Linxi Fan, Christopher Fougner, Tony Han, Awni Hannun, Billy Jun, Patrick LeGresley,
Libby Lin, Sharan Narang, Andrew Ng, Sherjil Ozair, Ryan Prenger, Jonathan Raiman,
Sanjeev Satheesh, David Seetapun, Shubho Sengupta, Yi Wang, Zhiqian Wang, Chong Wang, Bo Xiao, Dani Yogatama, Jun Zhan, Zhenyao Zhu

分类
学界业界动态 智能语音技术 模式识别 深度学习

MCNN-CTC:将语音识别错误率再降12%

点击量:985

近些年来,随着深度学习的发展,语音识别的准确率已经达到较高水平。卷积神经网络的应用,对于语音识别系统准确率的提升起了至关重要的作用。虽然普通的深度卷积神经网络,随着深度的增加,准确率应该会有所提升,但是其在宽度上的限制,使得其可能无法捕捉到人类语音信号中足够的信息。近日,江南大学一团队提出了深度多路卷积神经网络MCNN-CTC模型,在没有语言模型的情况下,可将端到端声学模型的错误率相比DCNN-CTC模型下降1.10%-12.08%,并有着更好的性能。相关论文发表在Intelligent Robotics and Applications 2019。