分类
智能语音技术 深度学习

[论文分享]迁移学习实现基于预算的语音识别

点击量:95

Kunze, Julius, et al. “Transfer learning for speech recognition on a budget.” arXiv preprint arXiv:1706.00290 (2017).

大家好,本次我要分享的论文是Transfer Learning for Speech Recognition on a Budget

分类
评论型文章

计算机的内功真的很重要吗?

点击量:113

本文原为本人在知乎上的一个同名问题下的回答内容

https://www.zhihu.com/question/392971737/answer/1417910483

计算机的内功就是计算机科学一路发展来的这一套成熟的理论体系和技术框架,简单从计算机专业基础课来说,就包括了:程序设计基础、数据结构、算法、计算机组成原理、计算机体系结构、计算机网络、操作系统原理、编译原理、微机原理、数据库、软件工程和软件体系结构。而数学(包括高等数学、线性代数和概率论与数理统计)则是做计算机科学理论研究的基础

分类
智能语音技术

[论文分享]FastSpeech: 快速鲁棒可控的语音合成

点击量:94

Ren, Yi, et al. “Fastspeech: Fast, robust and controllable text to speech.” Advances in Neural Information Processing Systems. 2019.

本次分享的论文是FastSpeech语音合成框架,这篇论文由微软研究院和浙大联合发表在NIPS2019上。

分类
程序设计

C#在UWP中实现录音功能

点击量:33

我们在开发Windows客户端程序时,有时需要实现录音的功能,比如使用语音识别时。本文中的代码通过DLL导入调用系统API实现了录制16kHz、16bit位宽的单声道wav格式录音。该代码已用于ASRT语音识别客户端SDK(C# UWP版):

https://github.com/nl8590687/ASRT_SpeechClient_UWP

分类
学界业界动态

语音合成:基础与前沿

点击量:36

语音合成又称文语转换(Text to Speech, TTS)技术,是语音处理领域的一个重要研究方向,旨在让机器生成自然动听的人类语音。

近年来在深度学习的推动下,语音合成技术飞速发展,落地应用越来越多,最常见的是手机语音助手、车载导航、智能音箱、智能玩具等,这些应用都离不开语音合成技术的支持。

(语音合成相关应用图)
分类
程序设计

C#基于winmm实现录音功能

点击量:43

我们在开发Windows客户端程序时,有时需要实现录音的功能,比如使用语音识别时。本文中的代码通过DLL导入调用系统API实现了录制16kHz、16bit位宽的单声道wav格式录音。该代码已用于ASRT语音识别客户端SDK(C# WPF桌面版):https://github.com/nl8590687/ASRT_SpeechClient_WPF

分类
ASRT 智能语音技术

教你如何使用ASRT部署中文语音识别API服务器

点击量:568

ASRT是一个中文语音识别系统,由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上,为了便于大家使用,本文将手把手按顺序教你如何使用ASRT语音识别系统在测试和生产环境中部署中文语音识别API服务器。文本以CPU (Intel x86_64) + Linux + Python 3 + Nginx 为示例运行环境。

分类
智能语音技术

[论文分享]用GAN从MFCC合成语音波形

点击量:114

Juvela, Lauri, et al. “Speech waveform synthesis from MFCC sequences with generative adversarial networks.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

本次论文分享的是一篇2018年发表在IEEE上的用GAN从MFCC合成语音波形的论文。

分类
ASRT 智能语音技术

教你如何使用ASRT训练中文语音识别模型

点击量:1013

ASRT是一个中文语音识别系统,由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上,为了便于大家使用,本文将手把手按顺序教你如何使用ASRT语音识别系统训练一个中文语音识别模型。

首先到GitHub上打开ASRT语音识别项目仓库:https://github.com/nl8590687/ASRT_SpeechRecognition

国内Gitee镜像地址:https://gitee.com/ailemon/ASRT_SpeechRecognition

打开的网页如图所示

分类
智能语音技术

[论文分享]Char2wav端到端语音合成

点击量:85

Sotelo, Jose, et al. “Char2wav: End-to-end speech synthesis.” (2017).

Char2Wav是一个2017年发表在ICLR上的语音合成模型。