分类
模式识别

马赛克数据增强原理和实现流程

点击量:12

在YOLOv4的论文中,有一个很重要的BoF技巧,就是马赛克数据增强。很多人刚听说马赛克数据增强的时候,不知道这究竟是一种什么样的数据增强方案,其实,它是CutMix之类的图片预处理方案的一种推广。

分类
ASRT 应用开发 智能语音技术 生活点滴

AI柠檬网站上线站内搜索引擎,支持语音搜索

点击量:24

近日,AI柠檬网站上线了站内搜索引擎,并且支持语音搜索功能,以方便一个地方即可搜索包括AI柠檬的中文博客、英文博客和ASRT语音识别项目网站和文档等所有站点页面,大大优化了用户体验。搜索网站地址为:https://s.ailemon.me/ ,也可通过中文博客底部的搜索框进行搜索。打开后,直接在搜索框中输入文本即可,或点击“话筒”图标,说话完毕后,再次点击即可直接跳转到搜索结果页面。其中,语音搜索功能由ASRT中文语音识别项目实现和驱动。

分类
模式识别

YOLOv4论文详细解读

点击量:54

大家好,本次分享的是YOLOv4的那篇论文

分类
ASRT 应用开发 智能语音技术

ASRT上线测试Demo啦

点击量:99

ASRT项目最近新上线了Web网页端的测试Demo,以供各位测试ASRT最终的使用效果。测试地址为:https://asrt.ailemon.me/demo ,欢迎大家进行测试使用。开源的JavaWeb项目地址为:https://github.com/nl8590687/ASRT_SpeechClient_JavaWeb 。由于后端服务器的规模和性能限制,以及网络的延迟,可能存在着等待时间偏长的问题,请耐心等待,不要不停地点击识别按钮,会加重服务器负担。如果显示没有变化,可能是本身没录上音或者录音声音为空白噪声。

分类
智能语音技术 深度学习

[论文分享]迁移学习实现基于预算的语音识别

点击量:52

Kunze, Julius, et al. “Transfer learning for speech recognition on a budget.” arXiv preprint arXiv:1706.00290 (2017).

大家好,本次我要分享的论文是Transfer Learning for Speech Recognition on a Budget

分类
评论型文章

计算机的内功真的很重要吗?

点击量:82

本文原为本人在知乎上的一个同名问题下的回答内容

https://www.zhihu.com/question/392971737/answer/1417910483

计算机的内功就是计算机科学一路发展来的这一套成熟的理论体系和技术框架,简单从计算机专业基础课来说,就包括了:程序设计基础、数据结构、算法、计算机组成原理、计算机体系结构、计算机网络、操作系统原理、编译原理、微机原理、数据库、软件工程和软件体系结构。而数学(包括高等数学、线性代数和概率论与数理统计)则是做计算机科学理论研究的基础

分类
智能语音技术

[论文分享]FastSpeech: 快速鲁棒可控的语音合成

点击量:62

Ren, Yi, et al. “Fastspeech: Fast, robust and controllable text to speech.” Advances in Neural Information Processing Systems. 2019.

本次分享的论文是FastSpeech语音合成框架,这篇论文由微软研究院和浙大联合发表在NIPS2019上。

分类
应用开发

C#在UWP中实现录音功能

点击量:23

我们在开发Windows客户端程序时,有时需要实现录音的功能,比如使用语音识别时。本文中的代码通过DLL导入调用系统API实现了录制16kHz、16bit位宽的单声道wav格式录音。该代码已用于ASRT语音识别客户端SDK(C# UWP版):

https://github.com/nl8590687/ASRT_SpeechClient_UWP

分类
学界业界动态

语音合成:基础与前沿

点击量:28

语音合成又称文语转换(Text to Speech, TTS)技术,是语音处理领域的一个重要研究方向,旨在让机器生成自然动听的人类语音。

近年来在深度学习的推动下,语音合成技术飞速发展,落地应用越来越多,最常见的是手机语音助手、车载导航、智能音箱、智能玩具等,这些应用都离不开语音合成技术的支持。

(语音合成相关应用图)
分类
应用开发

C#基于winmm实现录音功能

点击量:34

我们在开发Windows客户端程序时,有时需要实现录音的功能,比如使用语音识别时。本文中的代码通过DLL导入调用系统API实现了录制16kHz、16bit位宽的单声道wav格式录音。该代码已用于ASRT语音识别客户端SDK(C# WPF桌面版):https://github.com/nl8590687/ASRT_SpeechClient_WPF