分类
智能语音技术

语音声学特征提取:MFCC和LogFBank算法的原理

几乎任何做自动语音识别的系统,第一步就是对语音信号,进行特征的提取。通过提取语音信号的相关特征,有利于识别相关的语音信息,并丢弃携带的其他不相关的所有信息,如背景噪声、情绪等。

       我们都知道,人类说话是通过体内的发声器产生的初始声音,被包括舌头和牙齿在内的其他物体形成的声道的形状进行滤波,从而产生出各种各样的语音的。传统的语音特征提取算法正是基于这一点,通过一些数字信号处理算法,能够更准确地包含相关的特征,从而有助于后续的语音识别过程。常见的语音特征提取算法有MFCC、FBank、LogFBank等。

分类
评论型文章

[杂谈]当写技术博客的时候,我们其实在写什么?

写了这么多博客文章了,源于最近的一些感悟,AI柠檬博主也想谈谈当我们在写技术博客的时候,其实真正意义上写的是什么。博客这种东西伴随着第一代互联网的诞生,就已经产生了,在早期的互联网,如果我们自己开设有自己的网络博客,尤其是一个自己的“xxx.com”域名,那是一件很有“范”儿的事情。然而,在最近的若干年以来,博客这类事物却在网络上变得少见了起来,取而代之的是各类平台上的XX号。

分类
智能语音技术

还是不会VAD?三分钟看懂语音激活检测方法

首先我们来明确一下基本概念,语音激活检测(VAD, Voice Activation Detection)算法主要是用来检测当前声音信号中是否存在人的话音信号的。该算法通过对输入信号进行判断,将话音信号片段与各种背景噪声信号片段区分出来,使得我们能够分别对两种信号采用不同的处理方法。

分类
生活点滴

AI柠檬网站已经四岁啦!

2021年,AI柠檬网就满4周岁啦,过去的2020年真的是不平凡的一年呢!AI柠檬网站在过去的一年里运行较为平稳,在国内的云计算厂商阿里云和腾讯云的技术buff加持下,第一次实现了一整个自然年内没有出现任何大的运维事故(丢人了..)。只不过,一些人为或者非人为导致的小问题仍然偶有发生,好在影响面不大,也大都能及时解决掉。

分类
后端开发

高性能MySQL数据库的优化之路

写完前后端代码之后,这个项目的工作就算做完了?不,你的工作其实才刚开始,写完代码只是做下一步工作的必要条件。作为一个可实用的软件产品,你要做的工作是将“玩具汽车”变成真正可以上路跑的“汽车产品”。数据库是网站、APP等产品重要的底层核心支撑服务,为了将我们的项目变成生产级的产品和服务,在数据库方面进行性能优化是重要的一个环节,这里我们用最经典的MySQL来作为案例。

分类
生活点滴

AI柠檬网站重启IPv6网络协议支持

一些细心的小伙伴们最近可能会发现,AI柠檬主要的网站时隔不到一年重新开始支持IPv6协议了。这一回,再次启动对IPv6的支持之后应该就不会去掉了,因为国内以及全球IPv6推进的进程已经加快,如今大多数云服务器和云产品都已经基本支持,不论今后如何维护服务器,这一点不会有太大变化了。

分类
ASRT 后端开发 应用开发 深度学习

深度学习模型最佳部署方式:用Python实现HTTP服务器作API接口

    当训练和测试完成一个深度学习模型之后,如果我们打算将这个算法模型上线,投入生产环境部署使用,那么我们就需要做一些额外的处理工作。由于深度学习模型对于算力需求较大,在上线过程中,一般有减小网络规模、使用专用硬件和通过C/S架构联网进行云端计算这三种方式。AI柠檬博主推荐使用第三种方式,即模型部署于服务器端,客户端通过网络将输入数据发送至服务器,计算得结果后传递给客户端。5G时代就在眼前,IPv6协议大规模部署,万物即将互联,尤其是无线移动互联网作为重要的基础设施是大势所趋。通过联网,即使是成本最低的低端的硬件,也可以在不损失精度的情况下,能够以更快的速度得到深度学习模型的计算结果。例如,ASRT语音识别系统就是以这种方式进行模型的部署的,已经能够为AI柠檬网站提供语音识别服务,用于语音搜索等任务。

分类
ASRT 应用开发 程序设计

ASRT项目发布Python版SDK啦

       ASRT项目最近新上线了Python3版的SDK,并在GitHub与国内的Gitee上同步开源,以方便各位使用Python直接测试ASRT最终的使用效果,欢迎大家使用。开源项目地址为:

https://github.com/nl8590687/ASRT_SDK_Python3

https://gitee.com/ailemon/ASRT_SDK_Python3

       大家也可以直接接入使用AI柠檬部署的ASRT语音识别服务API接口,详见ASRT语音识别项目文档( https://asrt.ailemon.me/docs/ )。由于后端服务器的规模和性能限制,以及网络的延迟,可能存在着等待时间偏长的问题,请耐心等待。

分类
ASRT 智能语音技术

Python复现谷歌SpecAugment数据增强算法

       谷歌在2019年提出了用于语音识别数据增强的SpecAugment算法,基本原理是对频谱图进行各种遮盖,例如横向进行频率范围遮盖,以及纵向进行时间段遮盖,也可以将二者组合起来,如图所示。本文将以代码来介绍在实际应用中如何复现SpecAugment算法,并介绍如何将该代码应用到AI柠檬的ASRT语音识别系统( https://github.com/nl8590687/ASRT_SpeechRecognition )的训练中。

分类
综合技术 评论型文章

为什么每个在计算机行业的人都应当坚持经营一个自己的博客

       毕竟确实是有用的!每写一篇技术博客都是对自己技术学习的督促,也是对自己实际写作能力的考验,更是对自己独立思考和逻辑思维能力的锻炼。“天下文章一大抄”,还有“天下代码一大抄”,在互相抄来抄去的时代,能够自己原创写作,写出好文章,与自己原创从头一点一点编写好代码是一样的。有条件的话可以买一个自己的域名和服务器搭建独立博客,独立博客是自己的专属天地,如同自己的家一般,这里的一切规则由自己喜好主导,页面排版如何展示也自己说了算!在写博客前后,跟读者的交流也是自己的创意和想法的来源,如果自己有什么项目作品,博客还是发布自己的作品的绝佳平台!