分类
学界业界动态 智能语音技术

10分钟标注数据胜过一年前的960h数据,FAIR新研究取得语音识别大进展(模型已开源)

点击量:119

近日,来自 FAIR 的研究者提出结合自训练和无监督预训练执行语音识别任务,证明这两种方法存在互补性,并取得了不错的结果。

来自机器之心翻译,有修改 https://www.jiqizhixin.com/articles/2020-11-05-10

自训练和无监督预训练已经成为使用无标注数据改进语音识别系统的有效方法。但是,我们尚不清楚它们能否学习类似的模式,或者它们能够实现有效结合。

最近,Facebook 人工智能研究院(FAIR)一项研究显示,伪标注和使用 wav2vec 2.0 进行预训练在多种标注数据设置中具备互补性。

只需来自 Libri-light 数据集的 10 分钟标注数据和来自 LibriVox 数据集的 5.3 万小时无标注数据,该方法就能在 Librispeech clean 和 other 测试集上取得 3.0%/5.2% 的 WER(词错率),甚至打败了仅仅一年前的基于 960 个小时标注数据训练的最优系统。在 Librispeech 所有标注数据上训练后,该方法可以达到 1.5%/3.1% 的词错率。

分类
学界业界动态

语音合成:基础与前沿

点击量:44

语音合成又称文语转换(Text to Speech, TTS)技术,是语音处理领域的一个重要研究方向,旨在让机器生成自然动听的人类语音。

近年来在深度学习的推动下,语音合成技术飞速发展,落地应用越来越多,最常见的是手机语音助手、车载导航、智能音箱、智能玩具等,这些应用都离不开语音合成技术的支持。

(语音合成相关应用图)
分类
ASRT 学界业界动态 智能语音技术

ASRT开源语音识别项目开始兼容TensorFlow 2.X

点击量:545

大约三周前,一位GitHub用户在ASRT开源语音识别项目提交了一个Issue,指出该项目不能运行于TensorFlow 2.X环境下,存在兼容问题。于是他上周向本项目提交了修改代码的Pull Request。经过本人实际测试,修改后的代码同时兼容TensorFlow 1.X版和2.X版,并且完全无错误正确运行。

分类
学界业界动态 评论型文章

转载:西电校长杨宗凯走进《中国经济大讲堂》解读信息技术如何翻转课堂

点击量:78

本文转载自微信公众号:西安电子科技大学

11月30日晚22时,西安电子科技大学校长杨宗凯受邀走进CCTV2央视财经频道《中国经济大讲堂》“奋斗在科技前沿”栏目,以“信息技术如何‘翻转’课堂”为题,为观众深度解读如何利用信息技术,促进教育融合创新发展。

央视视频回放地址:
http://tv.cctv.com/2019/12/02/VIDExp5vgY9AhtdtrK75cSln191202.shtml

分类
学界业界动态 综合技术 评论型文章

转载:为什么大部分人做不了架构师?这2点是关键

点击量:189

本文转载自“机器之心·阿里技术”

原文: https://www.jiqizhixin.com/articles/2019-11-21-9

阿里妹导读:选择有时候比努力重要,真正厉害的人不仅仅是埋头苦干,而是会利用好的思维方式、好的方法,看穿事物的本质,顺势而为,找到事情的最优解,并懂得举一反三。架构师是程序员的目标之一,但大多数程序员无法成为架构师。真正厉害的架构师具备什么样的思维方式,到底强在哪?今天,韩帅为你揭秘。

分类
学界业界动态

智能医疗再突破:脊柱侧弯智能筛查新系统可达专家水平

点击量:201

脊柱侧弯是青少年中最常见的脊柱疾病,全世界的患病率为0.5–5.2%。由于传统的筛查方法对于阳性的预测成功率较低,并需要一些不必要的转诊和放射成像。上海交通大学附属新华医院的杨军林教授发现裸露背部外观照能够在一定程度上反应脊柱侧弯程度,因此联合中山大学中山眼科中心的林浩添教授、西安电子科技大学的刘西洋教授着手于脊柱侧弯深度学习筛查技术的研发,项目于2018年获得国家重点研发计划项目(项目编号:2018YFC0116500)。其全球首创脊柱侧弯大规模人工智能筛查系统,准确率可达专家水平,这一成果于2019年10月25日在《自然》子刊《通讯·生物学》(Communications Biology)发表。

分类
学界业界动态 智能语音技术 模式识别 深度学习

使用N-DenseNet实现城市声音事件分类模型

点击量:472

现代社会中,智慧城市的构建是一个当前的趋势,其中包括利用传感器网络收集目标城市的城市声音时间的信息采集和分类研究用相关音频数据并进行分析,这对于是提高智能感知水平的重要一步。来自江南大学的一研究团队,通过采用N-DenseNet网络模型,实现了对城市声音事件的分类,其一阶和二阶模型的分类准确率达到了83.63%和81.03%,并且具有良好的泛化能力。

分类
学界业界动态 智能语音技术 模式识别 深度学习

MCNN-CTC:将语音识别错误率再降12%

点击量:1014

近些年来,随着深度学习的发展,语音识别的准确率已经达到较高水平。卷积神经网络的应用,对于语音识别系统准确率的提升起了至关重要的作用。虽然普通的深度卷积神经网络,随着深度的增加,准确率应该会有所提升,但是其在宽度上的限制,使得其可能无法捕捉到人类语音信号中足够的信息。近日,江南大学一团队提出了深度多路卷积神经网络MCNN-CTC模型,在没有语言模型的情况下,可将端到端声学模型的错误率相比DCNN-CTC模型下降1.10%-12.08%,并有着更好的性能。相关论文发表在Intelligent Robotics and Applications 2019。

分类
学界业界动态 智能语音技术 模式识别

语音识别技术发展的历史背景和研究现状

点击量:1119

        人类对于语音识别领域相关技术的研究,从上世纪的50年代初就已经开始了,当时的科研人员就曾对语音发音的音素特征做了相关研究。在1952年时,贝尔(Bell)实验室的研究人员,通过使用模拟的电子器件,实现了针对特定说话人说英文数字的孤立词进行语音识别的功能。这个系统主要是提取发音中每个元音的共振峰信息,然后通过简单的模板匹配,从而实现的。该系统得到了98%的正确率[1]

分类
学界业界动态 评论型文章

深度学习如今还能走多远

点击量:552

2019年3月,计算机领域的最高奖——图灵奖,颁发给了深度学习的三位创造者Yoshua Bengio, Yann LeCun,和Geoffrey Hinton。这三位科学家对深度学习基本概念的发明,做出的令人们轰动的实验,对工程领域和深度神经网络实际应用的贡献,使得他们的得奖当之无愧。