分类
机器学习 模式识别 深度学习

[论文分享]Dropblock:一个用于卷积网络的正则化方法

点击量:48

Ghiasi, Golnaz, Tsung-Yi Lin, and Quoc V. Le. “Dropblock: A regularization method for convolutional networks.” Advances in Neural Information Processing Systems. 2018.

卷积层Dropout的不太成功可能是由于以下事实:卷积层中的激活单元在空间上相关,因此尽管有丢失,信息仍可以通过卷积网络流动。所以我们需要使用一个新的可以用于卷积层的Drop方法。

分类
机器学习

生物信息学中的迁移学习

点击量:50

摘要: 在使用机器学习处理一些实际场景中的任务时,往往会面临可获取的数据量不多的问题,而生物信息学就是这样的一个领域。生物信息学相关数据的样本量有限,而且往往样本正反例不平衡,主要为正例样本,并且数据的标注成本较高,而迁移学习技术使得在这样的条件下进行机器学习成为了可能。本文主要论述使用迁移学习进行生物信息学研究的可行性、有效性和重要性。

关键词: 生物信息学; 迁移学习

分类
机器学习

机器学习:梯度下降算法是如何工作的

点击量:362

在进行机器学习的时候,我们常常要使用到各种各样的优化算法,以此使得模型能够尽可能收敛到最优的解,而梯度下降(Gradient Descent)算法就是这样的一种无约束的一阶优化算法,并且,根据算法的确定性和随机性,可分为批量梯度下降法和随机梯度下降法。

分类
机器学习

机器学习:感知机模型

点击量:201

感知机(perceptron)是线性二分类模型,输入是实例的特征向量,输出是用“+1”和“-1”表示的实例类别。AI柠檬曾在两年半前的文章中,详细介绍过机器学习中的逻辑斯蒂回归模型,它是感知机模型的一种变种。作为判别模型,感知机将实例用一个超平面划分为正负两类,是神经网络和支持向量机的基础。

分类
ASRT 智能语音技术 机器学习

[翻译]使用CTC进行序列建模

点击量:1438

原文:https://distill.pub/2017/ctc/

Hannun A. Sequence modeling with ctc[J]. Distill, 2017, 2(11): e8.

下面是连结时序分类(CTC)的一个可视化指导图,CTC是一种用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法。

CTC的工作原理

分类
机器学习

机器学习:朴素贝叶斯分类器

点击量:626

朴素贝叶斯分类器(naïve Bayes classifier)是机器学习中的一种假设特征之间强独立的基于贝叶斯定理的简单概率分类器。朴素贝叶斯自20世纪50年代起就已经广泛研究,具有快速易实现的优点,这种机器学习方法在有适当的预处理时,可以与这个领域包括支持向量机在内的更先进的方法相竞争[1]。本文将主要介绍朴素贝叶斯分类器算法的原理,并以一个小实例解释其在实际中是如何应用的。

分类
机器学习 深度学习

如何解决神经网络训练时loss不下降的问题

点击量:63699

当我们训练一个神经网络模型的时候,我们经常会遇到这样的一个头疼的问题,那就是,神经网络模型的loss值不下降,以致我们无法训练,或者无法得到一个效果较好的模型。导致训练时loss不下降的原因有很多,而且,更普遍的来说,loss不下降一般分为三种,即:训练集上loss不下降,验证集上loss不下降,和测试集上loss不下降。这里,首先默认各位都能理解过拟合和欠拟合的概念,如果有不清楚的可以参考下面的一些文章。

分类
机器学习

ASVRG:一个更好的加速近端SVRG

点击量:1440

ASVRG是由西安电子科技大学一科研团队于近期新提出来的一个加速的近端随机变量减小的梯度方法,通过设计一个简单高效的动量加速技巧,只添加一个额外的变量和一个动量参数,使得其拥有了一个更简单且所需的训练迭代数更少的加速效果。并且,ASVRG被证明可以实现强凸和非强凸目标的最著名的oracle复杂性,此外,还可以扩展到小批量和非平滑设置。作者在论文中,还凭经验验证了理论结果,并表明ASVRG的性能与最先进的随机方法相当,有时甚至更好。

分类
机器学习

分布式机器学习:新书推荐和介绍

点击量:800

博主前一段时间在其他人的推荐下,入手了近期新出的一本名为《分布式机器学习:算法、理论与实践》的书。这是一本全面介绍分布式机器学习的现状,深入分析其中的核心技术问题,并讨论分布式机器学习领域未来的发展,不可多得的好书。这本书是基于微软亚洲研究院机器学习研究团队多年的研究成果和实践经验编写成的,可为研究生从事分布式机器学习方向研究提供参考文献,也可为人工智能从业者提供算法选择和系统设计的指导。

分类
ASRT 智能语音技术 机器学习 模式识别

几个最新免费开源的中文语音数据集

点击量:22502

工欲善其事必先利其器,做机器学习,我们需要有利器,才能完成工作,数据就是我们最重要的利器之一。做中文语音识别,我们需要有对应的中文语音数据集,以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。