初学Python

点击量:844

Python的确是一个易于学习且功能强大的编程语言,而且是跨平台做的最好的编程语言。虽然它是解释型的语言,但是其开发效率之高,有目共睹,弥补了运行速度稍慢的缺陷。Python有胶水语言之称,解释器很容易拓展,用起来像瑞士军刀。当前的很多机器学习方面的项目都是基于Python语言实现的,所以感觉这个语言未来会很火。本人推荐直接学Python3版本,这样在时代的潮流下才不容易掉队。: )

继续阅读“初学Python”

Linux系统下安装TensorFlow的GPU版本

点击量:6405

前言:
安装TensorFlow的GPU版本真的不是一件容易的事,好难,网上的各种安装教程倒是不少,但是基本没有一个能完全照着那种方法就能安装成功的,甚至有些连最基本的一些必需的步骤都没写到,那样子的话能安装到位才是奇迹。
在经历各种踩坑后,我通过大量的互联网搜索,综合各个网站上写到的安装tensorflow-gpu的方法,终于总结出来一个走的通的方法,并且亲自动手实践,成功在Linux(Ubuntu) + Python3.5安装且运行了一个卷积神经网络的训练程序。

继续阅读“Linux系统下安装TensorFlow的GPU版本”

在多平台上安装TensorFlow的方法

点击量:4107

TensorFlow是谷歌在近期开源的一款深度学习方面的框架,有纯CPU版本和使用了GPU的版本。我们通过使用它,可以大大方便我们在神经网络方面的工作,降低我们的工作量。众所周知,TensorFlow是基于Python的,所以我们需要使用Python来做。TensorFlow在Windows上仅支持64位Python 3.5。

鉴于Python2已经濒临淘汰,所以,我建议现在以及今后都直接使用Python3来做,除非你手头有一大堆现有的py2的代码项目,否则,Python2迟早是要切换到Python3,到时候又是一大堆代码要手动升级到3版本,3和2的代码差别太大了。
继续阅读“在多平台上安装TensorFlow的方法”

【伪科学争议】谷歌研究员两万字批驳上交大用深度学习推断犯罪分子

点击量:554

不久前, 上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,根据人的脸部特征预测一个人是否有犯罪倾向,“准确率接近90%”。该研究在国内外引起了广泛的争议。近日,谷歌的几名研究员撰文对这一研究进行了批驳,回顾了机器学习技术的底层运作方式和技术细节,并探讨机器学习等先进技术在融入现实中所遇到的难题和挑战。

继续阅读“【伪科学争议】谷歌研究员两万字批驳上交大用深度学习推断犯罪分子”

机器学习入门教程分享

点击量:695

经常会在一些社区类网站看到有人问如何入门和学习机器学习,于是,我在这里分享一些我学习机器学习这一段时间以来收集的各类比较好的教程。

我过滤掉了一些没什么用的教程和资料,因为那些确实没有用,而且看起来太多太繁琐,人的精力有限,只要能把这些资料看完,就已经可以变得很厉害了。
继续阅读“机器学习入门教程分享”

统计语言模型:从中文拼音到文本

点击量:2686

前言:

自然语言是信息的载体,记录和传播着信息,信息论之父香农对信息的定义是“信息是用于消除随机不确定性的东西”。信息通过编码,经过一定的信道传输,然后传递到接收者,再解码成对应的可被人理解感知的东西,就完成了一次信息的传递。原始人的通信方式就是说话,而说话是先将信息编码为对应的语言信号,可以是文本,可以是声音,也可以就是中文拼音,然后接收者再将收到的信号进行解码。而我们人类对自然语言的处理经历了从基于规则的算法到基于统计的算法,显然基于统计的方法比规则更有效,下面我将介绍一种基于统计的语言模型,可以实现从拼音转为文本。

继续阅读“统计语言模型:从中文拼音到文本”

博客创建三个月的二三事

点击量:330

我的博客是大约三个月前正式开始写作的,从一开始就是带着一种激情去做的,写博客也纯粹出于公益,主题就是我爱好的科技和人工智能方面的。最初的时候我在网上搜了一些关于建立个人博客方面的事情,看到一些人想利用博客赚钱,不过,这都是很多年前的了,现在时代不同了,现在博客的热已经消退,而回归到了其本质。这样才能体现博客的真正意义。

继续阅读“博客创建三个月的二三事”

业界:谷歌发布会宣布AlphaGo 5月将决战柯洁

点击量:188

最新消息,Google中国今天(北京时间4月10日)下午15:00在北京的中国棋院召开新闻发布会,正式宣布 AlphaGo 将于今年 5 月 23 日在浙江乌镇对决包括柯洁在内的中国顶尖棋手,展开三番棋大战,同时还有团队赛和人机搭配的形式。此次比赛的奖金为150万美元,用来奖赏获胜者。

继续阅读“业界:谷歌发布会宣布AlphaGo 5月将决战柯洁”

为声音文件添加白噪音

点击量:519

在数字信号的处理中,我们在研究一些问题的时候,经常会用到噪音,甚至有时候专门产生噪音并添加到某些信号中来研究一些问题。比如,图像和语音识别等任务中添加一些不同的噪音来测试机器学习模型在有噪音环境下的识别率。我们就需要使用一些方法来产生噪音并且添加到原信号中去。

噪声从物理角度上看,是声波的频率、强弱变化无规律、杂乱无章的声音。[1] 白噪声,是一种功率谱密度为常数的随机信号或随机过程。“白色”仅意味着信号是不相关的,白噪声定义要求其均值为零,但没有对信号应当服从哪种概率分布作出任何假设。如果某白噪声过程服从高斯分布,则它是“高斯白噪声”。类似的,还有泊松白噪声、柯西白噪声等。[2]
继续阅读“为声音文件添加白噪音”

基于字典的简单中文分词算法

点击量:337

做自然语言处理,尤其是中文自然语言处理,文本分词是必不可少的过程。其实不仅仅是中文,大多数亚洲的语言文字在计算机做处理时,都需要进行分词,甚至英文在识别短语时也要进行类似中文分词的过程。所以,我们需要一种有效的分词算法,这里我仅以中文做实例,其他语言可以参考,介绍一种简单的中文分词算法,并附上一个C#版的示例代码。

继续阅读“基于字典的简单中文分词算法”