Intel人工智能课程

| 分类 技术随笔  | 标签 AI 

4月份的时候接到了一份翻译任务,翻译Intel的人工智能课程(链接:https://software.intel.com/zh-cn/ai/courses,提供讲义、教学视频、工具等)。

我主要翻译pptx讲稿,在翻译过程中也算是对人工智能有了更深入的认识。这份教材还算容易理解。

翻译过程中需要查询各种术语,主要参考的机器之心的术语表和tmxmall上的翻译记忆。

下面介绍下概述性的人工智能简介一课的内容。

人工智能简介

定义

什么是人工智能、机器学习、深度学习。

机器学习的两种类型:有监督学习、无监督学习。

使用机器学习的例子:识别虚假的信用卡交易(需要确定使用哪些特征)。

深度学习使用神经网络,则不需要定义特征(feature)。

历史

一些大事件,比如图灵测试的提出。

两次寒冬:1960-1970,1980-1990

现在的人工智能因为深度学习的突破性进展、算力的提高和大数据,正火热发展。

应用

人工智能在各行各业的落地,比如视频监控,可以不需要人来盯着。

有监督学习、数据采集与增强

有监督学习需要使用标注过的数据。数据一般分为特征和目标,比如一封电子邮件,有某些关键词(特征)的话,可以推断为垃圾邮件(目标)。机器学习使用一定的算法来利用这些数据进行训练,并对新的数据做出推理。

主要的工作流程是:问题陈述-数据采集-数据探索与预处理-建模-验证-决策与部署

因为提供学习的数据是有限的,生成的模型可能会过拟合,在学习的数据上表现很好,但对于真实数据,表现很差。另外也有欠拟合,不能反应数据的特征。

一个解决方案是将数据拆分为两组:训练集和测试集。训练集是训练过程中使用的数据,测试集是用于测量性能的数据,可以模拟未知的数据。

因为机器学习依赖大量数据,所以数据的收集很重要。除了手工制作,还可以利用网上的现成数据,比如维基百科、开源数据集等等。网站的数据一般都要编写爬虫进行获取。

数据有很多类型,比如文本、音频、图像等等。有的时候图像数据不够,可以通过一定的算法增加图像。比如车牌照片,可以生成不同号码的版本,增加数据量。

有监督学习需要标注的数据,这一过程由人工来做需要耗费大量精力。可以使用半监督学习来辅助进行标注。

获取的数据可能还会存在很多质量问题,比如数据中的偏差和异常值问题。

深度学习

深度学习直接对大量的数据进行处理。它受到生物学中的神经元的启发。多个特征输入一个神经元,神经元给它们赋予各自的权重,然后通过一个激活函数得到输出。可以有多层神经网络,网络的训练就是要确定合适的权重。

因为这种完全连接的网络计算需求大,又提出了卷积神经网络。另外,因为训练成本很高,所以一般选择在预训练的数据上进行额外训练,做一种“微调”,叫做迁移学习(Transfer learning)。

软件和硬件

软件

Intel给出了一系列针对Intel CPU进行优化的工具,比如Python的Intel发行版、Intel® Math Kernel Library数学库等等。

另外还介绍了一些用于数据科学的Python*类库、机器学习框架和一些大数据软件。

用于数据科学的Python*类库:numpy、pandas、matplotlib、scikit-learn、TensorFlow

机器学习框架:TensorFlow、Caffe、Theano、MXNet

大数据:Apache Spark、BigDL

硬件

从网络的角度看,有位于中心的数据中心、处于中间的网关还有位于边缘的设备。

训练通常在数据中心进行,可以提供更高的处理器功率和更多的物理空间。

网关计算机将信息从边缘设备路由到数据中心,再从数据中心路由出去。

位于边缘的设备需要和数据中心交换信息,但由于距离太远,所以很多边缘计算应该尽可能有边缘设备自己进行。边缘计算通常用于推理而不是模型训练。

所需的计算设备是CPU、GPU和专用的人工智能处理器,另外还有FPGA,通过定制化的硬件提供更高的性能。不过人工智能模型映射到硬件并不是一件容易的事情。

Intel神经计算棒(Intel Movidius Neural Compute Stick)是一个专门用于神经网络推理的便携设备,它里面搭载的Intel Movidius Myriad 视觉处理单元(VPU)就是一种专门的人工智能处理器。它可以增强边缘设备的推理能力,是树莓派这类设备的好搭档。

其它课程:

自然语言处理:NLP简介、预处理(nltk、textblob和spaCy)、抽取文本特征、主题模型(LDA潜在语义分析)、文本生成(马尔科夫链、LSTM)、文本相似度(编辑距离、余弦相似度)、机器学习(朴素贝叶斯、词袋模型)、深度学习(word2vec、gensim)。

时间序列分析:时间序列分析常用于经济预测、股票市场分析、需求计划与预测、异常检测等等。

计算机视觉:捕获图像、预处理图像、处理图像。涉及传统的及深度学习的计算机视觉内容。

利用英特尔FPGA进行深度学习推理:英特尔收购了FPGA巨头Altera,也推出了自己的FPGA设备。

边缘计算机视觉:使用Intel神经计算棒完成计算机视觉任务。

机器学习和深度学习两门课的实用性很强,目前Intel已经优先给出了中文版本。


上一篇     下一篇