5分钟玩转机器学习，0门槛体验人工智能

7月 30

一、概述

为了让大家可以简单拍出好看的照片，手机厂家和拍照APP公司不断优化拍照效果，让没有任何设计基础的普通用户也能拍出色彩饱满的美丽照片；

为了让网站搭建变得简单，现在有大量可视化建站工具辅助网站搭建，无需html,css，js基础，也能够快速搭建出移动网站；

机器学习同样如此，为了让AI技术更好的辅助商业决策，并更加易于使用，阿里PI，第四范式，九章云极，DataRobot等公司提供了解决方案–可视化机器学习实验平台，只要您手中有数据，并理解数据的含义，便可以通过简单拖拽完成二分类、多分类，聚类或协同推荐等负责机器学习模型训练。

AlphaGo一战成名，利用深度学习算法，战胜国际象棋冠军李世石，随后Mater更是以60:0的战绩横扫世界围棋大师，让世人看到了AI的强大，也知道了深度学习这个名词，但深度学习只是AI的一个方向，如下图所示：

深度学习在自然语言处理，语音识别，图像识别，模式识别等领域应用较多；而在商业智能、辅助决策、智能推荐等领域，机器学习技术更加成熟。

笔者今天和大家分享的是如何使用工具–第四范式先知平台，只需简单拖拽，5分钟便可以快速搭建一个心脏病预测实验。也就是将各种检查指标输入系统后，自动判定是否患有心脏病的一个机器模型。

二、5分钟玩转机器学习

2.1平台注册

输入网址：https://www.4paradigm.com/

点击右侧【点击试用】并注册账号

2.2数据准备及理解

心脏病是人类健康的头号杀手。全世界1/3的人口死亡是心脏病引起的。而我国，每年有几十万人死于心脏病，通过数据挖掘方式，分析不同特征对于心脏病的影响，预测是否患有心脏病意义重大，下文实验数据源于UCI开源数据集，所用数据为真实数据，包含了303条美国某区域的心脏病检测患者的数据，点击下方链接下载数据，实验数据笔者已经完成预处理，您可以可以到UCI主页选择其他数据做机器学习尝试。

实验数据下载链接：https://pan.baidu.com/s/16hPFfu3JKkbRC2ulAOVNLw

UCI机器学习训练数据：http://archive.ics.uci.edu/ml/index.php

数据意义如下所示：

status为目标数据，也就是判定是否患有心脏病的目标数据。

2.3机器学习实验构建

1、导入数据

进入先知系统，鼠标移至最左侧，点击我的数据

选择【本地文件】，上传刚刚下载的《心脏病预测数据.csv》文件，打开文件收房为字段名和随机预览按钮，确认无误后点击下一步，如下图所示：

为数据表命名，点击确定，数据引用需要一段时间，状态变成【可用】时便可以继续操作了。

2、新建项目并添加组件

进入先知系统，点击项目汇总后面的加号，新建项目，如下图所示：

点击【项目数据】，点击数据源后面加号，选择刚刚导入数据，如下所示：

按照提示顺序，将组件拖拽到画布当中，并完成链接，如下所示：

3、设置参数

点击数据拆分：选择拆分比例0.8

点击特征抽取：选择打开脚本编辑框，点击生成配置，输入目标值status，点击覆盖现有配置，然后点击保存，按照同样设置填写右侧特征抽取组件。

拆分组件选择

点击评估组件，score字段输入prediction_score，目标值字段选择输入target_status。

4、运行并查看评估结果

点击底部【启动】，等待所有组件运行完成后，右键点击评估组件，选择【预览结果】，如下图所示：

我们可以看到，经过拆分组件运行，将80%用于实验训练，剩余20%用于训练验证，共有58个样本参与验证，准确率可以达到81%，auc值为0.876。您也可以尝试使用GBDT组件进行训练，看一下您可以做到什么样的准确率，经过GBDT调参，笔者使用GBDT组件将准确率做到84.5%，auc值达到0.916，也就是当病人提供同样字段数据，投入模型中，模型即可判定其是否患有心脏病，准确率可达到84.5%，理论上数据量越大，模型拟合的会越好，其准确率将越高。

如果需要进行文本分析，图像识别可以考虑使用阿里PI实现，简单阅读帮助文档，依然通过拖拽即可完成，如下图所示：

三、相关知识介绍

3.1常用概念

数据挖掘：数据挖掘的概念比较宽泛，指从大量的数据中通过算法挖掘出有用的信息。通常数据挖掘的常用方法大多来自于机器学习算法。

监督学习：监督学习是用正确答案已知的例子来训练模型，也就是用标记过的数据。

无监督学习：无监督学习中使用的数据是没有标记过的，即不知道输入数据对应的输出结果是什么。无监督学习只能默默的读取数据，自己寻找数据的模型和规律，比如聚类（把相似数据归为一组）和异常检测（寻找异常）。

半监督学习：半监督学习训练中使用的数据，只有一小部分是标记过的，而大部分是没有标记的。因此和监督学习相比，半监督学习的成本较%8

人工智能, 体验, 数据分析, 第四范式

一	二	三	四	五	六	日
« 12月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

博客水木

5分钟玩转机器学习，0门槛体验人工智能

一、概述

二、5分钟玩转机器学习

2.3机器学习实验构建

三、相关知识介绍

3.1常用概念

评论

腾讯新闻

3D滚动云标签

文章分类

友情链接

心路历程

扫描关注我微信