一、概述
为了让大家可以简单拍出好看的照片,手机厂家和拍照APP公司不断优化拍照效果,让没有任何设计基础的普通用户也能拍出色彩饱满的美丽照片;
为了让网站搭建变得简单,现在有大量可视化建站工具辅助网站搭建,无需html,css,js基础,也能够快速搭建出移动网站;
机器学习同样如此,为了让AI技术更好的辅助商业决策,并更加易于使用,阿里PI,第四范式,九章云极,DataRobot等公司提供了解决方案–可视化机器学习实验平台,只要您手中有数据,并理解数据的含义,便可以通过简单拖拽完成二分类、多分类,聚类或协同推荐等负责机器学习模型训练。
AlphaGo一战成名,利用深度学习算法,战胜国际象棋冠军李世石,随后Mater更是以60:0的战绩横扫世界围棋大师,让世人看到了AI的强大,也知道了深度学习这个名词,但深度学习只是AI的一个方向,如下图所示:
深度学习在自然语言处理,语音识别,图像识别,模式识别等领域应用较多;而在商业智能、辅助决策、智能推荐等领域,机器学习技术更加成熟。
笔者今天和大家分享的是如何使用工具–第四范式先知平台,只需简单拖拽,5分钟便可以快速搭建一个心脏病预测实验。也就是将各种检查指标输入系统后,自动判定是否患有心脏病的一个机器模型。
二、5分钟玩转机器学习
2.1平台注册
输入网址:https://www.4paradigm.com/
点击右侧【点击试用】并注册账号
2.2数据准备及理解
心脏病是人类健康的头号杀手。全世界1/3的人口死亡是心脏病引起的。而我国,每年有几十万人死于心脏病,通过数据挖掘方式,分析不同特征对于心脏病的影响,预测是否患有心脏病意义重大,下文实验数据源于UCI开源数据集,所用数据为真实数据,包含了303条美国某区域的心脏病检测患者的数据,点击下方链接下载数据,实验数据笔者已经完成预处理,您可以可以到UCI主页选择其他数据做机器学习尝试。
实验数据下载链接:https://pan.baidu.com/s/16hPFfu3JKkbRC2ulAOVNLw
UCI机器学习训练数据:http://archive.ics.uci.edu/ml/index.php
数据意义如下所示:
status为目标数据,也就是判定是否患有心脏病的目标数据。
2.3机器学习实验构建
1、导入数据
进入先知系统,鼠标移至最左侧,点击我的数据
选择【本地文件】,上传刚刚下载的《心脏病预测数据.csv》文件,打开文件收房为字段名和随机预览按钮,确认无误后点击下一步,如下图所示:
为数据表命名,点击确定,数据引用需要一段时间,状态变成【可用】时便可以继续操作了。
2、新建项目并添加组件
进入先知系统,点击项目汇总后面的加号,新建项目,如下图所示:
点击【项目数据】,点击数据源后面加号,选择刚刚导入数据,如下所示:
按照提示顺序,将组件拖拽到画布当中,并完成链接,如下所示:
3、设置参数
点击数据拆分:选择拆分比例0.8
点击特征抽取:选择打开脚本编辑框,点击生成配置,输入目标值status,点击覆盖现有配置,然后点击保存,按照同样设置填写右侧特征抽取组件。
点击评估组件,score字段输入prediction_score,目标值字段选择输入target_status。
4、运行并查看评估结果
点击底部【启动】,等待所有组件运行完成后,右键点击评估组件,选择【预览结果】,如下图所示:
我们可以看到,经过拆分组件运行,将80%用于实验训练,剩余20%用于训练验证,共有58个样本参与验证,准确率可以达到81%,auc值为0.876。您也可以尝试使用GBDT组件进行训练,看一下您可以做到什么样的准确率,经过GBDT调参,笔者使用GBDT组件将准确率做到84.5%,auc值达到0.916,也就是当病人提供同样字段数据,投入模型中,模型即可判定其是否患有心脏病,准确率可达到84.5%,理论上数据量越大,模型拟合的会越好,其准确率将越高。
如果需要进行文本分析,图像识别可以考虑使用阿里PI实现,简单阅读帮助文档,依然通过拖拽即可完成,如下图所示:
三、相关知识介绍
3.1常用概念
数据挖掘:数据挖掘的概念比较宽泛,指从大量的数据中通过算法挖掘出有用的信息。通常数据挖掘的常用方法大多来自于机器学习算法。
监督学习:监督学习是用正确答案已知的例子来训练模型,也就是用标记过的数据。
无监督学习:无监督学习中使用的数据是没有标记过的,即不知道输入数据对应的输出结果是什么。无监督学习只能默默的读取数据,自己寻找数据的模型和规律,比如聚类(把相似数据归为一组)和异常检测(寻找异常)。
半监督学习:半监督学习训练中使用的数据,只有一小部分是标记过的,而大部分是没有标记的。因此和监督学习相比,半监督学习的成本较%8
评论