作家
登录

学习机器学习时需要尽早知道的三件事

作者: 来源: 2017-04-10 11:36:47 阅读 我要评论

我已经在学术界和工业界进行了很多年的机械进修建模工作,在看了一系列评论辩论“大年夜数据”实用性问题的优良视频 Scalable ML 后,我开端思虑总搅一皓在进修机械进修时,我欲望可以或许尽早明白的工作。视频来源竽暌冠 Mikio Braun,介绍了 Scala 和 Spark 相干的常识。

我欲望在进修机械进修时可以或许尽早明白的工作有三项:

将模型应用到产品中并不是一件简单的小事;

模型评估阶段异常重要。

我在 Data-Product 上有一场介绍若何将常微分方程应用到产品中的演讲。之后我花了好一段时光才意识到,本身一小我来处理包含模型阑珊、产品中模型评价、开辟与运维沟通等事务是多么的艰苦。Yhat 的 ScienceOps 是针对这个问题的一个解决筹划。一开端我并没有意识到它有多棒,如今我发明我很难在市场中找到该产品的直接竞争者,我真的认为他们正在解决这个异常重要的问题。逐渐地,我意识到我没有聪慧到可以处理运维成员负责的事务——所以我很愿意将这项工作外包。

在教材中我们很难进修到真正的特点选择和特点提取技能;

3. 模型评估阶段异常重要

下面让我一个一个地介绍它们。

1. 将模型应用到产品中并不是一件简单的小事

2. 在教材中我们很难进修到真正的特点选择和特点提取技能

特点选择和提取办法和技能经常无法大年夜教材中进修。这些技能只能大年夜像 Kaggle 比赛或实际世比赛的项目中进修,甚至有时刻须要实际应用这些技能和办法才能学会它们。而这些工作在全部数据科学项目流程中占据了相当一部分比重。

除非你已经将模型应用到测试集数据上了,不然你都不克不及说已经进入到猜测分析阶段。像交叉验证、评估指标等评估技能都是异常宝贵的,因为它们只需将你的数据分别成测试及谕练习集。然则实际生活平日并不会将已经定义好测试集、练习集的数据给你,所以将真实世比赛的数据划分为测试数据和练习数据,是一项充斥创造性的工作,个中可能包含很多情感身分。在 Dato 上有很多评论辩论模型评估的优良文┞仿。

我认为 Mikio Braun 对练习集和测试集的解释值得一读。我也很爱好他画的图并将其包含在文中,便利不熟悉练习集和测试集概念的读者懂得。

我们在论文、会议甚至在评论辩论我们解决问题时所用的办法的时刻,经常忽视了模型评价。“我们在个中应用了 SVM ”这句话并没有告诉我任何信息,这没有告诉我你的数据来源,钠揭捉?择的特点,你的模型评估办法,你若何将其应用到产品中,以及你在个中若何应用交叉验证或模型查错。我认为我们须要更多关于机械进修中这些“肮脏”的方面问题的评论辩论。

我的同伙 Ian 在 Data Science Delivered 上有一个很好的标记,合适须要为真实情况建立机械进修模型的任何层次的人员浏览。同时也合适欲望雇佣数据科学家的┞沸聘人员或者与数据科学团队打交道的经理浏览——如不雅你正在找人询问“你是若何处理这些肮脏的数据的”。

【编辑推荐】

  1. 若何构建用于检测信用卡欺骗的机械进修模型?
  2. 机械进修的本质就是数理统计?谜底可能没这么简单
  3. 5个开源Python库,让机械进修更简单
  4. 机械进修大年夜用户社交媒体资估中窥得的五种机密
  5. 机械进修难在哪
【义务编辑:武晓燕 TEL:(010)68476606】

  推荐阅读

  北大人民医院王力华:从北京医改调价涉及的信息系统切换谈HIS架构的设计

之所以想写这个话题,一是看到解放军总病院原计算机室主任任连仲师长教师的快评——《本轮北京市药价调剂考验了病院信息体系的设计功底》,我深有同感;二是无意中看到一个第三者的评论:“为什么医改>>>详细阅读


本文标题:学习机器学习时需要尽早知道的三件事

地址:http://www.17bianji.com/lsqh/34675.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)