作家
登录

硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值

作者: 来源: 2017-04-26 10:02:50 阅读 我要评论

硅谷资深数据科学家眷你认清摸索性数据分析(EDA)的价值

大年夜外表来看,数据科学平日被认为美满是由高等统计学和机械进修技巧构成。然而,另一个重要构成部分往往被低估或遗忘:摸索性数据分析(EDA)。EDA指对已有的数据(特别是查询拜访或不雅察得来的原始数据)在尽量少的先验假定下进行摸索,经由过程作图、制表、方程拟合、计算特点量等手段摸索数据的构造和规律的一种数据分析办法。在深刻机械进修或统计建模之前,EDA是一个重要的步调,这是因为它供给了为现有问题开辟恰当模型并精确解释其结不雅所需的前因后果。

但跟着对象的鼓起,只须要简单的将数据供给给黑盒就可以轻松实现强大年夜的机械进修算法,是以略过EDA这一步将变得异常诱惑。然而简单地将数据供给给黑盒并不老是一个好主意——这是因为EDA对于所有类型的数据科学问题具有关键价值。

EDA对数据科学家而言是有价值的,这是因为EDA能确保他们生成的结不雅是有效的、能被精确解析以及实用于所需的营业情况。在确保技巧交付结不雅之外,EDA还经由过程确认正在提出精确的问题而不是基于假设查询拜访以及经由过程供给问题的背景来确保数据科学家的输的出潜在的价值可以最大年夜化。

这篇文┞仿将高度概述EDA平日涉及的内容,然后描述EDA对于成功建模和解释其结不雅至关重要的三个重要方法。无论您是数据科学家照样数据科学的花费者,欲望在浏览本文后,您将懂得为什么EDA应当是在项目数据科学操作中的关键一部分。

什么是EDA?

尽管EDA已经存在于数据分析,据说1977年约翰·图克(John W. Tukey)写的“摸索性数据分析”一书中已经创造了这个词并成长了这个范畴。概括来讲,EDA用于懂得和总结数据集的内容,平日用于查询拜访特定问题或更高等的建模。EDA平日很大年夜程度上依附于可视化数据来评估模式并应用一些定量办法来描述数据。

原始数据集中每个字段的单变量可视化和汇总统计(见图1)

用于评估数据集中每个变量与感兴趣目标变量之间的关系的双变量可视化和汇总统计(例如,时光流掉,花费)(见图2)

降维以懂得数据中的字段,这些字段占据了不雅察值之间的最大年夜差别,并许可处理削减的数据量。

经由过程将数据折创作创成就个小数据点让不雅察值聚类成有区其余小组,可以更轻易地辨认行动模式(拜见图4)

验证假设和模式辨认

经由过程这些办法,数据科学家验证假设并辨认有助于懂得问题和模型选择的模式,为数据建立直觉以确保高质量分析,并验证数据是按预期的方法生成。

EDA的重要目标之一是在假设任何工作之前查看数据,这是很重要的。起首,数据科学家可以验证在构建模型时可能已经做出的任何假设,或者是应用某些算法所必须的假设。其次,对数据的自由假设摸索可以赞助辨认模式以及不雅察到行动的潜在原因,这可能有助于答复碰到的问题或告诉建模的选择。

平日有两种类型的假设可能影响分析的有效性:技巧和贸易。精确应用特定的分析模型和算法依附于具体的技巧假设是否精确,例如变量之间没有共线性、数据中的方介入数据值无关以及数据是否以某种方法损掉或破坏。在EDA中,评估各类技巧假设以赞助选择敌手头数据和义务而言的最佳模型。如不雅没有如许的评估,可以应用一个模型来违背那些假设使得该模型不再实用于有关数据,并可能导致对组织有负面影响的不良猜测和不精确的结论。

第二种假设,贸易假设有点更难以捉摸。经由过程对模型的懂得,数据科学家知道每种类型的假设必须对其应用有效并可以体系地检查它们。另一方面,贸易假设可以完全无法辨认并深深地纠缠于问题及其框架。有一次,我们正在与一位正在试图懂得用户与他们的应用法度榜样若何进行互动以及产生什么交互旌旗灯号可能会流掉的用户的客户进行合作,他们深深地嵌入在假设出现问题的框架中,他们的假设是用户群是由有经验的厨师构成,并欲望经由过程复杂的食谱进步他们的烹调程度。事实上,用户群重要由无经验的用户构成,试图找到快速、易于预备的食物的食谱。当我们发明客户假设是缺点后,他们不得不开端懂得一整套新的问题以告诉之后的应用开辟。

在验证这些技巧和贸易假设的同时,数据科学家将体系地评估每个数据字段的内容及其与其他变量的互相感化,特别是表示企业想要懂得或猜测的行动的关键度量(例如应用生命周期、支撑)。仁攀类是天然模式辨认器,经由过程以不合的方法对数据进行详尽的可视化,并将这些可视化策略性地设备在一路,数据科学家可以应用其模式辨认才能来辨认行动的潜在原因、辨认潜在的有问题或虚假的数据点以及开辟可以通知其分析和模式的假设。

建立对数据的直觉

为什么EDA是更先辈的建模前采取的须要步调,还有一个较为具体的原因是数据科学家须要亲自闇练控制数据,并为培养一种对数据是什么的直觉,这种直觉对于可以或许快速辨认何时出现问题尤为重要。比如在EDA中,绘制应用寿命与年纪曲线并进行比较,可以发来岁轻用户偏向于逗留某个产品的时光更长,那么结论是昔时龄降低时会增长应用周期。如不雅练习的模型显示不合的行动,就会很克意识到应当查询拜访产生了什么,并确保没有犯任何的缺点。没有EDA,数据凸起的问题或模型的实施中的缺点会被长时光忽视,这可能会导致基于缺点信息做出决定计划。


  推荐阅读

  Caffe的深度学习训练全过程

今天的目标是应用Caffe完成深度进修练习的全过程。Caffe是一款十分有名的深度进修框架,由加州大年夜学伯渴攀利分校的贾扬清博士于2013年在Github上宣布。自那时起,Caffe在研究界和工业界>>>详细阅读


本文标题:硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值

地址:http://www.17bianji.com/lsqh/34963.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)