作家
登录

硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值

作者: 来源: 2017-04-26 10:02:50 阅读 我要评论

验证数据是不是像你认为的那样

多元可视化以懂得数据中不合字段之间的交互感化(见图3)。

EDA平日涉及以下几种办法的组合:

在Tukey风格的EDA中,分析师平日很清跋扈他们分析的数据是若何生成的。然而,如今跟着组织内部生成大年夜量数据集以及获取的第三方数据,分析师平日远离数据生成的过程。如不雅数据不是你认为的那样,那么你的结不雅可能会受到不良影响,更糟的是误会后采取的行动。

这个例子会展示数据生成的方法可能被误会,让我们来具体看看该例子:A公司正在测验测验猜测哪些用户将订阅新产品以对准其产品定位。他们正在尽力开辟一个模型,但每次测验测验都邑导致糟糕的猜测结不雅。然后有人认为履行广泛的EDA,他们最初认为这是没有须要的。但结不雅注解,猜测的用户是控制员工订阅的产品的较大年夜企颐魅账户的一部分。这种控制意味着用户可以以各类方法在数据中看起来完全雷同,但具有不合的目标结不雅,这意味着小我层面的数据几乎没有才能告诉猜测。在这种情况中,EDA不仅在技巧问题上裸露了所采取办法的技巧问题,并且还注解出现的缺点问题。如不雅用户的行动受到其组织的┞菲握,则无法对用户进行定位。该公司须要对准并猜测新产品订阅的企颐魅帐户。

我们已经看到数据生成过程中被缺点地假设的其他例子:

  • 数据在产品的雷同版本或跨平台上生成。
  • 数据根据X时区或雷同的跨时区被盖上时光戳。
  • 记录所有晃荡的数据,但仅在用户登录时记录。
  • 用户标识符保持不变或标识符独一。

若何去获得这些所有的价值呢?

既然知道了EDA为什么是有价值的,你可能想知道若何去实现EDA。一种办法是参加4月3号举办的TDWI评论辩论会,会大将商量EDA的最佳办法,别的还有一些针对各类EDA办法宣布的博客。以下博客强调了EDA获得的看法:

  • 分析加州火车耽搁
  • 更好地懂得区域
  • 100首歌曲中的摇滚史

【编辑推荐】

  1. 数据分析机械进修的泰坦尼克案例-牛刀小试
  2. 数据科学家 / 统计学家应钙揭捉?成哪些好习惯?
  3. 百万自媒体大年夜V的数据分析师成长线路,薪水过万难吗?
  4. 数据分析的一些常见问题
  5. 数据分析与可视化,你靠什么搞定?
【义务编辑:枯木 TEL:(010)68476606】

  推荐阅读

  Caffe的深度学习训练全过程

今天的目标是应用Caffe完成深度进修练习的全过程。Caffe是一款十分有名的深度进修框架,由加州大年夜学伯渴攀利分校的贾扬清博士于2013年在Github上宣布。自那时起,Caffe在研究界和工业界>>>详细阅读


本文标题:硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值

地址:http://www.17bianji.com/lsqh/34963.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)