验证数据是不是像你认为的那样
多元可视化以懂得数据中不合字段之间的交互感化(见图3)。
EDA平日涉及以下几种办法的组合:
在Tukey风格的EDA中,分析师平日很清跋扈他们分析的数据是若何生成的。然而,如今跟着组织内部生成大年夜量数据集以及获取的第三方数据,分析师平日远离数据生成的过程。如不雅数据不是你认为的那样,那么你的结不雅可能会受到不良影响,更糟的是误会后采取的行动。
这个例子会展示数据生成的方法可能被误会,让我们来具体看看该例子:A公司正在测验测验猜测哪些用户将订阅新产品以对准其产品定位。他们正在尽力开辟一个模型,但每次测验测验都邑导致糟糕的猜测结不雅。然后有人认为履行广泛的EDA,他们最初认为这是没有须要的。但结不雅注解,猜测的用户是控制员工订阅的产品的较大年夜企颐魅账户的一部分。这种控制意味着用户可以以各类方法在数据中看起来完全雷同,但具有不合的目标结不雅,这意味着小我层面的数据几乎没有才能告诉猜测。在这种情况中,EDA不仅在技巧问题上裸露了所采取办法的技巧问题,并且还注解出现的缺点问题。如不雅用户的行动受到其组织的┞菲握,则无法对用户进行定位。该公司须要对准并猜测新产品订阅的企颐魅帐户。
我们已经看到数据生成过程中被缺点地假设的其他例子:
- 数据在产品的雷同版本或跨平台上生成。
- 数据根据X时区或雷同的跨时区被盖上时光戳。
- 记录所有晃荡的数据,但仅在用户登录时记录。
- 用户标识符保持不变或标识符独一。
若何去获得这些所有的价值呢?
既然知道了EDA为什么是有价值的,你可能想知道若何去实现EDA。一种办法是参加4月3号举办的TDWI评论辩论会,会大将商量EDA的最佳办法,别的还有一些针对各类EDA办法宣布的博客。以下博客强调了EDA获得的看法:
- 分析加州火车耽搁
- 更好地懂得区域
- 100首歌曲中的摇滚史
【编辑推荐】
- 数据分析机械进修的泰坦尼克案例-牛刀小试
- 数据科学家 / 统计学家应钙揭捉?成哪些好习惯?
- 百万自媒体大年夜V的数据分析师成长线路,薪水过万难吗?
- 数据分析的一些常见问题
- 数据分析与可视化,你靠什么搞定?
推荐阅读
今天的目标是应用Caffe完成深度进修练习的全过程。Caffe是一款十分有名的深度进修框架,由加州大年夜学伯渴攀利分校的贾扬清博士于2013年在Github上宣布。自那时起,Caffe在研究界和工业界>>>详细阅读
本文标题:硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值
地址:http://www.17bianji.com/lsqh/34963.html
1/2 1