作家
登录

如何成为一名数据分析师:数据的初步认知

作者: 来源: 2017-12-11 17:21:15 阅读 我要评论

开辟者大年夜赛路演 | 12月16日,技巧立异,北京不见不散

对所有大年夜事数据相干工作的人而言,都有一个老生常谈的问题: 数据认知 !毕竟在真正开端分析、BI 报表开辟或者建模前,对数据进行必定的审查和认知是必须的。今天,就在此和大年夜家一同商量下数据的初步认知。在本文的讲解中,会将数据的初步认知划分为三大年夜步调: 数据质量检查、数据类型认知、指标值统计 。

若何成为一名数据分析师:数据的初步认知

一、数据质量检查

1) 存眷不合数据源在统计质量上的差别

不合的数据来源,因统计、管控、可共享程度等原因在数据粒度和数据质量的保障上都有天地之别。根据数据来源的渠道重要可将它划分为:内部数据和外部数据,下面逐个介绍它们之间的特点和差别。

1. 内部数据源

  • 营业数据:重要指后端研发主动存储的营业数据,一般是对公私运营异常核心的数据,如订单数据、用户信息等。这类数据的精确性一般是最高的,因为它往往关系到公司产品可否正常运转,统计的┞俘确性也就至关重要;
  • 埋点数据:经由过程埋点技巧采集的用户拜访数据,不论是自建埋点照样采取第三方埋点对象,因为埋点实施、统计上传机制等,都邑造成埋点数据的精确性远不如营业数据;
  • 数据仓库的数据:数据仓库数据它是由临盆库数据经由一轮或者多轮次的数据转换,中心可能产生的异常情况比临盆库的数据更多。诸如:无人保护、转换逻辑与懂得不一致等。

对于营业数据、埋点数据、数据仓库数据三种类型的数据源我们检查的侧重点有所不合:

  • 营业数据:营业数据的复杂度重要在于字段含义、表之间接洽关系关系以及字段与营业的实际对应关系,重要检查的也是这三点;
  • 埋点数据:埋点数据重要须要检查埋点是否与你所期望的营业事宜匹配,包含埋点采集的是页面拜访照样按钮点击、埋点采集机会等;
  • 数据仓库数据:重要懂得个中营业指标统计逻辑、计算转换逻辑、脚本更新机制等。

2. 外部数据源

  • 用户调研数据:经由过程市场调研获得用户反馈数据,存在的风险重要在于市场调研人员的敷衍履行自行假造数据以及被调研对象自身对自身断定的缺点;
  • 行业成长数据:经由过程百度指数、微信指数、阿里指数或者其它行业不雅察机构统计的数据来不雅察行业成长情况的数据;
  • 合作方数据:合作方供给的数据,不合公司之间在指标定义和统计规范上都可能有明显差别,须要重点存眷。此外,两家公司之间的用户匹配也是一大年夜可贵,须要被重点存眷。

外部数据源的数据粒度一般较粗拙,数据质量上也比较难以包管,须要做更多的不雅察和验证。我们可实施的检查办法也相对较少,只能在应用保持更高的当心性,慎之又慎才能更多地规避缺点。

2) 存眷取数过程,检查取数代码

3) 存眷处理数据集的空值和异常值

在对数据集是否精确的检查中,最轻易发明须要被处理的情况就是 空值和异常值 。空值涌如今数据集中往往一眼便能辨认;异常值袈潋须要必定经验性地断定,例如:数值特别夸大、文本特别长、不匹配的数据类型。在后续步调的数据认知中,对指标进行统计汇总、分布不雅察等也能赞助辨认异常值。

1. 空值处理

空值,如不雅在日常平凡的汇总统计中可忽视则忽视,如不雅弗成忽视则可采取以下办法来处理:

  • 调换:应用平均值、众数进行调换或者应用最接近的数据调换它,须要细心比较寻找该行数据的其它值是否邻近;
  • 揣摸:应用模型结合应用非空变量进行揣摸、猜测计算获得这个空值,如:时光序列、回归模型等;
  • 删除:实袈溱无法处理的空值,并且你已经肯定它会影响到后续的计算、分析,那么你可以推敲将该行记录删除。如不雅不肯定是否会影响,可推敲暂不处理。

2. 异常值处理

初步不雅察寻找异常值:

  • 在 Excel 中可以经由过程筛选功能或去除反复值对数据列进行不雅察;
  • 在 SQL 中可以经由过程 distinct 进行去重不雅察;
  • 在 Python 中,可以经由过程 pandas.drop_duplicates() 等方法进行去重不雅察。

二、数据类型认知

数据类型的认知重要可大年夜类型、数据单位、数据量纲三个角度去不雅察、去认知数据。这一过程后,我们一般对数据整体有一个比较粗线条的熟悉,知道各列的统计单位、各列的数据类型、量纲或者说数量级等。

类型:同一列数据的数据类型必须保持一致!如:时光序列不得与数值型数据混淆、数值型数据不得与文本数据混淆;

数据单位:同一列数据的单位必须保持一致!不然量级将完全不一致,不具备任何可比性。如:成交金额,不克不及既有以分为单位也有以元为单位的混淆;

数据量纲:不合数据列的量纲有时会有明显差别,重要指整数型数据和百分比数据。如:活泼用户数与平台用户活泼率。当须要进行作图比较不雅察时刻,我们须要对量纲进行处理,这涉及到标准化/归一化,常见的归一化办法有:

标准差标准化:

进行了简单的描述统计,我们想对数据的分布进内行单的不雅察,获得一个加倍直不雅的感触感染,可以制造频率分布图、箱线图来进行不雅察。

若何成为一名数据分析师:数据的初步认知

离差标准化:


  推荐阅读

  iOS 11的Bug这么多,库克怎么看?(附Bug解决办法)

开辟者大年夜赛路演 | 12月16日,技巧立异,北京不见不散 为了适配 iPhone X 和 iPad Pro,iOS 迎来了自 iOS 7 之后最大年夜跨度的进级——瞧瞧苹不雅官网是怎么说的:凡是「里程>>>详细阅读


本文标题:如何成为一名数据分析师:数据的初步认知

地址:http://www.17bianji.com/lsqh/39672.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)