作家
登录

企业数据分析工作的任务、工具及挑战

作者: 来源: 2018-03-20 19:39:27 阅读 我要评论

沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践!


大年夜数据时代,数据已经成为计谋资本。控制前沿科技的大年夜型IT企业袈溱数据分析和应用上走在了时代的前列。

笔者浸淫IT业十余年,对数据分析技巧及其将来趋势有必定的懂得和思虑,在此与大年夜家分享。

鉴于大年夜型IT企业是数据分析工作的早期天使客户和很多具体技巧、对象的发源地,我们重要针对大年夜型IT企业来做一些分析。

企业数据分析工作的义务、对象及挑衅

3.3 企业袈洵生框架

所以,生怕在相当长的时代里,这会是一个门槛低,请求高的职位。很难短时光内批量出现出优良者。

为了不在后面评论辩论中因概念不清产生误会,我们起首给出几个定义:

  1. 大年夜型IT企业:指对外供给IT相干的软硬件产品及办事的公司,员工至少在万人以上。
  2. 数据平台:指大年夜型IT企业用来为自身办事为主,担当数据存储、处理、分析营业和软硬件综合。重要针对内部办事,纰谬外开辟。
  3. 数据分析:此处的数据分析师广义的,包含一切基于数据得出的insights的行动,包含统计分析、机械进修建模和猜测等。

1. 大年夜型IT企业开展对内数据营业的驱动力

就今朝而言,IT企颐魅针对自身的数据分析营业可以分为告盎赝非告白两类。对大年夜多半企业而言,除了告白之外的数据营业,并不克不及直接带来可以量化的收入。

然则,无论当前数据分析的结不雅为企业的现金流做了若干供献。数据为王的思惟已然占据了浩瀚前沿企业间的脑筋。数据是矿山,insights是叫子,有了矿山才能有叫子,有了矿山,毕竟会有叫子。

是以,开辟数据营业最重要的驱动力,实际是对数据营业将来前景的积极预估。

4.1.3 人才

重要应用有(除告白之外):

  • 用户画像——越来越多的企业开端不雅众用户画像,毕竟亲信知彼百战不殆,卖器械先得懂得买主。
  • 客户保持——猜测哪些现有客户可能弃用产品或办事,即使采取办法挽留之。
  • 产品应用分析——DAU,MAU,PV,UV,CTR等等,这些看起来都是些简单的统计数字,但倒是反竽暌功产品被应用情况的重要指标。
  • 产品推荐、销量猜测
  • 发卖指标……等等

具体到某一种应用,看似并不复杂,有些有成熟的办法可以用来练习模型,还有些根本就是统计指标。似乎并不须要什么精深的算法背景。

但一旦涉及实际,就不像看起来那么简单了。即使是统计指标,也不像想象得那样,随便run几个sql query就能得出来。

对于大年夜型分布式体系,不合模块的拜访log都有可能分布在不合的cluster上,纯真收集每日全局log就是一个复杂工作,更别说之后的归并、去重、聚合等工作。

然则开辟如许的体系意味着企业必须具备异常强大年夜的研发才能,并能承担得起巨大年夜的人力等资本的消费。并且相对于开源体系已经实现的功能,不免有反复造轮子之嫌,即使是大年夜型企业,也很少拔取这种筹划。

是以,大年夜型企业的数据分析不是做个excel表,安装一个免费mysql可以或许解决的,而是须要专门的大年夜型数据分析平台。

2. 数据分析平台通用架构

2.1 数据存储

数据存储不必解释,是必定须要的。然则若何备份是一个很重要的问题。 假设:某公司一年产生上千PB的数据。按照纯真数据的存储费用1美元/GB年计算,存1TB一年就是1000美元,一PB就是100万,1000PB就是10亿。如不雅就是简单的应用hadoop的默认设备,每份数据都存3份,那么,这个实际产生数据x 3的体量将有多大年夜?有将有多大年夜的cost?

如许的挑衅有赖于企业总体数据策略的制订和履行。而整体策略的制订和履行又有赖于前面所说的三点通用挑衅,环环相扣,显然不克不及一蹴而就。

这是存储层的挑衅。为懂得决这个问题,一方面大年夜硬件层面力争降低存储介质的价格,比如近年来冷存储的提出,就是针对运维费用。另一方面就是寻找备份算法。例如,yahoo专门研发了一种图片存储算法,逻辑上是11个备份,然则size只有原size的1.x倍。

2.2 数据处理

数据处理传统上叫ETL、EDW,重要指数据的清洗、迁徙和格局化。大年夜数据平台,因为应用范畴不合,天然犊熘多样,源数据包含构造化数据和非构造化数据。然则如不雅数据真的是“大年夜数据”(相符4V特点)的话,即使本身收集上来的数据是构造化的,也往往须要二次处理,转换format或schema。

数据处理层所需技巧相对简单,然而挑衅在于对于数据的懂得。如不雅不知道这个收集上来的log文件琅绫擎要提掏出若干字段,每个字段对应数据源中的哪个部分,则数据提取完全不克不及进行。这就请求进行数据处理的人必须同时具备对营业的懂得。

2.3 数据分析

数据分析是数据中寻找价值的关键步调。数据分析工作本身还处于初级阶段。除了一些简单的统计计算,大年夜多半数据照样只能交给分析人员,进行没有特别针对性的摸索,效不雅难以获得包管。

对于这些挑衅,开展数据营业早的公司,响应的平台和技巧是在针对自身营业的过程中慢慢成长起来,部分公司选择是将平辞吐包或者本身开辟针对自身营业的定制功能。相对于前两者,数据分析师一个营业针对性更强的步调,是以更难采取通用办法或手段解决,加倍依附企业自身的积聚。

3. 数据分析平台开源框架

3.1 开源框架

今朝,就国内而言,谈到数据分析相干的开源框架,总不克不及忽视下面庞个:


  推荐阅读

  如何组织你的数据?这里有十种常见的数据结构解读

沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 通俗的法度榜样员只存眷代码,但优良的法度榜样员更在意数据构造和彼此间的接洽。— Linus To>>>详细阅读


本文标题:企业数据分析工作的任务、工具及挑战

地址:http://www.17bianji.com/lsqh/40786.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)