作家
登录

关于大数据,你应该知道的75个专业术语

作者: 来源: 2017-08-06 12:49:31 阅读 我要评论

智能数据(Smart Data)是经由一些算法处理之后有效处且可操作的数据。

Apache 软件基金会(ASF)供给了很多大年夜数据的开源项目,今朝有 350 多个。解释完这些项目须要消费大年夜量时光,所以我只遴选说清楚明了一些风行术语。

 Apache Kafka:定名于捷克作家卡夫卡,用于构建及时数据管道和流媒体应用。它如斯风行的原因在于可以或许以容错的方法存储、治理和处理数据流,据说还异常「快速」。鉴于社交收集情况大年夜量涉及数据流的处理,卡夫卡今朝异常受迎接。

Apache Mahout:Mahout 供给了一个用于机械进修和数据发掘的预制算法库,也可用作创建更多算法的情况。换句话说,机械进修极客的最佳情况。

Apache Oozie:在任何编程情况中,你都须要一些工作流体系经由过程预定义的方法和定义的依附关系,安排和运行工作。Oozie 为 pig、MapReduce 以及 Hive 等说话编写的大年夜数据工作所供给恰是这个。

Apache Drill, Apache Impala, Apache Spark SQL:这三个开源项目都供给快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如不雅你已经知道 SQL 并处理以大年夜数据格局存储的数据(即 HBase 或 HDFS),这些功能将异常有效。抱歉,这里说的有点奇怪。

Apache Hive:知道 SQL 吗?如不雅知道那你就很好上手 Hive 了。Hive 有助于应用 SQL 攫取、写入和治理驻留在分布式存储中的大年夜型数据集。

Apache Pig:Pig 是在大年夜型分布式数据集上创建、萌芽、履行例程的平台。所应用的脚本说话叫做 Pig Latin(我绝对不是瞎扯,信赖我)。据说 Pig 很轻易懂得和进修。然则我很困惑有若干是可以进修的?

Apache Sqoop:一个用于将数据大年夜 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的对象。

Apache Storm:一个免费开源的及时分布式计算体系。它使得应用 Hadoop 进行批处理的同时可以更轻易地处理非构造化数据。

行动分析(Behavioral Analytics):你有没有想过谷歌是若何为你须要的产品/办事供给告白的?行动分析侧重于懂得花费者和应用法度榜样所做的工作,以及若何与为什么它们以某种方法起感化。这涉及懂得我们的上彀模式,社交媒体互动行动,以及我们的网上购物晃荡(购物车等),连接这些无关的数据点,测验测验图猜测结不雅。举一个例子,在我找到一家酒店并清空购物车后,我收到了度假村假期线路的德律风。我还要说多点吗?

Brontobytes:1 后面 27 个零,这是将来数字世界存储单位的大年夜小。而我们在这里,来谈谈 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你必定要读这篇文┞仿才能深刻懂得这些术语。

贸易智能(Business Intelligence):我将重用 Gartner 对 BI 的定义,因为它解释的很好。贸易智能是一个总称,包含应用法度榜样、基本举措措施、对象以及最佳实践,它可以拜访和分析信息,大年夜而改良和优化决定计划及绩效。

生物测定学(Biometrics):这是一项 James Bondish 技巧与分析技巧相浇忧⒛经由过程人体的一种或多种物理特点来辨认人的技巧,如面部辨认,虹膜辨认,指纹辨认等。

点击流分析(Clickstream analytics):用于分析用户在收集上浏览时的在线点击数据。有没有想过即使在切换网站时,为什么某些谷歌告白照样阴魂不散?因为谷歌大年夜佬知道你在点击什么。

聚类分析(Cluster Analysis)是一个试图辨认数据构造的摸索性分析,也称为瓜分分析或分类分析。更具体地说,它试图肯定案例的同质组(homogenous groups),即不雅察、介入者、受访者。如不雅分组以前未知,则应用聚类分析来辨认案例组。因为它是摸索性的,确切对依附变量和自力变量进行了区分。SPSS 供给的不合的聚类分析办法可以处理二进制、标称、序数和范围(区间或比率)数据。

比较分析(Comparative Analytics):因为大年夜数据的关键就在于分析,所以本文中我精深刻讲解分析的意义。顾名思义,比较分析是应用诸如模式分析、过滤和决定计划树分析等统计技巧来比较多个过程、数据集或其他对象。我知道它涉及的技巧越来越少,然则我仍无法完全避免应用术语。比较分析可用于医疗保健范畴,经由过程比较大年夜量的医疗记录、文件、图像等,给出更有效和更精确的医疗诊断。

接洽关系分析(Connection Analytics):你必定看到了像图表一样的蜘蛛网将人与主题连接起来,大年夜而肯定特定主题的影响者。接洽关系分析分析可以赞助发明人们、产品、收集之中的体系,甚至是数据与多个收集结合之间的相干系接和影响。

数据分析师(Data Analyst):数据分析师是一个异常重要和受迎接的工作,除了预备申报之外,它还负责收集、编辑和分析数据。我会写一篇更具体的关于数据分析师的文┞仿。

物联网(IoT):最新的风行语就是物联网(IoT)。IoT 是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备经由过程英特网的互联,它们可以或许收发数据。物联网生成了海量的数据,带来了很多大年夜数据分析的机会。

半构造化数据(Semi-structured data):半构造化数据指的是那些没有以传统的办法进行格局化的数据,例如那些与传统数据库相干的数据域或者常用的数据模型。半构造化数据也不是完全原始的数据或者完全非构造化的数据,它可能会包含一些数据表、标签或者其他的构造元素。半构造化数据的例子有图、表、XML 文档以及电子邮件。半构造化数据在万维网上十分风行,在面向对象数据库中经常可以或许被找到。


  推荐阅读

  信息化弄潮——国家发改委全力推进信息化建设纪实

国度成长改革委建议提案体系(摄/《中国信用》杂志记者 韩乾)小编提示习近平总书记强调,收集安然和信息化是“十三五”时代的重头戏,要在信息化成长上大年夜有作为。大年夜&ldq>>>详细阅读


本文标题:关于大数据,你应该知道的75个专业术语

地址:http://www.17bianji.com/lsqh/36560.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)