数据科学家:数据科学家是时下异常性感的一门行业。它指那些可以经由过程提取原始数据(这就是我们前面所谓的数据湖)进而懂得、处理并得出洞见的┞封样一批人。部分数据科学家必备的技能可以说只有超人才有:分析才能、统计学、计算机科学、创造力、讲故事才能以及懂得贸易背景的才能。难怪这帮人工资很高。
分布式文件体系(Distributed File System):大年夜数据数量太大年夜,不克不及存储在一个零丁的体系中,分布式文件体系是一个可以或许把大年夜量数据存储在多个存储设毕喔赡文件体系,它可以或许削减存储大年夜量数据的成本和复杂度。
ETL:ETL 代表提取、转换和加载。它指的是章一?过程:「提取」原始数据,经由过程清洗/丰富的手段,把数据「转换」为「合适应用」的情势,并且将其「加载」到合适的库中供体系应用。即使 ETL 源自数据仓库,然则这个过程在获取数据的时刻也在被应用,例如,在大年夜数据体系中大年夜外部源获得数据。
Hadoop:当人们思虑大年夜数据的时刻,他们会急速想到 Hadoop。Hadoop 是一个开源软件架构(logo 是一头可爱的大年夜象),它由 Hadoop 分布式文件体系(HDFS)构成,它许可应用分布式硬件对大年夜数据进行存储、抽象和分析。如不雅你真的想让或人对这个器械印象深刻,你可以跟他说 YARN(Yet Another Resource Scheduler),顾名思义,就是另一个资本调剂器。我确切被提出这些名字的人深深震动了。提出 Hadoop 的 Apache 基金会,还负责 Pig、Hive 以及 Spark(这都是一些软件的名字)。你没有被这些名字惊艳到吗?
内存计算(In-memory computing):平日认为,任何不涉及到 I/O 拜访的计算都邑更快一些。内存计算就是如许的技巧,它把所有的工作数据集都移动到集群的集体内存中,避免了在计算过程中向磁盘写攘闼殇结不雅。Apache Spark 就是一个内存计算的体系,它相对 Mapreduce 这类 I/O 绑定的体系具有很大年夜的优势。
机械进修(Machine Learning):机械进修是基于喂入的数据去设计可以或许进修、调剂和晋升的体系的一种办法。应用设定的猜测和统计算法,它们持续地切近亲近「精确的」行动和设法主意,跟着更多的数据被输入到体系,它们可以或许进一步晋升。
MapReduce:MapReduce 可能有点难以懂得,我试着解释一下吧。MapReduceMapReduce 是一个编程模型,最好的懂得就是要留意到 Map 和 Reduce 是两个不合的过程。在 MapReduce 中,法度榜样模型起首将大年夜数据集瓜分成一些小块(这些小块拿技巧术语来讲叫做「元组」,然则我描述的时刻会尽量避免晦涩的技巧术语),然后这些小块会被分发给不合地位上的不合计算机(也就是说之前描述过的集群),这在 Map 过程是必须的。然后模型会收集每个计算结不雅,并且将它们「reduce」成一个部分。MapReduce 的数据处理模型和 Hadoop 分布式文件体系是分不开的。
非关系型数据库(NoSQL):这个词听起来几乎就是「SQL,构造化萌芽说话」的反义词,SQL 是传统的关系型数据治理体系(RDBMS)必须的,然则 NOSQL 实际上指的是「不止 SQL」。NoSQL 实际上指的是那些被设计来处理没有构造(或者没有「schema」,纲领)的大年夜量数据的数据库治理体系。NoSQL 合适大年夜数据体系,因为大年夜范围的非构造化数据库须要 NoSQL 的┞封种灵活性和分布式优先的特点。
R 说话:这还有人能给一个编程说话起一个加倍糟糕的名字吗?R 说话就是如许的说话。不过,R 说话是一个在统计工作中工作得很好的说话。如不雅你不知道 R 说话,别说你是数据科学家。因为 R 说话是数据科学中最风行的编程说话之一。
我们接下来持续懂得别的 50 个大年夜数据术语。
Spark(Apache Spark):Apache Spark 是一个快速的内存数据处理引擎,它可以或许有效地履行那些须要迭代拜访数据库的流处理、机械进修以及 SQL 负载。Spark 平日会比我们前面评论辩论过的 MapReduce 快很多多少。
人工智能(AI):为什么 AI 涌如今这里?你可能会问,这不是一个零丁的范畴吗?所有这些技巧成长趋势慎密相连,所以我们最好静下心来持续进修,对吧?AI 以软硬件浇忧⒛方法开辟智能机械和软件,这种硬件和软件的结合可以或许感知情况并在须要时采取须要的行动,赓续大年夜这些行动中进修。是不是听起来很像机械进修?跟我一路「困惑」吧。
流处收成Stream processing):流处理被设计来竽暌姑于持续地进行流数据的处理。与流分析技巧(指的是可以或许持续地计算数值和统计分析的才能)结合起来,流处理办法特别可以或许针对大年夜范围数据的及时处理。
构造化 vs 非构造化数据(Structured v Unstructured Data):这是大年夜数据中的比较之一。构造化数据根本上是那些可以或许被放在关系型数据库中的任何数据,以这种方法组织的数据可以与其他数据经由过程表格来接洽关系。非构造化数据是指任何不克不及够被放在关系型数据库中的数据,例如邮件信息、社交媒体上的状况,以及仁攀类语音等等。
下篇(50 个术语)
这篇文┞仿是上篇文┞仿的延续,因为上篇反响热烈,我决定多介绍 50 个相干术语。下面来对上篇文┞仿涵盖的术语做个简短的回想:算法,分析,描述性分析,预处理分析,猜测分析,批处理,Cassandra(一个大年夜范围分布式数据存储体系),云计算,集群计算,暗数据,数据湖,数据发掘,数据科学家,分布式文件体系,ETL,Hadoop(一个开辟和运行处理大年夜范围数据的软件平台),内存计算,物联网,机械进修,Mapreduce(hadoop 的核心组件之一),NoSQL(非关系型的数据库),R,Spark(计算引擎),流处理,构造化 vs 非构造化数据。
推荐阅读
国度成长改革委建议提案体系(摄/《中国信用》杂志记者 韩乾)小编提示习近平总书记强调,收集安然和信息化是“十三五”时代的重头戏,要在信息化成长上大年夜有作为。大年夜&ldq>>>详细阅读
本文标题:关于大数据,你应该知道的75个专业术语
地址:http://www.17bianji.com/lsqh/36560.html
1/2 1