作家
登录

警惕大数据的“黑暗”面

作者: 来源: 2017-04-18 16:24:09 阅读 我要评论

对于大年夜数据来说,组织急切须要存眷质量数量。一般来说,数据集越大年夜,其质量越低。如许清理数据将比分析数据涉及更多的工作。然则,经由过程仅收集有意义的数据可以削减这种精力消费。组织应尽力收集来自内部和外部来源的高质量数据。然则,这种测验测验削减“暗数据”的收集并不老是可行的,在这种情况下,数据摸索成为重要的一步。

今天数据正在以前所未竽暌剐的速度产生,每一个新的技巧都将进一步推动这种趋势。物联网(IoT)、机械进修和医疗保健数字化,产生数据的速度很快就达到每秒数百万千兆字节。根据IMB的一项研究,主动驾驶汽车也将很快参加——到2020年每秒将生成350MB的数据。

数据存储

数据的产生与收集已经在企业中根深蒂固,时刻上演着大年夜量数居的记录与分析。然则,这些数据的存储库并不老是构造化和一致的。事实上,未知的和未应用的数据催生了一个新的术语——“阴郁数据”。

如不雅我们不改变存储、治理、构造和分析数据的方法,大年夜部分数据都将变得毫无价值。IMB同一研究注解,今天收集的所稀有据中有80%是“阴郁的”,也就是说,这些数据是无效和不连贯的。将来数据量越大年夜,“阴郁数据”激发的黑洞也就越大年夜,导致的问题与挑衅就越严重。

存储和安然

最大年夜的挑衅是,“阴郁数据”不仅难以分析,并且也轻易导致存储问题。大年夜量的非构造化数据——MS Office文件、即时消息、电子邮件、社交媒体帖子等情势获得的数据就属于此范畴。

今朝存储大年夜数据的方法包含糊合云、闪存存储、智能软件设计存储(I-SDS)和冷库归档。固然存储本身相对便宜,然则大年夜型数据中间的保护和能源消费产生的成本可能是一个天文数字。

质量与数量

安然性是与数据相干的另一个问题——无论是存储在云上照样本地基本举措措施上。因为数据源繁多,以及分布式计算在数据分析中的普及,均为数据泄漏供给了浩瀚机会。

数据摸索是肯定命据集质量的过程,即使我们不知道我们正在寻找什么,也能有效地大年夜数据中提取常识。在大年夜数据分析中,最小的缺点可能会激发随后的缺点计算,大年夜而使全部分析无法应用。应用数据摸索,分析人员可以辨认在进行干净和策划的昂贵且耗时的步调之前可能存在的任何缺点。

大年夜数据分析肯定会在将来几年甚至几个月内产生变更。认知计算已经预备好应用人工智能发掘出几乎零缺点的短距离数据集。然而,尽管如斯,削减和简化收集的大年夜数据的需求仍然比以往任何时刻都重要。

【编辑推荐】

  1. 分布式存储体系基本
  2. 存储概绫屈风暴:SCM为何将替代闪存?
  3. 在云端数据分析应用落地上,英特尔与金山云联手迈稳重要一步
  4. 将会代替磁盘存储的内存数据库
  5. 模糊的界线:内存和存储以全新方法融合
【义务编辑:IT疯 TEL:(010)68476606】

  推荐阅读

  智能网联汽车离“上路”有多远

今朝智能网联汽车已经实际应用在工业范畴,然则距离载人汽车实现无人驾驶,另有“最后一公里”须要打通。这已经成为世界车辆工程范畴研究的热点和汽车工业袈漩长的新动力。其技>>>详细阅读


本文标题:警惕大数据的“黑暗”面

地址:http://www.17bianji.com/lsqh/34835.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)