【51CTO晃荡】8.26 带你深度懂得清华大年夜学、搜狗基于算法的IT运维实践与摸索
大年夜数据就像是大年夜现代数据情况中赓续出现出的丰富的、极端膨胀的资本。如今,赓续扩大的物联网、到处可见的移动设备、社交媒体、点击流量、网页以及开放的数据都是导致我们今日数据赓续增长的的重要身分。根据IDC-Seagate比来的一项研究显示,截止到2025年,这些身分的导致的全球数据增长估计将是如今的10倍,总计达到163ZB(ZB为十万亿亿字节)。
固然数据资本充裕,但这些数据都是最原始的、未经提炼的,个中存在大年夜量不克不及用的数据。与其他”天然”资本一样,“原始的”数据必须经由提炼后,才能被用于临盆目标,例如设备保护、产品立异、竞争谍报、市场营销以及数据泉币化等等。
数据细化、提炼的过程可以纳入数据探查,预备,接洽关系和背景化,标注和注释,同一和整合以及安然和治理政策的应用。 元数据也是一个重要的构成部分,它在数据整体细化过程中输入、输出阶段起着十分重要的感化。
个中,数据探查主如果对数据进行技巧性分析,对数据的内容、一致性和构造进行描述。数据探查担当着两种不合的目标:计谋性的和战术性的。
- 计谋性:一旦肯定了某个候选数据源,就应当进行一次轻量级的探查评估来肯定该数据源是否合适于包含到数据仓库中,针对早期的采取/不采取问题供给决定计划。幻想情况下,应当安营业需求分析过程中肯定出一个候选数据源之后急速进行计谋性评估。较早地找出那些不合格的数据源是一个义务重大年夜的步调,即使带来的是坏消息,也是须要的一步。如不雅很晚才发明数据源无法支撑要做的工作,对DW/BI团队的积极性将产生重大年夜的袭击,特别是当项目已经展开数月之后才发明数据源存在问题时更是如斯;
- 战术性:一旦将某个数据源惹人项目标根本计谋决定计划已经定下来,就须要进行一系列战术性的数据探查工作来尽可能多地肯定出各类问题。平日这一工作大年夜数据建模过程就开端了,一向到ETL体系设计过程。有时ETL团队也可能须要应用一个其内容没有经由彻底评估的数据源。体系也可能支撑产品过程的需求,然则却存在ETL方面的难题,因为对产品处理并不重要的字段用来进行分析也是弗成靠和不完全的。
该子体系中揭示出来的问题最终会产生两种具体解释:
- 将数据送回本来的数据源中,请求改良数据质量;
- 构成了数据质量子体系的需求。
EHRs的设计主如果为了知足病人的医疗、行政和经济的须要。埃尔斯的多用处目标——不推敲每一种数据的数据分析——可能造成数据碎片化,这须要在为临床研究等分析供给数据之进步行改┞俘。
如不雅还没有为分析供给数据,那么这些数据可能会受到碎片化、最小化标记和损掉信息的影响。这些特点在电子健康记录(EHRs)中很明显,这说清楚明了优化数据面对的挑衅。收集和分析EHR数据的个中的一个障碍就是缺乏恰当的标签和一致的语义的缺乏。
(备注:电子健康记录(EHR,electronic health record)是小我官方的健康记录,这些记录可以在多个设备和机构中共享。一个电子健康记录平日包含:接洽方法;拜访医护专业人员信息;过敏史;医疗保险信息;家族遗传病史;免疫状况;身材状况或疾病信息;服用药物清单;住院记录;做手术信息等
事实上,数据安然和隐私也可能成为分析受监管数据的┞废碍,比如在EHRs中。克服这一障碍的最佳办法是在细化过程中应用恰当的安然性和治理。谷歌等公司正在实验联邦进修,以推动分析,同时确保隐私。
数据的优化对于大年夜数据分析中获得靠得住结不雅是至关重要的,数据分析包含有意义的结论、精确的猜测和明智的决定计划。
事实上,与任何虚拟化一样,数据虚拟化是一种许可用户拜访、治理和优化异构基本架构的办法,就似乎它们是一种单一、且在逻辑上是同一的资本一样。这使得用户可以或许大年夜一些办事、功能或其他资本的内部安排中对外部界面进行抽象化。
与支撑逻辑上同一的拜访、萌芽、申报、猜测分析,以及针对关系型、Hadoop、NoSQL等不合后端数据库应用的任何“SQL-虚拟化”解决办法雷同,数据虚拟化的核心是抽象层。当然,数据虚拟化可能会转而依附其他的基本举措措施虚拟化层,例如存储与办事器平台。在某些情况下,数据虚拟化可能会在地舆上和多云情况中进行扩大。
大年夜共享患者健康记录中构建数据集的另一个挑衅是在卫生保健组织中若何实现EHRs的标准化,甚至在雷同的卫生保健体系中也缺乏标准化。。例如,不合的部分(例如:同一家病院的放射学、整形和内医学)可能采取不合的办法来知足他们独特的数据输入需求、文档和排序需求,以及偏好,是以,会产生数据仓。
在我们评论辩论的众独裁中,虚拟化无疑是这些逝世板数据话题的一个缩影。然则如不雅欲望本身的大年夜数据云平台可以或许解决以下营业需求,那么它们无疑是最基本的。这些具体的营业需求是:
- 基于弹性、灵活拓扑构造的先辈分析型资本
- 汲取源自任何来源、格局和筹划的纯花费性资本
- 可以或许留存、聚合、处理任何动静结合信息的“延迟-灵敏”资本
- 在价值链中扩大,在私有云和公有云中扩大的结合伙源
- 可以或许让你经由过程现有对象和应用,调剂、扩大和进级后端数据平台的无缝互操作资本
幻想情况下,精华精辟原始数据以生成完全而有意义的信息的过程如下:
- 构建相干语义
- 处理数据异常
- 建立完全的、周全的、相干数据的视图
- 充分下行流程的元数据
- 处理数据保护、隐私及合规性请求
应用数据虚拟化作为数据处理的三个长处:
1. 数据优化典范围
推荐阅读 【51CTO晃荡】8.26 带你深度懂得清华大年夜学、搜狗基于算法的IT运维实践与摸索
Ovum监管政策高等分析师Luca>>>详细阅读 本文标题:通过数据虚拟化 优化数据 地址:http://www.17bianji.com/lsqh/36763.html 1/2 1