为了可以或许体系化地、高效地解决出现的任何问题,我们必须学会将这些问题分而治之。毕竟,亲信知彼方是解决问题的首重至要。由此,我们才会发明解决之道就在个中。而对于进步数据质量同样实用:每一个解决问题的办法都有不合的阶段与角度。
当一个数据质量改鞭挞打击度榜样在启动时,仅知道数据库中有若干缺点计算或反复录入是远远不敷的。不止于此,我们还须要知道不合类型的缺点在收集的资本中是若何分派的。
据 Jim barker 一篇很有意思的博客所述,数据质量被分化成两种不合类型。而在本文中,我会带领大年夜家细心区分这些“类型”有何不合,并且若何应用这些“类型”在开辟预算中确保我们的优势资本放在何处。
数据类型
被誉为“数据博士”的Jim barker,借用了一个简单的医学概念来定义数据质量问题。 在他的博客中介绍了若何将这两种“类型”组合在一路,并且成功激发了那些一向纠结于找到在数据库中拉低数据质量的幺蛾子的数据分析师们的兴趣。
I型数据质量问题我们可以应用主动化对象检测到。II型数据质量问题就异常隐秘了。大年夜家都知道它是存在的,但它看不见摸不着,更处理不了,因为它须要放在间谍作境才能被检测到。
它们之间的差别简而言之可归纳为如下几点:
- 型数据质量问题起首须要“知其然”才能来检测数据的完全性、一致性、独一性和有效性。这些属性靠数据质量软件甚至手动很好地找到。你不须要有很多的背景常识,或者数据分析经验。只要按照4个属性验证它的存在,就可以剖断它缺点的。例如,如不雅我们在性别范畴插入一个3,我们就可以剖断它到底是不是一个有效值。
- 型数据质量问题须要“知其所以然”来检测时效性、一致性和精确性属性。须要研究才能、洞察力和经验,而不是简简单单就可以找得出来的。这些数据集经常大年夜外面上看起来没有问题。但幺蛾子往往存在于细节中,须要时光去发明。Jim举的例子就是一份退休人员的雇佣记录。如不雅我们不知道他们早已退休的话,是看不出来这个数据是错的。
所以,解决这些数据质量问题的关键就是须要一个复杂的、计谋化的办法,而非孤立的、单方面的来看问题。一旦数据质量不好,我们就须要寻求主动化与人工的方法才能解决这个问题了,真可谓是“屋漏偏逢连夜雨”啊。
成本调剂
所以,我们若何解决I型和II型数据质量问题呢?处理它们所花费的费用是可比的,照样完全不合的?
第二类数据问题往往须要多方的输入,以便发明、标记和铲除。固然我们客户关系治理体系中的每小我都有购买日期,但购买日期可能不精确,或者与发票或发货清单不符。只有专家才能经由过程细心核查其内容来解决问题并手动改进客户关系治理体系。
平日情况下,企业很难做到资本的合理分派,原因有二,特别是企业处于快速增长阶段;或者处于人才流掉的时刻。你别看这些II类问题较少,可能仅占数据问题残剩的20%,但它们很有可能须要消费跨越80%的成本预算。所以,如不雅当企业处于人才大年夜量流掉,却竽暌怪对此力所不及的时刻。你会发明第二类数据问题更难处理,因为人工解决的门路已不复存在了。
进步精确程度
为了进步数据的精确性,我们必须将I型和II型数据问题作为零丁的,但同时存在的问题进行研究。I类型数据质量的挑衅可以出现快速获胜,但第II类问题提出了一个挑衅,必须依附仁攀类的专业常识才可以解决。
跟着时光的推移,数据库会跨越应用刻日。为保当时效性,这须要持续赓续的尽力。数据可以在数据库中进行清洗,或在应用阶段进行清理,但因为如导入/导出、破坏、手动编辑、工资导致缺点等多种原因,仍然要留意I型缺点的产生。第II类数据问题在这阶段天然而然地产生,因为就算数据经由验证和审查之后看起来精确,但对于如今来说如有可能是不精确的,因为此时已非彼时,数据的应用情况改变了。
数据的完全会有助于我们不雅察全部事物的全貌并推动其对事物的决定计划。正如我们前面所说,发明I型数据质量问题是比较简单、便宜和快速的。但如不雅企业的工作营业还没有采取某种数据质量软件来解决I型数据质量问题的话,那如今也应当着手推敲了,因为如许才可能避免将来竽暌箍现的资本浪费、伤害品牌效应和来自负年夜众的误会。
根据我们以往的经验:I型数据根本涵盖了80%的数据质量问题,但消费了我们20%的经费成本。
要记重视要的一点是,I型数据的验证问题可以在逻辑上定义,这意味着我们可以靠编写软件来查找并显示它。软件主动修复的速度快、成本低,甚至合营手动审成就可以完成。推敲到I型数据质量问题实际上是作为表格内字段型的验证,一旦解决了表格字段的问题,I型数据质量问题实际上也就解决了。
确保数据的完全
而对于第II类数据问题,关键是要懂得它为什么会产生,并采取办法以防止它的产生。大年夜日常工作中,处事的变通以及员工忽视常导致数据的质量不佳。跟着时光的推移,资本分派掉当也会增长II型数据问题的增长。而改良它的费用也会成倍增长,因为你须要具备专家的眼光方能在茫茫的数据中找到它的存在。
其实,发明并解决这两类问题在当下已不是弗成能的事了。会变得越来越轻易。很多半据质量供给商们也在赓续寻找新的办法,信赖在不远的将来,获得高质量的数据会变得越来轻松,越来越简单。
【编辑推荐】
- MySQL数据库渗入渗出及马脚应用总结
- 大年夜数据时代已光降,此次互联网概绫屈你赶得上吗?
- 闲谈大年夜数据和算法 知道这些让你受益无穷
- 数据倾斜那些坑 你都迈以前了吗?
- 大年夜数据、人工智能、机械人的血缘关系?
推荐阅读
有时这并非是治理员的粗心大年夜意,而是黑客过于狡猾。在懂得了我之前所介绍的网页劫持手段后,我想你大年夜概能懂得这个中的启事了,网页劫持能控制跳转控制页面出现的内容,这就是难以>>>详细阅读
本文标题:做数据分析,首先解决这两类数据质量问题
地址:http://www.17bianji.com/lsqh/38655.html
1/2 1