作家
登录

深入浅出时序数据库之压缩篇

作者: 来源: 2017-06-07 09:06:46 阅读 我要评论

第一个问题:是否存在一个通用的紧缩算法(Universal Compression),也就是说某个紧缩算法可以或许紧缩随便率性的数据。谜底是否定的,并不存在如许的通悠揭捉?缩算法。

大年夜数据

上图是一组时序数据,如不雅我们一行一行的看感到紧缩有点艰苦,但如不雅我们一列一列的看,紧缩方檀卷呼之欲出了。

先看 timestamp 那一列是等差递增数列,可以用 [1467627245000,1000,4] 来表示。1467627245000 代表了第一个时光,1000 代表后一个时光比前一个时光的大年夜 1000,4 代表了如许的规律出现了 4 次。如不雅一共有 100 个如许规律的 timestamp,那就意味着,我们用 3 个 Long 型就可以表示出来。timestamp 紧缩率高达 33。

再进一步不雅不雅察 value 那一列,如不雅取差值,可以获得(6,-5,2,-5),全部都加 5 获得(11,0,7,0),这些数值都可以用 4bit 来表示。也就是用 [23,5,4,0xb0700000] 来表示(23,22,24,25,24)。个中的 4 代表后续一共有 4 个数。如不雅如许的规律一向保持到 100 个 Int 的 value,就可以用 16 个 Int 来代表,紧缩率高达 6.3。

具体的情景会复杂很多,在此只是简单举个例子。InfluxDB 无损紧缩算法在其页面上有完全的阐述(注 3),可以合营开源源码进行加倍深刻的懂得。针对于浮点数类型,Facebook 在 Gorilla 论文中(注 4)提到的异常高效的无损紧缩算法,已经有很多文┞仿进行分析。InfluxDB 对于浮点型也采取这个算法。


  推荐阅读

  WannaCry爆发的根源原来是它?

比来的WannaCry大年夜爆发仍是个谜。我们知道什么是勒索软件,也知道不受支撑/没打补丁的Windows体系是怎么被马脚应用的,但我们不知道是谁在把持WannaCry,又为什么要搞出那么大年夜阵仗>>>详细阅读


本文标题:深入浅出时序数据库之压缩篇

地址:http://www.17bianji.com/lsqh/35600.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)