展示结不雅
感激一些聪慧的技能,我可以或许将这个运行时光缩短到几个小时。这篇文┞仿将解释实现优胜数据处理机能的第一步 - 为您的数据集选择精确的库/框架。
下图显示了我的实验结不雅(详情如下),与纯Python的处理速度做出比较。
如你所见,Numpy的表示比Pandas的表示要好几倍。我小我爱好用Pandas来简化很多繁琐的数据科学义务,它是我的首选对象。然则如不雅估计的处理时光跨越多个小时,那么很遗憾,我只能应用Numpy来替代Pandas。
我异常清跋扈实际的机能可能会有很大年夜的不合,这取决于义务和处理类型。所以请把这些结不雅仅仅作为参考。没有任何一个零丁的测试可以周全比较所有软件对象的机能。
简介
鄙人面的 Notebook 中你将会比较 Python 原生办法, Pandas 和 Numpy 处理数据的速度。
导入模块
制造模仿随机数据集
Dataset size 54818 records
Python 原生办法
Pandas 办法
Numpy 办法
检查是否所有的办法生成同样的结不雅
比较运行时光
Python average time: 38.77917420864105 seconds
我猜你不会想花几个小时或几天,等待你的数据处理完成。迄今为止,我所应用的最大年夜数据集包含跨越3000万笔记录。当我第一次运行数据处理脚本时,预估的完成时光约为4天!我没有异常强大年夜的机械(Macbook Air与i5和4 GB的RAM),但我可以包管一晚上运行完脚本而不是数天。
Pandas average time: 10.483694124221802 seconds
推荐阅读
如不雅你想在iPhone X里把本身亲人们的面谱全都存下来,那可就要掉望了。苹不雅为什么不这么做?它倒是有本身的那一套理论。我们都知道,苹不雅的指纹辨认体系Touch ID可以或许辨认5个手指>>>详细阅读
本文标题:数据处理性能对比(Python原生vs Pandas vs Numpy)
地址:http://www.17bianji.com/lsqh/38406.html
1/2 1