作家
登录

使用Sklearn进行数据挖掘

作者: 来源: 2017-10-31 14:00:43 阅读 我要评论

  • from sklearn.pipeline import Pipeline 
  • 网格搜刮为主动化调参的常见技巧之一,grid_search包供给了主动化调参的对象,包含GridSearchCV类。对组合好的对象进行练习以及调参的代码如下:

    1. from sklearn.grid_search import GridSearchCV 

      5 持久化

      externals.joblib包供给了dump和load办法来持久化和加载内存数据:

      1. #持久化数据 
      2. #第一个参数为内存中的对象 
      3. #第二个参数为保存在文件体系中的名称 
      4. #第三个参数为紧缩级别,0为不紧缩,3为合适的紧缩级别 
      5. dump(grid_search, 'grid_search.dmp', compress=3) 
      6. #大年夜文件体系中加载数据到内存中 
      7. grid_search = load('grid_search.dmp'

      6 回想

      7 总结

      应用sklearn进行数据发掘

      留意:组合和持久化都邑涉及pickle技巧,在sklearn的技巧文档中有解释,将lambda定义的函数作为FunctionTransformer的自定义转换函数将不克不及pickle化。

      2015年我设计了一个基于sklearn的主动化特点工程的对象,其以Mysql数据库作为原始数据源,供给了“灵活的”特点提取、特点处理的设备办法,同时从新封装了数据、特点和模型,以便利调剂体系辨认。说灵活,其实也执偾经由过程设备文件的方法定义每个特点的提取和处理的sql语句。然则纯粹应用sql语句来进行特点处理是很勉强的,除去特点提取以外,我又造了一回轮子,本来sklearn供给了这么竽暌古秀的特点处理、工作组合等功能。所以,我在这个博客中先不提任何算法和模型,先大年夜数据发掘工作的第一步开端,应用基于Python的各个对象把大年夜部分步调都走了一遍(抱歉,我临时忽视了特点提取),欲望如许的梳理可以或许少让初学者走弯路吧。

      【编辑推荐】

      1. 数据发掘核默算法之一--回归
      2. 数据科学家用得最多的十种数据发掘算法
      3. 深刻浅出:若何大年夜0开端进修大年夜数据发掘分析?
      4. 盘点:数据发掘中的十大年夜实用办法
      5. 数据发掘中的十大年夜实用分析办法
      【义务编辑:未丽燕 TEL:(010)68476606】

        推荐阅读

        技术巨头争夺AI人才,连应届生都能拿巨额高薪

      2017年架构师最重要的48个小时 | 8折倒计时 到了2013年,Google、Facebook以及若干其他公司开端雇用相对少量专善于这些技巧的研究人员。神经收集限制赞助辨认宣布在Facebook上的脸庞,辨认>>>详细阅读


      本文标题:使用Sklearn进行数据挖掘

      地址:http://www.17bianji.com/lsqh/38309.html

  • 关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)