使用Sklearn进行数据挖掘

from sklearn.pipeline import Pipeline
网格搜刮为主动化调参的常见技巧之一，grid_search包供给了主动化调参的对象，包含GridSearchCV类。对组合好的对象进行练习以及调参的代码如下：
from sklearn.grid_search import GridSearchCV  5 持久化
externals.joblib包供给了dump和load办法来持久化和加载内存数据：
#持久化数据 
#第一个参数为内存中的对象 
#第二个参数为保存在文件体系中的名称 
#第三个参数为紧缩级别，0为不紧缩，3为合适的紧缩级别 
dump(grid_search, 'grid_search.dmp', compress=3) 
#大年夜文件体系中加载数据到内存中 
grid_search = load('grid_search.dmp') 
6 回想
7 总结
留意：组合和持久化都邑涉及pickle技巧，在sklearn的技巧文档中有解释，将lambda定义的函数作为FunctionTransformer的自定义转换函数将不克不及pickle化。
2015年我设计了一个基于sklearn的主动化特点工程的对象，其以Mysql数据库作为原始数据源，供给了“灵活的”特点提取、特点处理的设备办法，同时从新封装了数据、特点和模型，以便利调剂体系辨认。说灵活，其实也执偾经由过程设备文件的方法定义每个特点的提取和处理的sql语句。然则纯粹应用sql语句来进行特点处理是很勉强的，除去特点提取以外，我又造了一回轮子，本来sklearn供给了这么竽暌古秀的特点处理、工作组合等功能。所以，我在这个博客中先不提任何算法和模型，先大年夜数据发掘工作的第一步开端，应用基于Python的各个对象把大年夜部分步调都走了一遍(抱歉，我临时忽视了特点提取)，欲望如许的梳理可以或许少让初学者走弯路吧。
【编辑推荐】
数据发掘核默算法之一--回归
数据科学家用得最多的十种数据发掘算法
深刻浅出：若何大年夜0开端进修大年夜数据发掘分析？
盘点：数据发掘中的十大年夜实用办法
数据发掘中的十大年夜实用分析办法
【义务编辑：未丽燕 TEL：（010）68476606】

            	
			 4/4   首页 上一页 2 3 4	
			

　　推荐阅读
　　技术巨头争夺AI人才，连应届生都能拿巨额高薪
            2017年架构师最重要的48个小时 | 8折倒计时
            到了2013年，Google、Facebook以及若干其他公司开端雇用相对少量专善于这些技巧的研究人员。神经收集限制赞助辨认宣布在Facebook上的脸庞，辨认>>>详细阅读


本文标题：使用Sklearn进行数据挖掘
地址：http://www.17bianji.com/lsqh/38309.html
 1/2    1