模型类型被称为一个逻辑回归。
拟合模型
我们若何肯定a、b、c、d和Z的值?让我们以随机选择a、b、c、d和Z的方法开端。我们可以定义这套猜测的可能性如:
也就是说,大年夜我们的数据集里掏出每一个样本,并且计算欺骗p的猜测概率,供给给猜测a、b、c、d和Z(每个样本的特点值)的值应用:
对于每个实际上是讹诈的样本,我们欲望p比较接近1,而对于每一个不是欺骗的样本,我们欲望p接近0(所以1-p应当接近1)。是以,我们对于所有讹诈样本采取p产品,对于所有非讹诈样本采取1-p产品,用以获得评估,猜测a、b、c、d和Z有多好。我们想让似然函数尽可能大年夜(例如,尽可能地接近1)。开端我们的猜测,我们迭代地调剂a、b、c、d和Z,进步可能性,直到我们发明弗成以再经由过程扰动系数晋升它的值。一种常用的优化方法是随机梯度降低。
Python实现
如今我们将会应用标准的Python开源对象实践我们方才评论辩论完的道理。我们将会应用pandas,它给Python带来了类似于R说话的大年夜范围数据科学的API(R-like data frames),以及scikit-learn,它是一个热点的机械进修包。让我们对之前描述过的CSV文件定名为“data.csv”;我们可以上传数据并看一下下面的代码:
如今大年夜范围数据帧数据拥有了所有我们须要的数据、虚拟变量以及所有效于练习我们的模型的数据。我们对目标进行切分(在这种讹诈情况下测验测验猜测变量)以及用scikit须要的属性作为不合的输入参数。
在进行模型练习之前,我们还有一个问题须要评论辩论。我们欲望我们的模型归纳充分,例如,当对于款进行分类时应当是精确的,它应当是我们之前没有见过的方法,而不该该仅仅是之前见过那些在付出时计算的特别模式。为了确保不会在现有的数据中过度拟合模型成为噪声,我们将会瓜分数据为两个练习集,一个练习聚会会议被用来评估模型参数(a、b、c、d和Z)以及验证集(也被叫做测试集),另一个数据聚会会议被用来计算模型机能指标(下一章我们会介绍)。如不雅一个模型是过度拟合的,它会在练习集上表示优胜(因为它会在该集合中进修模式),然则在验证集上表示较差。还有其他的交叉验证方法(例如,k-fold交叉验证),然则“测试练习”分别会合适我们这里的目标。
我们应用sckit可以很轻松地瓜分数据为练习和测试集,如下:
在这惯例子中,我们会应用数据的2/3用于练习模型,数据的1/3用于验证模型。我们如今预备去练习模型,在此它只是个琐碎小事:
该拟合函数运行拟合法度榜样(最大年夜化膳绫擎提到的似然函数),然后我们可以针对a、b、c、d(在coef_)和Z(在intercept_)的值萌芽返回的对象。是以我们的最终模型是
- fraudulent,charge_time,amount,card_country,card_use_24h
- False,2015-12-31T23:59:59Z,20484,US,0
- False,2015-12-31T23:59:59Z,1211,US,0
- False,2015-12-31T23:59:59Z,8396,US,1
- False,2015-12-31T23:59:59Z,2359,US,0
- False,2015-12-31T23:59:59Z,1480,US,3
- False,2015-12-31T23:59:59Z,535,US,3
- False,2015-12-31T23:59:59Z,1632,US,0
- False,2015-12-31T23:59:59Z,10305,US,1
- False,2015-12-31T23:59:59Z,2783,US,0
评价模型表示
一旦练习了模型之后,我们就须要去肯定则个模型在猜测感兴趣的变量上毕竟有多好了(在本例子中,该布尔值注解该付出是否存在讹诈)。回想一下我们曾经说过欲望对付出按照讹诈进行分类,如不雅概率(讹诈)大年夜于0.5,我们欲望将其归类为合法的。针对一个模型和一个分类规矩的机能评定方法,平日应用两个变量,如下所示:
推荐阅读
整顿磁盘碎片办法一1、先是双击计算机,进入计算机后,看到有已经区分好的盘,选择你要清理的盘(这里以C盘以例),点击右键。3、点击磁盘清理,出面下图的界面,扫描你须要清理的硬盘。4、>>>详细阅读
地址:http://www.17bianji.com/lsqh/34600.html
1/2 1