如何构建用于检测信用卡诈骗的机器学习模型？

模型类型被称为一个逻辑回归。

拟合模型

我们若何肯定a、b、c、d和Z的值?让我们以随机选择a、b、c、d和Z的方法开端。我们可以定义这套猜测的可能性如：

也就是说，大年夜我们的数据集里掏出每一个样本，并且计算欺骗p的猜测概率，供给给猜测a、b、c、d和Z(每个样本的特点值)的值应用：

对于每个实际上是讹诈的样本，我们欲望p比较接近1，而对于每一个不是欺骗的样本，我们欲望p接近0(所以1-p应当接近1)。是以，我们对于所有讹诈样本采取p产品，对于所有非讹诈样本采取1-p产品，用以获得评估，猜测a、b、c、d和Z有多好。我们想让似然函数尽可能大年夜(例如，尽可能地接近1)。开端我们的猜测，我们迭代地调剂a、b、c、d和Z，进步可能性，直到我们发明弗成以再经由过程扰动系数晋升它的值。一种常用的优化方法是随机梯度降低。

Python实现

如今我们将会应用标准的Python开源对象实践我们方才评论辩论完的道理。我们将会应用pandas，它给Python带来了类似于R说话的大年夜范围数据科学的API(R-like data frames)，以及scikit-learn，它是一个热点的机械进修包。让我们对之前描述过的CSV文件定名为“data.csv”;我们可以上传数据并看一下下面的代码：

如今大年夜范围数据帧数据拥有了所有我们须要的数据、虚拟变量以及所有效于练习我们的模型的数据。我们对目标进行切分(在这种讹诈情况下测验测验猜测变量)以及用scikit须要的属性作为不合的输入参数。

在进行模型练习之前，我们还有一个问题须要评论辩论。我们欲望我们的模型归纳充分，例如，当对于款进行分类时应当是精确的，它应当是我们之前没有见过的方法，而不该该仅仅是之前见过那些在付出时计算的特别模式。为了确保不会在现有的数据中过度拟合模型成为噪声，我们将会瓜分数据为两个练习集，一个练习聚会会议被用来评估模型参数(a、b、c、d和Z)以及验证集(也被叫做测试集)，另一个数据聚会会议被用来计算模型机能指标(下一章我们会介绍)。如不雅一个模型是过度拟合的，它会在练习集上表示优胜(因为它会在该集合中进修模式)，然则在验证集上表示较差。还有其他的交叉验证方法(例如，k-fold交叉验证)，然则“测试练习”分别会合适我们这里的目标。

我们应用sckit可以很轻松地瓜分数据为练习和测试集，如下：

在这惯例子中，我们会应用数据的2/3用于练习模型，数据的1/3用于验证模型。我们如今预备去练习模型，在此它只是个琐碎小事：

该拟合函数运行拟合法度榜样(最大年夜化膳绫擎提到的似然函数)，然后我们可以针对a、b、c、d(在coef_)和Z(在intercept_)的值萌芽返回的对象。是以我们的最终模型是

fraudulent,charge_time,amount,card_country,card_use_24h 
 
False,2015-12-31T23:59:59Z,20484,US,0 
 
False,2015-12-31T23:59:59Z,1211,US,0 
 
False,2015-12-31T23:59:59Z,8396,US,1 
 
False,2015-12-31T23:59:59Z,2359,US,0 
 
False,2015-12-31T23:59:59Z,1480,US,3 
 
False,2015-12-31T23:59:59Z,535,US,3 
 
False,2015-12-31T23:59:59Z,1632,US,0 
 
False,2015-12-31T23:59:59Z,10305,US,1 
 
False,2015-12-31T23:59:59Z,2783,US,0

评价模型表示

一旦练习了模型之后，我们就须要去肯定则个模型在猜测感兴趣的变量上毕竟有多好了(在本例子中，该布尔值注解该付出是否存在讹诈)。回想一下我们曾经说过欲望对付出按照讹诈进行分类，如不雅概率(讹诈)大年夜于0.5，我们欲望将其归类为合法的。针对一个模型和一个分类规矩的机能评定方法，平日应用两个变量，如下所示：

2/4 首页上一页 1 2 3 4 下一页尾页

　　推荐阅读

　　如何整理磁盘碎片让Windows 7电脑运行更快？

整顿磁盘碎片办法一1、先是双击计算机，进入计算机后，看到有已经区分好的盘，选择你要清理的盘(这里以C盘以例)，点击右键。3、点击磁盘清理，出面下图的界面，扫描你须要清理的硬盘。4、>>>详细阅读

本文标题：如何构建用于检测信用卡诈骗的机器学习模型？

地址：http://www.17bianji.com/lsqh/34600.html

1/2 1