作家
登录

如何构建用于检测信用卡诈骗的机器学习模型?

作者: 来源: 2017-04-06 11:42:32 阅读 我要评论

模型类型被称为一个逻辑回归。

拟合模型

我们若何肯定a、b、c、d和Z的值?让我们以随机选择a、b、c、d和Z的方法开端。我们可以定义这套猜测的可能性如:

也就是说,大年夜我们的数据集里掏出每一个样本,并且计算欺骗p的猜测概率,供给给猜测a、b、c、d和Z(每个样本的特点值)的值应用:

对于每个实际上是讹诈的样本,我们欲望p比较接近1,而对于每一个不是欺骗的样本,我们欲望p接近0(所以1-p应当接近1)。是以,我们对于所有讹诈样本采取p产品,对于所有非讹诈样本采取1-p产品,用以获得评估,猜测a、b、c、d和Z有多好。我们想让似然函数尽可能大年夜(例如,尽可能地接近1)。开端我们的猜测,我们迭代地调剂a、b、c、d和Z,进步可能性,直到我们发明弗成以再经由过程扰动系数晋升它的值。一种常用的优化方法是随机梯度降低。

Python实现

如今我们将会应用标准的Python开源对象实践我们方才评论辩论完的道理。我们将会应用pandas,它给Python带来了类似于R说话的大年夜范围数据科学的API(R-like data frames),以及scikit-learn,它是一个热点的机械进修包。让我们对之前描述过的CSV文件定名为“data.csv”;我们可以上传数据并看一下下面的代码:

如今大年夜范围数据帧数据拥有了所有我们须要的数据、虚拟变量以及所有效于练习我们的模型的数据。我们对目标进行切分(在这种讹诈情况下测验测验猜测变量)以及用scikit须要的属性作为不合的输入参数。

在进行模型练习之前,我们还有一个问题须要评论辩论。我们欲望我们的模型归纳充分,例如,当对于款进行分类时应当是精确的,它应当是我们之前没有见过的方法,而不该该仅仅是之前见过那些在付出时计算的特别模式。为了确保不会在现有的数据中过度拟合模型成为噪声,我们将会瓜分数据为两个练习集,一个练习聚会会议被用来评估模型参数(a、b、c、d和Z)以及验证集(也被叫做测试集),另一个数据聚会会议被用来计算模型机能指标(下一章我们会介绍)。如不雅一个模型是过度拟合的,它会在练习集上表示优胜(因为它会在该集合中进修模式),然则在验证集上表示较差。还有其他的交叉验证方法(例如,k-fold交叉验证),然则“测试练习”分别会合适我们这里的目标。

我们应用sckit可以很轻松地瓜分数据为练习和测试集,如下:

在这惯例子中,我们会应用数据的2/3用于练习模型,数据的1/3用于验证模型。我们如今预备去练习模型,在此它只是个琐碎小事:

该拟合函数运行拟合法度榜样(最大年夜化膳绫擎提到的似然函数),然后我们可以针对a、b、c、d(在coef_)和Z(在intercept_)的值萌芽返回的对象。是以我们的最终模型是

  1. fraudulent,charge_time,amount,card_country,card_use_24h 
  2.  
  3. False,2015-12-31T23:59:59Z,20484,US,0 
  4.  
  5. False,2015-12-31T23:59:59Z,1211,US,0 
  6.  
  7. False,2015-12-31T23:59:59Z,8396,US,1 
  8.  
  9. False,2015-12-31T23:59:59Z,2359,US,0 
  10.  
  11. False,2015-12-31T23:59:59Z,1480,US,3 
  12.  
  13. False,2015-12-31T23:59:59Z,535,US,3 
  14.  
  15. False,2015-12-31T23:59:59Z,1632,US,0 
  16.  
  17. False,2015-12-31T23:59:59Z,10305,US,1 
  18.  
  19. False,2015-12-31T23:59:59Z,2783,US,0  

评价模型表示

一旦练习了模型之后,我们就须要去肯定则个模型在猜测感兴趣的变量上毕竟有多好了(在本例子中,该布尔值注解该付出是否存在讹诈)。回想一下我们曾经说过欲望对付出按照讹诈进行分类,如不雅概率(讹诈)大年夜于0.5,我们欲望将其归类为合法的。针对一个模型和一个分类规矩的机能评定方法,平日应用两个变量,如下所示:


  推荐阅读

  如何整理磁盘碎片让Windows 7电脑运行更快?

整顿磁盘碎片办法一1、先是双击计算机,进入计算机后,看到有已经区分好的盘,选择你要清理的盘(这里以C盘以例),点击右键。3、点击磁盘清理,出面下图的界面,扫描你须要清理的硬盘。4、>>>详细阅读


本文标题:如何构建用于检测信用卡诈骗的机器学习模型?

地址:http://www.17bianji.com/lsqh/34600.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)