践言性率:所有合法费用中被缺点地分类为讹诈的那部分,以及
真阳正率(也被称为召回率或者敏感性指标),所有讹诈收入中被精确地分类为讹诈的那部分。
评估分类机能有很多方法,我们会锁定则两个变量。
幻想情况下,践言性率将会接近0并且真阳正率会接近1。当我们改变概率阈值时我们把一笔费用分类为讹诈的(膳绫擎我们说是0.5,然则我们可以选择0和1之间的任何值,越小的值意味着我们加倍积极地标记付出为讹诈的,而高的值意味着我们加倍保守),践言性率和真阳正率勾画了一个曲线,这个曲线依附于我们的模型有多好。我们称之为受试者工作特点曲线(ROC曲线),可以应用scikit很轻易计算出来:
变量fpr、tpr和阈值包含了所有ROC曲线的数据,然则我们遴选了一些有针对性的样本:如不雅概率(讹诈)大年夜于0.514,而践言性率是0.374,真阳性率是0.681时,我们假定该费用为讹诈。我们所选的ROC曲线及描述点为:
【编辑推荐】
- 初学者必读:大年夜迭代的五个层面懂得机械进修
- 为什么机械进修行业的成长离不开 “开源”
- 拖拽式机械进修的爱与恨
- 机械进修应用Elasticsearch进行更智能搜刮
- 改变┞俘在产生!机械进修可以将仁攀类带向何方?
模型机能较好,越接近ROC曲线(膳绫擎蓝色的线),越会紧靠图风筝上方的边框。留意ROC曲线可以告诉你模型有多好,可以应用一个AUC数计算,或者查看曲线下的面积。AUC值袈浣接近于1,模型机能越好。
当然,当你把模型值放入临盆情况并应用它时,你平日会须要去经由过程我们膳绫擎采取的方法,即比较他们的阈值方法采取行动输出概率模型,如不雅概率(讹诈)>0.5,我们认为一笔费用被假设为是讹诈的。是以,对于一个特定的应用法度榜样,模型机能对应于ROC曲线上的一个点,曲线整体再一次仅仅控制了践言性率和真阳正率之间的交易均衡,例如,政策选择范围内的处理方法不合。
决定计划树与随机丛林
上述的逻辑回归模型是线性机械进修模型的一个示例。想象一下,我们有的每一笔付出示例是空间里的一个点,这个点的坐标就是特点值。如不雅我们仅仅有两个特点值,每个示例点会是X-Y平面上的一个点。如不雅在我们可以应用线性函数把无讹诈样本和讹诈者样本区分开时,平日类似于逻辑回归的线性模型就能较好地运行,这意味着几乎所有讹诈样本处于一条线的一边,而几乎所有的非讹诈样本处于这条线的另一边。
平日情况下,猜测特点和目标变量之间的关系,我们试图猜测这个关系长短线性的,在这种情况下,我们须要应用非线性模型计算关系。一个强有力的、较为直不雅的非线性模型是决定计划树,如下所示:
对于每个节点,我们将特定特点的值和一些阈值进行比较,根据比较结不雅搀扶向左照样向右。我们持续以这种方法(类似一个于二十问的游戏,固然数量不须要二十层深度),直到我们达到树木的树叶。树叶由我们练习集里的所有的样本构成,比较这棵树上的每一个节点的知足路径,示例树叶上讹诈那一部分被模型申报猜测的概率剖断为讹诈。当我们有新的样本须要被分类时,直到达到树叶之前,我们生成它的特点并且开端玩“二十问的游戏”,然后猜测讹诈的可能性,并描述如下。
固然我们不会去深究树是若何生成的细节内容(固然,简单来说我们就是为每一个节灯揭捉?择特点和阈值,最大年夜化信息增益或者辨别力概念,即上述图表中申报的基尼系数,并在达到预先指定的一些停止标准前一向进行递归),应用scikit练习决定计划树范型就像练习逻辑回归一样轻易(或者事实上在任何其他模型上):
决定计划树的一个问题是它们很轻易被过度拟合,一棵很深的树的每个叶子仅仅是练习数据里的一个示例,平日管帐算每个样本的噪音,并且可能不是常见趋势,然则随机丛林模许可以赞助解决这个问题。在一个随机丛林中,我们练习大年夜量的决定计划树,然则每棵树的练习仅仅是我们现有的数据的一个子集,并且当构建每棵树时我们仅仅推敲了切分的子集特点。所猜测的讹诈的概率是丛林里所有树所临盆的平均概率。仅基于数正人集对每棵树进行练习,仅将特点的子集作为每个节点的分别候选来推敲,削减树木之间的相干性,让过度拟合更少一些。
综上所述,当特点和目标变量之间的关系是线性时,像逻辑回归如许的线性模型是恰当的,或者当你欲望分别义务特点对猜测的影响(因为如许可以直接攫取回归系数)。另一方面,像决定计划树如许的非线性模型和随机丛林是很难解释的,然则他们可以被用来计算更复杂的关系。
产品化机械进修模型
练习一个机械进修模式可以被认为仅仅是应用机械进修解决营业问题过程的第一步。正如膳绫擎描述的,模型练习平日必须在特点工程开端工作前完成。一旦有了模型就须要去产品化它了,也就是说,让这个模许可以用于临盆情况并可以采取恰当的行动(例如,阻拦被评估为讹诈的交易)。
固然我们不会在这里谈论细节,然则产品化会惹人很多挑衅,例如,你可以应用Python安排模型,然则你的临盆情况软件栈应用的是Ruby。如不雅出现这种情况,你将会须要让你的模型经由过程必定格局的序列化情势大年夜Python转为Ruby,并且让你临盆情况的Ruby代码攫取序列化,或者应用面向办事的体系架构实现大年夜Python到Ruby的办事请求,二选一。
推荐阅读
整顿磁盘碎片办法一1、先是双击计算机,进入计算机后,看到有已经区分好的盘,选择你要清理的盘(这里以C盘以例),点击右键。3、点击磁盘清理,出面下图的界面,扫描你须要清理的硬盘。4、>>>详细阅读
地址:http://www.17bianji.com/lsqh/34600.html
1/2 1