作家
登录

基于标记数据学习降低误报率的算法优化

作者: 来源: 2017-10-09 12:12:58 阅读 我要评论

此安然威逼场景相对简单,我们不须要太多的特点值和海量的数据,所以机械进修模型选择了随机丛林(RandomForest),我们也测验测验了其他复杂模型,得出的效不雅差别不大年夜。测试结不雅如下:

在我们的机械进修模型傍边,我们应用了4个重要的特点值:

srcIP,拜访源IP

【编辑推荐】

  1. Hive支撑的文件格局与紧缩算法
  2. 大年夜数据算法的困境
  3. 大年夜算法道理,看推荐策略
  4. 若何优化数据表格设计
  5. 跟Facebook学反讹诈 看CopyCatch算法若何搞定Lockstep
【义务编辑:武晓燕 TEL:(010)68476606】

timeofday,告警产生的时光

visits,拜访次数

destIP,被拜访IP

下图显示了特点值袈溱模型中的重要性:

和我们的预期也是一致的,拜访源IP(srcIP)和告警产生的时光(timeofday)是区搀扶误申报警效不雅最好的特点值。

达到我们所预期的效不雅,当练习数据越来越多的时刻,测试数据傍边的误报率大年夜20%多降低到了10%。经由过程对告警数据和标签的赓续自进修,可以剔除很多告警误报。前面提到,数据傍边惹人了9%的噪音,所以误报率不会再持续的降低。

总结

本文经由过程一组模仿实验数据和随机丛林算法,大年夜理论上验证了“标签传递经验办法”的有效性。即经由过程安然分析专家对告警日记进行有效或误报的标记,把专家的常识技能转化成机械进修模型的分析才能。和其他办法比拟,此办法在完成主动化进修之后就不再须要人工干涉,并且会跟着数据的积聚对误报的剔除会加倍精确。

具体细节请参考我们的github源代码:https://github.com/ailpha/ml-reduce-false-alerts



  推荐阅读

  开发一个Linux调试器(八):堆栈展开

有时你须要知道的最重要的信息是什么,你当前的法度榜样状况是若何达到那边的。有一个 backtrace 敕令,它给你供给了法度榜样当前的函数调用链。这篇文┞仿将向你展示如安在 x86_64 上实>>>详细阅读


本文标题:基于标记数据学习降低误报率的算法优化

地址:http://www.17bianji.com/lsqh/37720.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)