此安然威逼场景相对简单,我们不须要太多的特点值和海量的数据,所以机械进修模型选择了随机丛林(RandomForest),我们也测验测验了其他复杂模型,得出的效不雅差别不大年夜。测试结不雅如下:
在我们的机械进修模型傍边,我们应用了4个重要的特点值:
srcIP,拜访源IP
【编辑推荐】
- Hive支撑的文件格局与紧缩算法
- 大年夜数据算法的困境
- 大年夜算法道理,看推荐策略
- 若何优化数据表格设计
- 跟Facebook学反讹诈 看CopyCatch算法若何搞定Lockstep
timeofday,告警产生的时光
visits,拜访次数
destIP,被拜访IP
下图显示了特点值袈溱模型中的重要性:
和我们的预期也是一致的,拜访源IP(srcIP)和告警产生的时光(timeofday)是区搀扶误申报警效不雅最好的特点值。
达到我们所预期的效不雅,当练习数据越来越多的时刻,测试数据傍边的误报率大年夜20%多降低到了10%。经由过程对告警数据和标签的赓续自进修,可以剔除很多告警误报。前面提到,数据傍边惹人了9%的噪音,所以误报率不会再持续的降低。
总结
本文经由过程一组模仿实验数据和随机丛林算法,大年夜理论上验证了“标签传递经验办法”的有效性。即经由过程安然分析专家对告警日记进行有效或误报的标记,把专家的常识技能转化成机械进修模型的分析才能。和其他办法比拟,此办法在完成主动化进修之后就不再须要人工干涉,并且会跟着数据的积聚对误报的剔除会加倍精确。
具体细节请参考我们的github源代码:https://github.com/ailpha/ml-reduce-false-alerts
推荐阅读
有时你须要知道的最重要的信息是什么,你当前的法度榜样状况是若何达到那边的。有一个 backtrace 敕令,它给你供给了法度榜样当前的函数调用链。这篇文┞仿将向你展示如安在 x86_64 上实>>>详细阅读
本文标题:基于标记数据学习降低误报率的算法优化
地址:http://www.17bianji.com/lsqh/37720.html
1/2 1