基于标记数据学习降低误报率的算法优化

此安然威逼场景相对简单，我们不须要太多的特点值和海量的数据，所以机械进修模型选择了随机丛林(RandomForest)，我们也测验测验了其他复杂模型，得出的效不雅差别不大年夜。测试结不雅如下：

在我们的机械进修模型傍边，我们应用了4个重要的特点值：

srcIP，拜访源IP

【编辑推荐】

【义务编辑：武晓燕 TEL：（010）68476606】

timeofday，告警产生的时光

visits，拜访次数

destIP，被拜访IP

下图显示了特点值袈溱模型中的重要性：

和我们的预期也是一致的，拜访源IP(srcIP)和告警产生的时光(timeofday)是区搀扶误申报警效不雅最好的特点值。

达到我们所预期的效不雅，当练习数据越来越多的时刻，测试数据傍边的误报率大年夜20%多降低到了10%。经由过程对告警数据和标签的赓续自进修，可以剔除很多告警误报。前面提到，数据傍边惹人了9%的噪音，所以误报率不会再持续的降低。

总结

本文经由过程一组模仿实验数据和随机丛林算法，大年夜理论上验证了“标签传递经验办法”的有效性。即经由过程安然分析专家对告警日记进行有效或误报的标记，把专家的常识技能转化成机械进修模型的分析才能。和其他办法比拟，此办法在完成主动化进修之后就不再须要人工干涉，并且会跟着数据的积聚对误报的剔除会加倍精确。

具体细节请参考我们的github源代码：https://github.com/ailpha/ml-reduce-false-alerts

　　推荐阅读

　　开发一个Linux调试器（八）：堆栈展开

有时你须要知道的最重要的信息是什么，你当前的法度榜样状况是若何达到那边的。有一个 backtrace 敕令，它给你供给了法度榜样当前的函数调用链。这篇文┞仿将向你展示如安在 x86_64 上实>>>详细阅读

地址：http://www.17bianji.com/lsqh/37720.html