作家
登录

基于标记数据学习降低误报率的算法优化

作者: 来源: 2017-10-09 12:12:58 阅读 我要评论


无论是基于规矩匹配的策略,照样基于复杂的安然分析模型,安然设备产生的告警都存在大年夜量误报,这是一个相当广泛的问题。个一一个重要的原因是每个客户的应用处景和数据都多若干少有不合的差别,基于固定断定规矩对有统计涨落的数据进行僵化的断定,很轻易出现误判。

在没有持续人工干涉和手动优化的情况下,策略和模型的误报率不会跟着数据的积聚而有所改进。也就是说安然分析人员经由过程对告警打标签的方法,可以将专业经验传授给智能算法,主动得反馈到策略和模型傍边,使之对安然事宜做出更精准的断定。本文介绍应用专家经验持续优化机械进修的办法,对告警数据进行二次分析和进修,大年夜而明显地降低安然威逼告警的误报率。

为了降低误报率,当前大年夜体上有两种技巧门路:

根据不合客户的各类特定情况修改策略和模型,进步策略或者模型的适应才能;

按期(如每月一次)对告警进入二次人工分析,根据分析结不雅来调剂策略和模型的参数设备。

这两种办法对降低误报率都有必定的感化。然则第一种没有自适应才能,是否有效不雅要看实际情况。第二种效不雅会好一些,然则异常耗时耗力,并且因为是人工现场干涉和调剂策略和模型,掉足的概率也异常高。

MIT的研究人员[1] 介绍了一种将安然分析人员标记后的告警日记作为练习数据集,令机械进修算法进修专家经验,使分析算法持续获得优化,实现主动辨认误申报警,降低误报率的办法(以下简称“标签传递经验办法”)。这种把安然分析人员的专业智能转化成算法分析才能的过程,会让分析算法跟着数据的积聚而加倍精绕鹕硖而逐渐摆脱人工干涉,进步运维效力。如下图所示:

下面我们经由过程基于“频繁拜访安然威逼告警”模仿的场景数据来介绍一下实现机制。

什么是频繁拜访模型?逻辑比较简单:一段时光内(比如1分钟),一个进击者对体系的拜访次数明显高于通俗拜访者的次数。此告警规矩可以用简单的基于阈值,或者是应用统计分布的离异概率。基于此,我们先模仿一些已经被安然分析人员打过标签的告警数据。根据实际应用经验,我们尽量模仿异常接近实际场景的数据。如下图:

关于模仿数据的介绍:

总共模仿了20天的告警数据,大年夜2017-01-01到2017-01-20。前10天的数据用来练习模型,后10天的数据用来衡量模型的表示;

别的,因为随机丛林模型以及大年夜部分机械进修模型都不支撑分类变量(categoricalvariable)的进修,所以我们把srcIP和destIP这两个特点值做了二值化处理。扼要代码如下:

每个告警带有是否误报的标签。红色代表误报,蓝色代表精确告警。

关于模仿数据的假设:

误报集合在某个时光段,模仿数据假设典范围是18:00-19:00。在安然运维实践中,切实其实存在某个特定的时光段,因为营业逻辑或者体系原因导致误报增多的现象。所以上述假设是合理的,告警时光可以作为有效的特点值。但并不是所有的误报都集合在这个时光段,同时并不是这个时光段的所有告警都是误报;

误报大年夜多来自于一批不合的IP。所以拜访来源IP也是有效的特点值;

任何数据都不是完美的,所以在模仿数据中参加了~9%的噪音。也就是说袈滟完美的智能模型,误报率也不会低于9%。

扼要模仿数据的代码实现:

 

红色代表误报,蓝色代表精确告警。基于设定特点值的降维分析可以获得两个集合,即误报和非误报有明显的区分的,也就是说误报的是有必定规律,不是完全随机的,是以是可以被机械进修捕获到的。

扼要代码实现:

基于模仿数据,我们想要达到的目标是经由过程持续的强化机械进修可以或许降低误报率。所以我们采取的策略是:

练习一天的数据2017-01-01,测试10天的数据2017-01-11到2017-01-20;

练习两天的数据2017-01-01到2017-01-02,测试10天的数据2017-01-11到2017-01-20;

以词攀类推,来看破过进修越来越多的数据,在测试数据中的误报率是否可以或许获得赓续的改进。

扼要代码如下:

下图显示应用PCA降维分析的可视化结不雅,可以看到明显的分类情况:

这些假设在实际的应用处景中也是相对合理的。如不雅误报是完全随机产生的,那么再智能的模型也不克不及够捕获到误报的提出旌旗灯号。所以这些合理的假设赞助我们模仿真实的数据,并且验证我们的机械进修模型。


  推荐阅读

  开发一个Linux调试器(八):堆栈展开

有时你须要知道的最重要的信息是什么,你当前的法度榜样状况是若何达到那边的。有一个 backtrace 敕令,它给你供给了法度榜样当前的函数调用链。这篇文┞仿将向你展示如安在 x86_64 上实>>>详细阅读


本文标题:基于标记数据学习降低误报率的算法优化

地址:http://www.17bianji.com/lsqh/37720.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)