作家
登录

美团外卖:日订单量超1600万的自动化业务运维之路

作者: 来源: 2017-12-05 12:06:53 阅读 我要评论

图6 营业监控运维体系架构

营业大年夜盘

外卖营业会有异常多的营业指标进行监控,营业指标和体系指标、办事指标不合,须要营业方根据不合的营业自行上报监控数据。营业大年夜盘作为营业运维体系的应用人口,可以闪开辟人员快速查看本身关怀的营业指标的及时状况以及比来几天的走势。

我们按期进行的外卖全链路压测,须要召集相干营业方进行预备和跟进,这个中涉及的数据构造部分会接洽关系到很多营业方的改革、验证、预备工作。如图13所示,我们须要经由过程压测筹划串联全部预备、验证过程,尽量少的有工资晃荡介入到全部过程中。这个中我们须要进行如下工作的预备:

图7 营业监控大年夜盘及拓展才能

如图7所示,营业大年夜盘不但须要展示营业监控指标,还须要有很强的对外扩大才能,比如:

① 当出现营业指标异常时,根据后台的监控数据分析,可以手动或者主动进行事宜标记,告诉开辟人员是什么原因引起了营业指标的波动,做到用户信息量的快速同步。

② 可以带着时光戳邮攀类型快速引导开辟人员进入其它监控体系,进步开辟人排盘考题的效力。

我们会按期对临盆体系进行全链路压测,同时为了压测数据不污染真实的营业数据,会对压测流量监控进行隔离。

外卖营业场景,使我们大年夜多半营业监控数据都出现出很强的周期性,针对营业数据我们可以应用汗青数据应用Holt-Winters等模型进行营业数据猜测,当我们的实际值与猜测值不在置信区间内将直接进行告警。

因为是加倍偏向营业的运维体系,我们针对敏感的营业指标进行了响应的权限治理。

为了增长体系应用处景,我们须要支撑移动端,应用户可以在任何处所经由过程手机就可以查看本身关怀的监控大年夜盘并触发办事保护预案。

核心链路

核心链路也是体系重要的应用人口,用户可以经由过程核心链路快速定位是哪一个调用链竽暌箍现了问题。如图8所示,这里会涉及两个步调:

① 我们须要给核心链路上的办事节点进行健康评分,根据评分模型来界定问题严重的链路。这里我们会根据办事的各个指标来描述一个办事的问题画像,问题画像中的指标也会有权重划分,比如:当办事出现了掉败率报警、TP99报警,大年夜量异常日志则会进行高权重的加分。

② 当我们确认完某条链路出现了问题,在链路上越往后的节点可能是引起问题的根节点,我们会及时获取该节点更多相干监控指标来进行分析诊断,这里会融合开辟人员日常排盘考题的SOP,最终可能定位到是这个办事节点某些办事器的磁盘或者CPU等问题。

图8 核心链路产品扶植路径

办事保护&故障练习训练

图9 办事保护&故障练习训练模块的核心功能

图14 主动化扶植后期发力点

办事保护&故障练习训练模块是让我们的营业运维体系形成闭环的重要部分,该模块须要具备的核心功能如图9所示。针对不合的保护需求,我们会有不合类型的办事保护开关,这里重要有如下几种:

① 降级开关:因为营业快速成长,在代码中会有成百上千的降级开关。安营业出现异常时须要手动进行降级操作。

② 限流开关:有些针对特定营业场景须要有响应的限流保护办法。比如:针对单机限流主如果对自身办事器的资本保护,针对集群限流主如果针对调层的DB或者Cache等存储资本进行资本保护,还有一些其他限流需求都是欲望可以在体系出现流量异常时有效地进行保护。

③ Hystrix主动熔断:可以经由过程监控异常数、线程数等简单指标,快速保护我们的办事健康状况不会急剧恶化。

根据我们的运维经验,在出现临盆变乱时可能会涉及到多个开关的切换,这里就须要针对不合的故障场景预先设置办事保护预案,可以在出现问题时经由过程一键操尴尬刁难多个办事保护开关进行预设状况的变革。我们既然有了应对不合故障场景的办事保护预案,就须要时不时来验证这些办事保护预案是否真的可以起到预期的效不雅。

临盆对应的变乱不常有,肯定也不克不及只指望临盆真的出现问题才进行预案的验证,还须要针对不合的故障进行模仿。当我们临盆办事出现问题时,不管是因为统??因照样硬件故障,大年夜多半表示在办事上的可能是办事超时或者变慢、抛出异常。我们前期重要针对这几点做到可以对核心链路上栉一办事节点进行故障练习训练,临盆故障可能会同时多个节点出现故障,这里就须要我们的故障练习训练也须要支撑预案治理。

肯定了核心目标,我们开端着手开辟产品。接下来就介绍一下我们扶植这套体系的核心产品以及各个产品模块之间的接洽关系,其它设计细节与我们碰着的坑,本文不侧重描述了,之后会有加倍针对性的文┞仿分享出来。

办事保护是营业运维终端办法,我们须要在软件上可以让用户很便利地直达对应的办事保护,这里我们须要将办事保护与营业大年夜盘、核心链路进行整合,在开辟人员发明问题时可以便利地进入对应的办事保护预案。有了这些保护办法与故障练习训练功能,结合与核心链路的关系,就可以结合故障诊断与全链路压测进行主动化方面的扶植了。


  推荐阅读

  巧妙利用DNS突破AWS云环境中隔离的网络

CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了 去往AmazonProvidedDNS的流量都是绑定到AWS治理基>>>详细阅读


本文标题:美团外卖:日订单量超1600万的自动化业务运维之路

地址:http://www.17bianji.com/lsqh/39471.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)