我们能有什么样的数据展示,可能须要趋势图或者仪表盘或者Dashbord,这是我们须要研究的。这些事宜或者报警或者上线有什么比较好的方法展示给外部看,这也是很重要的。我们采集,大年夜Agent采集到自定义的日记,以及日记的外部、外网在全国的CDN的点接收探测,这些方法大年夜而决定我们上层构建起很多的监控模式在。
在这个基本上我们构建了京东云监控体系,我们把监控分为四个层次,或者说四个类型:一是基本监控,就是我们所谓的机械层面,CPU、内存、磁盘等,比较简单,不须要用户去设备的,它会自采集。在机械上,机械是好的时刻就解决办事的监控,这个解决筹划比较多一些,大年夜家做得比较多。第二个是怎么解决办事的监控,我们须要存活监控,比如过程和端口监控,还有语义监控。
存活监控基本上就是办事层面对外的表示是什么,我们的四大年夜核心指标,解决办事机能或者有异常,肯定所谓的边疆问题,这琅绫擎经由过程日记来解决机能的监控。再类似黑盒,大年夜用户侧看办事,发明问题。大年夜用户的角度,因为很多时刻我们看办事是好的,然则办事对外表示不好。很简单的例子,所有办事指标OK,然则网站不克不及拜访,这是一个问题,对京东来嗣魅这是异常严重的,这时刻最终你会发明你的流量在掉落,或者你的订单在掉落,这也是很严重的问题,就是说我们大年夜营业的角度,大年夜用户层面做黑盒的检测。技巧监控的机械,大年夜采集到计算到报警到机械连通性都是主动的,这些是不须要用户做任何工作的,就可以把这些器械采集。这些报警会给一些默认,比如我大年夜概发明一台机械cpu.idle小于10%,我们看它属于哪个办事,大年夜办事知道这个是谁保护,谁保护就知道给谁报警,给谁报警之后,我大年夜概须要做什么样的数据。我们做这个联动。上线过程中,这个机械的报警须要做什么评选,这是技巧层面的。存活监控主如果看基本日记是不是存活,当前的技巧消费是什么样。再就是看端口是不是OK的。
机能监控方面,重要存眷办事对外的指标,这个指标怎么来的呢?一般是日记。这个格局比较同一,我们去规定和规范或者商定一个所谓的日记格局,这时刻很轻易把这些值搀扶来,扑晡苍己是多维度的,可以发明京东的流量是安稳的过程,然则底下可能比较波动,我们可能发明总体流量均衡,然则某个时段,比瘸澜东联通的流量不OK,多维度的聚合你可能发明这些所谓比较细微的问题。这个采集方法是大年夜日记里抓,还有一种方法是存续或者用户本身对我们裸露,然后经由过程一些方法把这些值输出出来。
营业监控,大年夜用户侧看办事是否OK,用户侧看办事最重要,能模仿全国各地用户做拜访,发明非运营商或者分机房拜访的情况,这是用外网或者自定义的方法,我们用各类方法模仿云操作,监控云,模仿一?用户登录监控云网站,然后购买一个主机,安排一个镜像,然后做一个宣布,这些过程都是OK的,如不雅监控层OK,理论上用户也是OK,大年夜用户的角度可以发明一些问题,先于用户发明问题很重要,先于他发明,就可以提前处理,这就不是故障,只是小case。
总结一下,我们做京东的监控主动化的平台,接下来是将技巧实现办事化,做全生命周期的DevOps,尤其我们有这么多的SaaS客户,帮他们包管效力,节约成本,供给解决筹划,赞助用户解决问题。
感谢!
————————
以上是51CTO.com记者大年夜一线为您带来的出色报道。后续我们还有加倍出色的独家报道,敬请存眷。
【51CTO原创稿件,合作站点缀载请注明原文作者和出处为51CTO.com】
【编辑推荐】
- 京东云助力金蝶建筑活力混淆云
- 京东云重磅宣布一站式混淆云解决筹划
- 京东云联袂超图构建 “云端地图信息分享云平台”
推荐阅读
NVIDIA发布MX110/MX130笔记本独显:上代麦克斯韦架构
CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了 NVIDIA比来悄然宣布了两款标记本自力显卡GeForce MX110、GeForce MX130,一看就知道定位比非行的GeForce MX150更低,并且当时>>>详细阅读
本文标题:【WOTD】京东云郑永宽:京东云自动化运维体系构建
地址:http://www.17bianji.com/lsqh/39370.html
1/2 1