某世界午,正在和code苦战的我忽然收到报警短信,告警我们有个营业电信机房LVS下的RS机械全手下线了。第一时光去看机械负载情况,发明CPU IDLE在80%阁下,其他各项指标也都正常;困惑是LVS的KeepAlive法度榜样出问题了,上治理平台点了一遍RS上线,发明办事恢复了,于是未做进一步排查,只向OPS同窗反馈了一下。
检查PHP-FPM的日记,发明有报错/data/www/front/index.php文件履行很慢:
然而,刚过了半个小时,同样的报警又来了,看来还得找到根来源基本因。挑了一台机械保存现场,并在治理平台将其他机械操作上线,以包管充分的排查时光。
先检查Nginx allweb.log中lvscheck相干的日记,发明状况码全部为499且request_time达到5s:
- [tabalt@server01 ~]$ tail -100 /data/nginx/logs/allweb.log | grep lvscheck
- 10.18.42.2 92 0 5.000[s] - - [12/Jul/2017:18:29:18 +0800] "GET /status.php HTTP/1.0" 499 - "-" "KeepAliveClient" lvscheck.domain.com 10.20.12.60 - -
- 10.18.42.2 92 0 5.000[s] - - [12/Jul/2017:18:29:22 +0800] "GET /status.php HTTP/1.0" 499 - "-" "KeepAliveClient" lvscheck.domain.com 10.20.12.60 - -
- 10.18.42.2 92 0 5.000[s] - - [12/Jul/2017:18:29:24 +0800] "GET /status.php HTTP/1.0" 499 - "-" "KeepAliveClient" lvscheck.domain.com 10.20.12.60 - -
- ...
本来KeepAlive法度榜样请求http://lvscheck.domain.com/status.php页面探测办工作况时,竟然过了5s都没有收到响应,于是主动断开请求并将RS下线了。但机械很闲,为什么/status.php会处理跨越5s呢?
- [tabalt@server01 ~]$ tail /data/php/log/php-fpm.log
- 12-Jul-2017 18:29:18] WARNING: [pool www] child 3988, script '/data/www/front/index.php' (request: "GET /index.php") executing too slow (11.301960 sec), logging
- [12-Jul-2017 18:29:22] WARNING: [pool www] child 3945, script '/data/www/front/index.php' (request: "GET /index.php") executing too slow (11.863325 sec), logging
- [12-Jul-2017 18:29:24] WARNING: [pool www] child 3887, script '/data/www/front/index.php' (request: "GET /index.php") executing too slow (10.498795 sec), logging
- ...
但/data/www/front/index.php只是人口文件,大年夜这个日记看不出来问题在哪里,再检查下PHP-FPM的慢日记:
- [tabalt@server01 ~]$ tail -100 /data/php/log/www.log.slow
- ...
- script_filename = /data/www/front/index.php
- [0x00007fecbd613f90] execute() /data/www/vendor/andals/vine/src/Component/Mysql/Driver.php:218
- [0x00007fecbd613ec0] doExecute() /data/www/vendor/andals/vine/src/Component/Mysql/Driver.php:66
推荐阅读
人工智能的进步既可认为所有人创造一个奢跋扈的休闲社会,也可认为无法就业的大年夜多半人带来前所未竽暌剐的苦楚,这取决于人工临盆的财富若何被征税和分享。1.人工智能正在为你的工作而>>>详细阅读
本文标题:一次Mysql改表引发LVS下RS机器全下线的问题
地址:http://www.17bianji.com/lsqh/37065.html
1/2 1