博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
linux的cpu软中断问题引发的gc cr block lost高等待
阅读量:6237 次
发布时间:2019-06-22

本文共 971 字,大约阅读时间需要 3 分钟。

早上收到应用反馈应用入库积压严重
初步检查:
1.查看主机性能,vmstat看到d队列较高,其余性能良好
2.查看数据库性能,发现大量gc cr request等待,一般此等待跟本节点内存命中率有关,本地内存块中无结果集,就需要到对端节点命中并请求,网络开销较大,这种问题只有重刷cache解决
3.提取两个节点的awr查看,发现等待时间排第一的是gc cr block lost,
而Estd Interconnect traffic (KB)的耗时是15MB,并没有因为大量的gc请求而引发心跳流量的增长,这就比较奇怪了,照理说gc请求较高,心跳流量会剧增。
那就来针对gc cr block lost这个等待时间来研究了,该等待事件一般跟心跳网卡丢包有关,
进一步查看心跳网卡情况
本案例的rac是使用的双心跳,通过ifconfig查看心跳流量包是否存在丢失

可以看到eth3心跳网卡的overruns较高
RX overruns: 表示了 fifo 的 overruns,这是由于 Ring Buffer(aka Driver Queue) 传输的 IO 大于 kernel 能够处理的 IO 导致的,而 Ring Buffer 则是指在发起 IRQ 请求之前的那块 buffer。很明显,overruns 的增大意味着数据包没到 Ring Buffer 就被网卡物理层给丢弃了,而 CPU 无法即使的处理中断是造成 Ring Buffer 满的原因之一。
这个现象就让人联想到之前出现的CPU软中断的问题,可以通过
mpstat -P ALL 2 3查看具体情况
 
core 2 的%soft已经100%了,这就比较明显了,确认无疑,就是软中断故障
通过执行脚本修复
cd /opt/ty
./zdatatuner --pinints=eth
执行完,积压立马恢复,数据库等待事件也恢复正常。
 
【后记】
这个bug在之前已经通过这个脚本修复过,为什么还会出现,回忆在执行之后截止目前,针对这两台主机做过的操作只有加盘,然后对udev重启过,有可能跟该操作有关,所以以后在做类似的操作后,及时执行该脚本,避免再次出现同样的问题。

转载于:https://www.cnblogs.com/tonnytangy/p/7551358.html

你可能感兴趣的文章
值得一试的Android开发工具
查看>>
如何解决Android开发学习过程中缺乏后端接口的问题「Android,资源向」
查看>>
关闭wps自动升级
查看>>
【设计模式】面向对象六大原则
查看>>
Web 通信 之 长连接、长轮询(long polling)
查看>>
Git教程摘录
查看>>
JQuery基本知识框架思维导图(上)
查看>>
Java 数据类型
查看>>
iView 发布微信小程序 UI 组件库 iView Weapp
查看>>
运维Caron 的一条心理的os
查看>>
Android - Fragment(二)加载Fragment
查看>>
JVM笔记6-垃圾回收器
查看>>
Java并发编程笔记1-竞争条件&初识原子类&可重入锁
查看>>
工厂+单例模式
查看>>
火爆的在线知识付费,能否缓解你的知识焦虑
查看>>
阿里云ACM英文版上线,论“全局配置”在电商国际化微服务平台建设中的妙用
查看>>
getComputedStyle方法获取元素CSS值
查看>>
关于图片的Base64编码
查看>>
Android加载Gif和ImageView的通用解决方案:android-gif-drawable(1)
查看>>
WPF TextBox/TextBlock 文本超出显示时,文本靠右显示
查看>>