记录一次线上故障新生代,老年代,内存满负荷运行,IO线程,CPU全部满负载异常情况排查: 背景:正常运行的一个某个业务系统,并发量比较大,相当于10万用户每5秒访问一次的数据量。因为某次发版之后,运行一段时间之后,通过监控,发现新生代内存,老年代内存都是99%的使用情况,单台实例服务IO线程达
Redis 通常是我们业务系统中一个重要的组件,比如:缓存、账号登录信息、排行榜等。 一旦 Redis 请求延迟增加,可能就会导致业务系统“雪崩”。 我在单身红娘婚恋类型互联网公司工作,在双十一推出下单就送女朋友的活动。 谁曾想,凌晨 12 点之后,用户量暴增,出现了一个技术故障,用户无法下单,
Oracle性能排查小案例 原创 jeanron1002021-07-23 15:03:10©著作权 文章标签经验分享文章分类Oracle数据库阅读数28 昨天一个老同学找我说碰到了数据库的问题,因为各种杂事一直给耽误了下,今天做了一个初步的分析。 首先这是一个做统计业务的数据库,类型可以归为OLA
一、Pod故障状态基本有几种Pod状态 处于PendingPod状态 处于WaitingPod状态 处于ContainerCreatingPod状态 ImagePullBackOffPod状态 CrashLoopBackOffPod状态 ErrorPod状态 TerminatingPod状态 UnknownPod状态 OOM killedpod状态 running 二、Pod故障我们可以用下面一些手段查看
问题:从oracle查询1800w数据,根据尾号截取,加载到内存,取表数据四个字段,其中包含手机号、两个10位中文字段加一个日期, 用jedisCluster进行管道操作psetStr 当程序加载到第五批次左右,程序宕机,通过重启,重新加载数据,配合 ps -ef|grep 查询进程号,jstat -gcutil 进程id 2000,top查看当前内存
1.删除文件命令: find 对应目录 -mtime +天数 -name "文件名" -exec rm -rf {} \; 实例命令: find /opt/soft/log/ -mtime +30 -name "*.log" -exec rm -rf {} \; 说明: 将/opt/soft/log/目录下所有30天前带".log"的文件删除。具体参数说明如下: find:linux的查找
现象: 2月11号数据: 2月14号数据: 2月15号数据: 可以看到newPartitionProducer持续增长,可定位到是kafka的问题。 最近增加的topic:ai_face_process_topic 2022.1.25上线到今天2022.2.15一共20天,只增长了701个视频,平均每天35个视频。 但这个topic有64
1. 准备 2. linux 下运行 执行如下命令,生成 class 文件 [luozhihong@localhost java]$ javap CpuTest.java1 执行 java 命令,运行程序 [luozhihong@localhost java]$ java CpuTest13. 问题排查执行 top 命令,查看 cpu 异常的进程[luozhihong@localhost ~]$ top 可以看出 P
将性能日志拿下来,用profiler工具进行性能分析 http://192.168.83.238:8888/analyse 找到导致内存溢出的这个方法,发现一行日志输出了一千多万行,判断为死循环。 这行日志应该是开发人员进行调试时忘记删除了 将这一行日志注释掉后卡顿消失 但是文档打开不了,联系知识组进行协助排
一.对于JVM服务可能出现的问题,我们一般依次排查内容为: (1). 宿主机器问题 (2). JVM内存,是否频繁GC (3). 线程栈,是否线程暴涨,线程死锁 (4). 排查日志,检查程序代码 解决思路: 1.宿主机问题 top -p ${pid} 内存和cpu使用情况 top -H -p ${pid} 查看进程关联线
一 前置知识 1 网络通信的基础设备和其对应的OSI层次 像交换机、三层交换机、路由器、防火墙这些最基本的网络设备应该要有些了解,尤其是它们对应的OSI层次以及作用,比如普通的二层交换机对应OSI七层模型中的数据链路层,它可以隔绝冲突域,同时可能通过虚拟局域网技
思路: 1. 观察 OutOfMemoryError 的位置, 以及线程. (如图1) 2. 配置启动参数 -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/Users/dai/Documents/tech, 发生OOM的时候可以dump文件 3. 分析dump文件, 使用VisualVM进行分析,分析占用最大内存的对象 图1
前两周,忽然收到阿里短信通知云服务器有挖矿嫌疑,,,于是开始排查,虽然最后找到了病毒源文件并删除了,,,但是最后为了保险起见,,还是对云盘进行了初始化操作,,,在此特意记录一下排查的流程: 1. 查看进程: top -c 一般中了挖矿,服务器的cpu都会被干爆100%,,但我这次中的这个藏得有
做压测时,磁盘突然满了,造成测试中断。 环境: 根目录只有50G,其他磁盘都分home(很大)docker容器都映射日志到统一的日志目录docker未修改默认镜像容器目录 1.通过df -h查看,确实提示使用100% 2.把容器的应用日志移到home分区 通过建立home分区的软链接ln -s /home/log /data/log 3.
两天前尝试在linux启动java后台服务,发现启动服务失败,查看日志发现是没有数据库。 于是开始尝试安装数据库,开始尝试在线安装方法,最终没有成行,于是改为离线安装,具体可以参考这个帖子:https://www.cnblogs.com/quchunhui/p/11115339.html 安装过程非常顺利,只是安装必须的rpm包,没有出现
原文网址:Java后端--接口响应慢的排查方法及解决方案_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Java后端接口响应慢的排查的方法以及如何解决。 如何发现接口响应慢了? 一般通过如下方式发现接口响应慢 用户反馈监控系统的报警(例如:SkyWalking) 排查方向 后端接口响应慢分以下2
如何找到WIN7中夺去焦点的程序? - 知乎 win+R eventvwr.msc 之前是因为win7想使用蓝牙,所以安装了蓝牙驱动导致了这个问题,定位出是驱动的问题,卸载后解决,不再出现
当 JVM 内存严重不足时,就会抛出 java.lang.OutOfMemoryError 错误。本文总结了常见的 OOM 原因及其解决方法。 1、Java heap space 当堆内存(Heap Space)没有足够空间存放新创建的对象时,就会抛出 java.lang.OutOfMemoryError:Javaheap space 错误(根据实际生产经验,可以对程序日志中
1.前言 "这怎么回事?在本地还好好,放到服务器就不行了。这该怎么排查,日志也看不出来啥呀",日常开发中经常会出现这种问题,这时候就可以尝试idea远程debug的模式试试 2.使用 1.环境:idea2021 2.idea配置 重点:将自动生成的参数添加到启动命令里 3.启动脚本 nohup java -agentlib:jdwp=
加电类故障 定义举例 从上电(或复位)到自检完成这一段过程中电脑所发生的故障。 可能的故障现象 1、 主机不能加电(如:电源风扇不转或转一下即停等)、有时不能加电、开机掉闸、机箱金属部分带电等; 2、 开机无显,开机报警; 3、 自检报错或死机、自检过程中所显示的配置与
文/明道云实施顾问 陈江浩编辑/蒋礼轩 1、银行数据分发需求与处理现状 银行的业务部门(经营部、金融部)在每个月或每个季度都需要对一系列业务数据进行调查反馈,这一系列的数据就包括了公转私反洗钱的排查、个贷原始、企贷原始等敏感数据。作为业务的负责人,他们需要到银行的内部系统
介绍下,服务端出现问题时,排查问题定位原因的一些思路。 业务层---应用层---资源层 业务层 相关功能的逻辑代码。 完善的日志。 log、metric、trace。 一些命令:grep、tail、head、sed。 应用层 系统的架构图。 配置是否正确。 进程间的数据流向。 进程的运行状态。 一些命令:ps、pids
1、删除拖出来的设备,重新拖出来一台---我用过【有时候好使】 2、确保Ensp的设置-工具-Virtual Box安装目录是否正确--我也遇到过【尤其是卸载掉Virtual Box重装之后】 3、确保Windows防火墙放行了ENSP、Virtual Box 【可以尝试暂时关闭Windows防火墙试试,看是否Ensp可正常运行】 4
1、debug,断点打在方法开始处 2、一步一步执行,看变量值(如0与1,true与false) 3、查看sql查询语句(控制台看) 17:50:31.508 [http-nio-8189-exec-3] DEBUG c.u.n.m.m.d.m.T.selectTimePermissionByCode - [debug,137] - ==> Preparing: select id, province_code, province_name, beg
开启 # 开启 set global slow_query_log ='ON'; # 设置慢SQL日志文件路径 set global slow_query_log_file = '/var/log/mysql-slow-query.log'; # 设置慢SQL阈值(单位:秒) set global long_query_time = 1; 查看配置情况 # 查看慢SQL相关配置 SHOW VARIABLES like '%slow%'; #