阿里巴巴开源性能监控神器Arthas

线上经常遇到MQ消费速度忽高忽低,但是线下测试却没有问题。那会是哪一个问题引起的呢?因为影响MQ消费速度的因素太多了,如下因素只要任何一种出现问题,就会影响MQ消费速度。

  1. JVM内存过高,一直在Full GC。
  2. Redis连接堵塞,导致Redis操作一直延迟。
  3. 第三方接口响应时间过长。
  4. 服务器cpu/带宽/IO受限。
  5. Mysql出现慢sql,查询过慢。
  6. 程序本身问题(例如异常循环)。

解决方案:

为了排除具体原因,但是线上又不能进行错误调式,所以博主只能用最笨的办法,每一行关键代码,都写上log日志,然后通过输出每一行代码的执行时间,来确定到底是哪里出错。

方案问题:

但是打印日志的方式需要修改代码,有一定的风险,修改完又需要重新发布才能生效。最重要的是,MQ消费需要跑大量的数据,大部分数据都是正常的,少部分数据是异常的,针对于这种情况,打印日志的方式就很难发现问题点。

寻求更优解:

那到底有没有这么一个工具可以不用修改任何代码,就可以排查线上问题呢?今天就给大家推送一款神器Arthas,这是阿里巴巴开源的一款性能监控工具。

image

当你遇到以下类似问题而束手无策时,Arthas 可以帮助你解决:

  1. 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
  2. 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
  3. 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
  4. 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
  5. 是否有一个全局视角来查看系统的运行状况?
  6. 有什么办法可以监控到JVM的实时运行状态?

Arthas入门:

Arthas本质其实就是一个jar包,所以只需要去官网下载对应的jar就可以了,然后通过java -jar的方式启动,例如:

1
2
curl -O https://alibaba.github.io/arthas/arthas-boot.jar
java -jar arthas-boot.jar

启动成功之后可以看到Arthas启动标志,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
[INFO] Try to attach process 71560
[INFO] Attach process 71560 success.
[INFO] arthas-client connect 127.0.0.1 3658
,---. ,------. ,--------.,--. ,--. ,---. ,---.
/ O \ | .--. ''--. .--'| '--' | / O \ ' .-'
| .-. || '--'.' | | | .--. || .-. |`. `-.
| | | || |\ \ | | | | | || | | |.-' |
`--' `--'`--' '--' `--' `--' `--'`--' `--'`-----'

wiki: https://alibaba.github.io/arthas
version: 3.0.5.20181127201536
pid: 71560
time: 2018-11-28 19:16:24
$

Arthas也提供了Docker模式下的监控,我们只需要在DockerFile中增加如下代码,就可以嵌入Arthas了。

1
2
# copy arthas
COPY --from=hengyunabc/arthas:latest /opt/arthas /opt/arthas

MQ消费过慢终极解决方案:

针对于上面提出的问题,MQ消费速度过慢,我们可以采用trace命令来解决,例如我们可以输入:

1
trace -j com.fourkmiles.advertisement.service.impl.CampaignsV2ApiMethodServicelmpl getSearchTermReport '#cost > 1000'

这个命令的意思是,CampaignsV2ApiMethodServicelmpl类的getSearchTermReport方法中,打印出执行时间超过1000的方法。

如下图所示,它可以打印这个方法中每一行代码所花费的时间。

image

它还可以监测:线程、jvm、方法、方法执行路径、服务运行情况、反编译代码、获取方法返回值等功能,Arthas都给我们提供了方便的命令来查询这些指标。

image

总结:

总体来说Arthas功能还是非常强大的,对应线上bug排查可谓雪中送炭。但是Arthas本质还是一个jar服务,所以对服务器是有一定性能损耗的,在不监控的时候一定要关闭Arthas对应的服务。

官网地址https://alibaba.github.io/arthas/install-detail.html

林老师带你学编程 wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!