AP计算机科学A(APcomputer science A)复习备考攻略视频教程
42741 人在学
Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet(Applet是一种将小程序嵌入到网页中进行执行的技术),并将Oak更名为Java(在申请注册商标时,发现Oak已经被人使用了,再想了一系列名字之后,最终,使用了提议者在喝一杯Java咖啡时无意提到的Java词语)。
本文介绍了常用的性能分析工具和故障排查工具,希望可以帮助开发人员在排查性能问题的时候快速定位到性瓶颈。每个工具都有其优势与劣势,只有更好了解问题所出现的场景,理清解决问题的思路,才能最大化的发挥工具的价值。
0. Introduction
Java 性能优化分为很多个方面,如系统优化、算法优化、代码优化等。代码优化是指开发人员在研发、测试过程中使用性能瓶颈分析工具快速定位出由于编码存在的性能瓶颈问题并持续进行优化。一种很常见的场景是测试同学在对服务进行压测时,无论怎么增加并发应用的 TPS 一直保持在某个值进行左右波动,这个时候要怎么排查呢。为了可以准确获得运行过程中程序的性能数据,性能调优人员和开发者需要使用性能分析(profiling)辅助工具从全局视角来查看系统的运行状况。本文主要介绍通过熟练掌握 JMC、Tprofiler、JProfiler 等各种性能瓶颈分析工具,进而提高定位性能瓶颈、系统故障排查能力。
1. Java Mission Control
JMC(Java 任务控制)是 Java 7u40 新增加的性能监控工具。目前,Oracle Java 官方在今年 5 月份已经公布 Java Mission Control(JMC)的源代码已正式开源,此举得到了 Java 开发社区的高度赞赏。
JMC 源码地址: JMC source code
JMC 工具主要由三个组件构成:Java 进程浏览器、JMX 控制台和 Java Flight 记录器等。
Java 进程浏览器能够利用 Java 自带的 JDP 协议自动发现本地或者远程正在使用的 Java 进程;
JMX 控制台通过 JMX 接口管理监控 JDK,它能够查看堆内存使用情况、CPU 负载等;
Java Flight Recorder 是一个内置在 JDK 中的监测和事件收集框架。收集的事件包括:磁盘 IO、GC、线程 sleep、线程 wait、Socket read/write 等。
下图显示了 JMC 启动后当前机器正在运行中的所有 Java 进程,选择一个进程进行性能监控。
如果使用的操作系统是 Mac 并且 JDK 版本为 1.8,启动 JMC 之后可能会发现操作界面被冷冻住了你没办法进行任何操作。产生这种现象的原因是 JDK 在升级过程中存在一个bug,具体解决方案可以参考:
1.1 JFR 内存视图
JFR 模块包含一般信息、内存、代码、线程、IO、系统、事件等视图。其中,JFR 内存视图收集的信息非常丰富,可以获得内测使用量、GC 配置、GC 时间、对象统计时间等统计信息。下图展示了当前 JVM 进程 GC 时间的统计信息。
1.2 JFR 代码视图
JFR 代码视图可以很容易统计出所有 Java 包占 JVM 进程所有方法调用的总时长。该视图很方便查看热点类、热点方法和热点包的调用次数、所占比例等。JFR 还提供了 I/O 视图、线程视图、系统视图从不同角度更好分析当前进程运行情况。
1.3 启动 JFR
Java 飞行记录器(JFR)是一种用于收集关于正在运行的 Java 应用程序的诊断和分析数据的工具。它集成到 Java 虚拟机(JVM)中,几乎不会造成性能开销,因此即使在负载非常大的生产环境中也可以使用它。
默认情况下,JFR 在 JVM 中是禁用的。要启用 JFR,必须使用 - XX:+FlightRecorder 选项启动 Java 应用程序。因为 JFR 是一个商业特性,仅在基于 Java 平台、标准版(Oracle Java SE Advanced 和 Oracle Java SE Suite)的商业包中可用,所以您还必须使用 - XX:+UnlockCommercialFeatures 选项启用商业特性。
当然,也可以配置 JMC 进行远程监控,在启动 Java 程序时加上如下参数:
允许其它机器监控该程序,必须指定 -Djava.rmi.server.hostname=,如果不指定该配置,那么就只能在本机监控该程序。
控制监控的授权(让特定的用户才能连接 JMX 服务),需要设置
如果设置为 false 则不需要授权。
授权需要指定两个文件:jmxremote.password 和 jmxremote.Access,password 文件主要是配置用户名和密码。
1.4 JFR 事件
JFR 记录并保存事件流,JMC 提供不同的视图来分析这些事件,但是 JFR 事件面板(如上图所示)才是分析事件最有效的途径。点击事件,展开堆栈跟踪。
从图中可以看出,在 2 分钟内发生了 4403 次 Hotspot JVM 事件和 161 次 Java Runtime 事件。应用程序有多个线程共消耗 73 毫秒向套接字内写数据(Socket Write);应用程序中多个线程共消耗 120 秒从套接字读取数据(Socket Read)。这看起来并不正常,通过查看这些事件的处理记录可以发现,由多个线程使用阻塞式 I/O 读取请求。这些管理请求的时间间隔通常很长,但这些线程却在 read() 方法内被阻塞,所以导致这些线程读取数据时消耗了过多的时间。
JFR 的事件就如黑匣子一般,通过收集的这些事件的详细信息能够更加深入了解程序的内部运行过程,这是很多其他工具所不具备的。
1.5 实际案例
API Gateway 是一种高并发、高流量的系统,它的主要功能是用于给第三方合作伙伴提供数据与服务的能力。因此,API Gateway 对于处理用户请求的完整链路中每个环节的性能损耗都会非常敏感。
最近,在升级网关的核心功能模块之后与测试同学一起合作对网关的某些 API 接口进行性能压力测试,利用压测机 Jmeter 模拟多用户并发请求。但不管怎么增加并发数,每分钟的请求总量稳定保持在 4 万/min,TPS 也一直在 650 左右波动,而且所有服务器的 CPU、内存、网络、IO 占用率均不高。
针对这种情况,我们首先排除了业务方的性能问题,因此直接对业务方(2 核 8G)发起并发请求,TPS 都可以达到 800 左右的并发数。其次,我们也排除了接入层 SLB、OpenResty 的问题,因为网关未升级核心功能情况下单台网关的 TPS 很容易达到 4000 左右。
因此,根据以上分析基本可以确定性能瓶颈出在网关处理请求的过程中。
在网关的 JVM 启动参数中增加 JFR 启动参数:
使用 JFR 的事件视图点击堆栈跟踪,就可以查看到代码调用链,看到自己的业务代码,从而定位到最耗时的代码位置。
下图很清楚展示了来自客户端每个请求主要的事件都耗费在调用 Redis 读取 API 元信息,每一次读取源信息都需要进行序列化与反序列化,导致平均响应时间增加网关处理请求时间加长,因此 TPS 下降并一直稳定在某个值。解决方案 API 元信息尽可能缓存到本地 JVM 内存,优先从本地内存读取数据减少访问 Redis 频次。
当然系统 TPS 上不去的原因也不能仅仅从单一维度分析,要综合起来多维度进行分析,如网络带宽、连接池、Java 内存管理、HTTP 通信机制、业务逻辑、系统架构(缓存、数据库等)等等。
2. Tprofiler
TProfiler 是淘宝开源的一个可以在生产环境长期使用的性能分析工具。它同时支持剖析和采样两种方式,记录方法执行的时间和次数,生成方法热点、对象热点、线程状态分析等数据,为查找系统性能瓶颈提供数据支持。
TProfiler 在 JVM 启动时把时间采集程序注入到字节码中,整个过程无需修改应用源码。运行时会把数据写到日志文件,一般情况下每小时输出的日志小于 50M。目前 TProfiler 已应用于淘宝的核心 Java 前端系统,部署后低峰期对应用响应时间影响 20% 高峰期对吞吐量大约有 30% 的降低。
2.1 配置部署
直接下载完整安装包或者下载源码运行 package.bat 脚本或者执行 mvn assembly:assembly命令生成 tprofiler.jar 即可。
profile.properties 作为 tprofiler.jar 的配置文件,可以根据实际情况进行调整。
在 JVM 启动参数中添加,然后重启应用。
2.2 TProfiler 性能方法的采集
TProfiler 能够生成日志:tmethod.log、tprofiler.log、tsampler.log。
执行如下命令,会生成 method.log 和 thread.log:
method.log 文件格式说明:
thread.log 文件格式说明:
执行如下命令,生成 topmethod.log 和 topobject.log 文件
topmethod.log 文件格式说明:
topobject.log 文件格式说明:
这是压测多次时随机挑选的一次结果。热点方法和热点代码尤其值得我们关注,因此及其有可能是代码瓶颈所在。这些热点代码一般要么是平均响应时间高一些,要是产生的临时对象会多一些。
3. Jprofiler
JProfiler 是由 ej-technologies 公司开发的一款性能瓶颈分析工具。它是一款优秀的商业软件,功能非常丰富,因此具备一些免费软件所不具备的功能。Jprofiler 提供的主要功能有内存视图、CPU 视图、线程视图、堆遍历器(Heap Walker)等。
3.1 Jprofiler 使用
CPU 视图可以查看各个函数的 CPU 占用时间。Hot Spots 显示消耗时间最多的方法的列表,它不仅给出了单个函数的 CPU 使用时间和方法调用次数,同时还能显示函数调用堆栈信息,方便定位问题。
在线程视图可以统计并查询当前 JVM 所有线程的运行状态,线程持有锁的状态并且可 dump 线程。
4. Arthas
Arthas 是阿里最近刚刚开源的 Java 生成环境诊断工具。
Arthas 支持在 Linux/Unix/Mac 等平台上进行一键安装,现在处于试用于反馈阶段,感兴趣的同学可以自己研究试用。
5.Conclusion
本文介绍了常用的性能分析工具和故障排查工具,希望可以帮助开发人员在排查性能问题的时候快速定位到性瓶颈。每个工具都有其优势与劣势,只有更好了解问题所出现的场景,理清解决问题的思路,才能最大化的发挥工具的价值。