JVM的垃圾回收算法及垃圾收集器

JVM的垃圾回收算法及垃圾收集器

1、垃圾回收

程序的运行必然需要申请内存资源,无效的对象资源如果不及时处理,就会一直占用内存资源,最终将导致内存溢出。所以对内存资源的管理是很重要的。

Java垃圾回收让程序员更加专注代码的实现,而不用过多考虑内存释放的问题,所以Java有自动的垃圾回收机制,也就是我们通常说的GC。

除了Java语言,C#、Python等语言也有自动的垃圾回收机制。

2、常见的垃圾回收算法

自动管理内存资源,垃圾回收机制必须有一套算法进行计算,判断哪些资源有效,哪些资源无效,对于无效的资源进行回收处理。

常见的垃圾回收算法:引用计数法,标记清除法,标记压缩法,复制算法,分代算法等。

2.1、引用计数法

引用计数是历史悠久的一种算法,最早George E.Collins在1960年首次提出,50年后的今天,该算法依然被很多编程语言使用。

2.1.1、原理

假设有一个对象A,任何一个对象对A的引用,那么对象A的引用计数器 +1,当引用失败时,对象A的引用计数器就 -1,如果对象A的计数器的值为0,就说明对象A没有引用了,可以被回收。

2.1.2、优缺点
  • 优点:
    • 实时性较高,无需等到内存不够的时候,才开始回收,运行时根据对象的计数器是否为0,就可以直接回收。
    • 在垃圾回收过程中,应用无需挂起,如果申请内存时,内存不足,则立刻报OutOfMember错误。
    • 区域性,更新对象的计数器时,只是影响到改对象,不会扫描全部对象。
  • 缺点:
    • 每次对象被引用时,都需要去更新计数器,有一点时间开销。
    • 浪费CPU资源,即使内存够用,任然在运行时进行计数器统计。
    • 无法解决循环引用问题。

2.2、标记清除法

标记清除算法:是将垃圾回收分为2个阶段,分别时标记和清除。

  • 标记:从根节点开始标记引用的对象。
  • 清除:未被标记引用的对象就是垃圾对象。可以被清理。
2.2.1、原理

在这里插入图片描述

这张图代表程序运行期间所有对象的状态,它们的标志全部都是 0(也就是未标记,以下默认0就是未标记,1为已标记),假设这会儿有效的内存空间耗尽了,JVM将会停止程序的运行并开启GC线程,然后开始进行标记工作,按照根搜索算法搜索标记。

在这里插入图片描述

可以看到,按照根搜索算法,所有从root对象可达的对象就会被标记为存活对象,此时已经完成第一阶段标记。接下来,就要执行第二阶段清除。

在这里插入图片描述

可以看到,没有被标记的对象将会回收清除掉,而被标记的对象将会留下,并且会将标记位重新归0.接下来就是唤醒停止的线程,让程序继续运行。

2.2.2、优缺点
  • 优点:标记算法解决了引用算法中循环引用的问题,没有从root节点引用的对象都会被回收。
  • 缺点:
    • 效率较低,标记和清除两个动作都需要遍历所有对象,并且需要停止应用程序,对象交互性要求比较高的引用而言,体验非常差。
    • 通过标记清除算法清理出来的内存,碎片话较为严重,因为被回收的对象可能存在于内存的各个角落,所以清除出来的内存是不连贯的。

2.3、标记压缩算法

标记压缩算法是在标记清除算法的基础上,做了优化改进的算法,和标记清除算法一样,也是从根节点开始,对对象的引用进行标记,在清理阶段,并不是简单的清除未标记的对象,而是将存活的对象压缩到内存的一端,然后清理边界以外的对象,从而解决碎片化问题。

2.3.1、原理

在这里插入图片描述

2.3.2、优缺点
  • 优点:在标记清除算法的基础上,解决了标记清除算法的碎片化问题。
  • 缺点:标记压缩算法多了对象移动内存的步骤,其效率也有一定的影响。

2.4、复制算法

复制算法的核心就是将原有的内存空间一份为二,每次只用其中一块,在垃圾回收时,将正在是使用的对象复制到另一块内存空间,然后将该内存空间清空,交换两个内存的角色,完成垃圾的回收。

2.4.1、原理

1、在GC开始的时候,对象只会存在于Eden区和名为From的Survivor区,Survivor区的To是空的。

2、紧接着进行GC,Eden区中所有存活的的对象都会被复制到To,而在From区中,任存活的对象会根据它们的年轮值来判断决定去向。年龄达到一定值(年龄阈值,可以通过-XX:MaxTenuringThreshold来设置)的对象会被移动到老年代中,没有达到阈值的对象会被复制到To区域。

3、经过这次GC后,Eden区和From区已经被清空。这个时候,FromTo会交换他们的角色,也就是新的To就是上次GC前的From,新的From就是上次GC前的To。不管怎样,都会保证名为To的Survivor区区是空的。

4、GC会一直重复这样的过程,直到To区被填满之后,会将所有对象移动到老年代中。

2.4.2、优缺点
  • 优点
    • 在垃圾对象多的情况下,效率高。
    • 清理后,内存无碎片。
  • 缺点
    • 在垃圾对象少的情况下,不适用(例如:老年代)。
    • 分配的2块内存空间,在同一时刻,只能使用其中一块,内存使用率低。

2.5、分代算法

前面的多种回收算法,每种算法都有自己的优缺点,谁都不能替代谁,所以根据垃圾回收对象的特点进行选择,才是明智的选择。
分代算法其实就是这样的,根据回收对象的特点进行选择,在JVM中,年轻代适合使用复制算法老年代适合使用标记清除算法或者标记压缩算法

3、垃圾收集器及内存分配

3.1、串行垃圾收集器

串行垃圾收集器,是指使用单线程进行垃圾回收,垃圾回收时,只有一个线程在工作,并且Java应用中所有线程都要暂停,等待垃圾回收完成。这种现象称之为STW(Stop-The-World)。

对于交互性较强的应用而言,这种垃圾收集器是不能接受的。一般在JavaWeb应用中是不会采用该收集器的。

3.1.1、设置垃圾回收为串行收集器

在程序运行参数中添加2个参数:

  • -XX:+UseSerialGC:指定年轻代和老年代都是用串行垃圾收集器。
  • -XX:+PrintGCDetails:打印垃圾回收的详细信息。
# 为了测试GC,将堆的初始和最大内存都设为16M
-XX:+UseSerialGC -XX:+PrintGCDetails -Xms16m -Xmx16m

# Idea启动可以在Configurations中的Configuration的VM options 添加上面的命令

控制代打印信息:

[GC (Allocation Failure) [DefNew: 4416K->512K(4928K), 0.0046102 secs] 4416K- >1973K(15872K), 0.0046533 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

[Full GC (Allocation Failure) [Tenured: 10944K->3107K(10944K), 0.0085637 secs] 15871K- >3107K(15872K), [Metaspace: 3496K->3496K(1056768K)], 0.0085974 secs] [Times: user=0.02 sys=0.00, real=0.01 secs]

信息中名词解读:

  • (Allocation Failure):表示垃圾回收的原因–分配失败。

  • GC:表示Eden区不够装新对象时进行的GC。

  • Full GC:表示内存空间全部进行GC。

  • DefNew:表示使用的串行垃圾收集器。

  • 4416K:表示年轻代GC之前,占用4416K内存。

  • 512K:表示GC之后,占用512K内存。

  • 4928K:表示总大小4928K。

  • 0.0046102 secs:表示GC所有时间,单位毫秒。

  • 4416K:表示堆内存在GC之前占用4416K。

  • 1973K:表示堆内存在GC之后占用1973K。

  • 15872K:表示堆内存总大小为15872K。

3.2、并行垃圾收集器

并行垃圾收集器在串行垃圾收集器的基础上做了改进,将单线程改为了多线程进行垃圾回收,这样可以缩短垃圾回收时间。

当然并行垃圾收集器在收集垃圾过程中也会暂停应用程序,这个和串行垃圾回收器是一样的,只是并行执行,速度更快些,暂停时间更短。

3.2.1、ParNew垃圾收集器

ParNew垃圾收集器是工作在年轻代,只是将串行垃圾收集器改为并行。通过-XX:UseParNewGC参数设置年轻代使用ParNew回收器,老年代依然使用串行收集器。

# 为了测试GC,将堆的初始和最大内存都设为16M
-XX:+UseParNewGC -XX:+PrintGCDetails -Xms16m -Xmx16m

# Idea启动可以在Configurations中的Configuration的VM options 添加上面的命令

# 打印出的信息
[GC (Allocation Failure) [ParNew: 4416K->512K(4928K), 0.0032106 secs] 4416K- >1988K(15872K), 0.0032697 secs] [Times: user=0.00 sys=0.00, real=0.00 secs]
3.2.2、ParallelGC垃圾收集器

ParallelGC收集器工作机制和ParNewGC收集器一样,只是在此基础上,新增了两个和系统吞吐相关的参数,使得其使用起来更加灵活、高效。

参数:

  • -XX:UseParallelGC
    • 年轻代使用ParallelGC垃圾回收器,老年代使用串行回收器。
  • -XX:UseParallelOldGC
    • 年青代使用ParallelGC垃圾回收器,老年代使用ParallelGC垃圾回收器。
  • -XX:MaxGCpauseMillis(该参数使用需谨慎)
    • 设置最大的垃圾收集时停顿时间,单位毫秒。
    • ParallelGC为达到设置的停顿时间,可能会调整堆大小或者其它参数,如果堆的大小设置较小,就会导致GC工作变得很频繁,反而会影响到性能。
  • -XX:GCTimeRatio
    • 设置垃圾回收时间占程序运行时间的百分比,公式为1/(1+n)。
    • 它的值为0~100之间的数字,默认值为99,也就是垃圾回收时间不能超过1%。
  • -xx:UseAdaptiveSizePolicy
    • 自适应GC模式,垃圾回收器将自动调整年轻代、老年代等参数,达到吞吐量、堆大小、停顿时间之间的平衡。
    • 一般用于手动调整参数比较困难的场景,让收集器自动进行调整。
#参数 
-XX:+UseParallelGC -XX:+UseParallelOldGC -XX:MaxGCPauseMillis=100 -XX:+PrintGCDetails - Xms16m -Xmx16m 

#打印的信息 
[GC (Allocation Failure) [PSYoungGen: 4096K->480K(4608K)] 4096K->1840K(15872K), 0.0034307 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

[Full GC (Ergonomics) [PSYoungGen: 505K->0K(4608K)] [ParOldGen: 10332K->10751K(11264K)] 10837K->10751K(15872K), [Metaspace: 3491K->3491K(1056768K)], 0.0793622 secs] [Times: user=0.13 sys=0.00, real=0.08 secs]

3.3、CMS垃圾收集器

CMS全称Concurrent Mark Sweep,是一款并发的、使用标记-清除算法的垃圾回收器,该回收器是针对老年代垃圾回收的,通过参数-XX:UseConcMarkSweepGC进行设置。

CMS垃圾回收器的执行过程:

在这里插入图片描述

  • 初始化标记(CMS-initial-mark),标记root,会导致STW。
  • 并发标记(CMS-concurrent-mark),与用户线程同时运行。
  • 预清理(CMS-concurrent-preclean),与用户线程同时运行。
  • 重新标记(CMS-remark),会导致STW。
  • 并发清除(CMS-concurrent-sweep),与用户线程同时运行。
  • 调整堆大小,设置CMS在清理之后进行内存压缩,目的是清理内存中的碎片。
  • 并发重置状态等待下次CMS的触发(CMS-concurrent-reset),与用户线程同时运行。
#设置启动参数 
-XX:+UseConcMarkSweepGC -XX:+PrintGCDetails -Xms16m -Xmx16m 

#运行日志 
[GC (Allocation Failure) [ParNew: 4926K->512K(4928K), 0.0041843 secs] 9424K- >6736K(15872K), 0.0042168 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

#第一步,初始标记 
[GC (CMS Initial Mark) [1 CMS-initial-mark: 6224K(10944K)] 6824K(15872K), 0.0004209 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

#第二步,并发标记 
[CMS-concurrent-mark-start] 
[CMS-concurrent-mark: 0.002/0.002 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

#第三步,预处理 
[CMS-concurrent-preclean-start] 
[CMS-concurrent-preclean: 0.000/0.000 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

#第四步,重新标记 
[GC (CMS Final Remark) [YG occupancy: 1657 K (4928 K)][Rescan (parallel) , 0.0005811 secs][weak refs processing, 0.0000136 secs][class unloading, 0.0003671 secs][scrub symbol table, 0.0006813 secs][scrub string table, 0.0001216 secs][1 CMS-remark: 6224K(10944K)] 7881K(15872K), 0.0018324 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

#第五步,并发清理 
[CMS-concurrent-sweep-start] [CMS-concurrent-sweep: 0.004/0.004 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

#第六步,重置 
[CMS-concurrent-reset-start]
[CMS-concurrent-reset: 0.000/0.000 secs] [Times: user=0.00 sys=0.00, real=0.00 secs]

3.4、G1垃圾收集器

G1垃圾收集器是在jdk1.7中正式使用的全新的垃圾收集器,oracle官方计划在jdk1.9中将G1变成默认的垃圾收集器,以代替CMS。

G1的设计原则就是简化JVM性能调优,开发人员只需要简单的三步即可完成调优:

  • 1、开启G1垃圾收集器。
  • 2、设置堆的最大内存。
  • 3、设置最大的停顿时间。

G1中提供了三种垃圾回收模式,Young GC、Mixed GC和Full GC,在不用的条件下被触发。

3.4.1、原理

G1垃圾收集器相对比其它收集器来说,最大的区别在于它取消了年轻代、老年代的物理划分,取而代之的是将堆划分为若干个区域,这些区域中包含了有逻辑上年轻代、老年代区域。这样做好处是,我们再也不用单独的空间对每个代进行设置,不用担心每个内存代是否足够。

在G1划分的区域中,年轻代的垃圾收集依然采用暂停所有应用线程的方式,将存活的对象拷贝到老年代或者Survivor空间,G1收集器通过将对象从一个区域复制到另一个区域,完成清理工作。这就意味着,在正常的处理过程中,G1完成了对的压缩(至少是部分堆的压缩),这样就不会有CMS内存碎片问题的存在了。

在G1中,有一种特殊的区域,叫Humongous区域。

  • 如果一个对象占用的空间超过了分区容量50%以上,G1收集器就认为这是一个巨型对象。
  • 这些巨型对象,默认直接会被分配在老年代,但是如果它是一个短期存在巨型对象,就会对垃圾收集器造成负面影响。
  • 为了解决这个问题,G1划分了一个Humongous区,它用来专门存在巨型对象。如果一个H区装不下一个巨型对象,那么G1会寻找连续的H分区来存储。为了能找到连续的H区,有时候就不得不启动Full GC。
3.4.2、Young GC

Young GC主要是对Eden区进行GC,它在Eden区空间耗尽时会触发。

  • Eden空间的数据移动到Survivor空间中,如果Survivor空间不够,Eden空间的部分数据会直接晋升到老年代空间。
  • Survivor区的数据移动到新的Survivor区中,也有部分数据晋升到老年代空间中。
  • 最终Eden空间的数据为空,GC停止工作,应用线程继续执行。

Remembered Set

在GC年轻代的对象时,我们如何找到年轻代中的根对象?

跟对象核能是在年轻代中,也可能时在老年代中,那么老年代的所有对象都是根对象么?

如果全量扫描老年代,那么这样扫描下来会耗费大量的时间。于是G1引进了Remembered Set的概念,起作用就是跟踪某个堆内的对象引用。

在这里插入图片描述

每一个Region初始化时,会初始化一个RSet,该集合用来记录并跟踪其它Region指向该Region中对象的引用,每个Region默认按照512K划分成多个Card,所以RSet需要记录的东西应该是xxRegion的xxCard。

3.4.3、Mixed GC

当越来越多的对象晋升到old region时,为了避免堆内存耗尽,虚拟机会触发一个混合的垃圾收集器,即Mixed GC,该算法并不是一个old GC,除了回收整个Young Region,还会回收一部分Old Region,这里需要注意:是一部分老年代,而不是全部老年代,可以选择哪些old region进行收集,从而可以对垃圾的耗时时间进行控制。也需要注意的是Mixed GC并不是Full GC。

Mixed GC触发由参数-XX:InitiatingHeapOccupancyPercent=?决定,默认是45%,当老年代大小占整个堆大小的百分比达到该阈值时触发。它的步骤分2步:一是全局并发标记,二是拷贝存活对象。

全局并发标记

  • 初始标记
    • 标记从根节点直接可达的对象,这个阶段会执行一次年轻代GC,会产生全局停顿。
  • 根区域扫描
    • G1 GC在初始标记的存活区扫描对老年代的引用,并标记被引用的对象。
    • 该阶段与应用程序同时运行,并且只有完成该阶段之后,才能开始下一次STW年轻代垃圾回收。
  • 并发标记
    • G1 GC在整个堆中查找可访问的(存活的)对象,该阶段与应用程序同时运行,可以被STW年轻代垃圾回收中断。
  • 重新标记
    • 该阶段时STW回收,因为程序正运行,正对上一次标记进行修正。
  • 清除垃圾
    • 清点和重置标记状态,该阶段会STW,这个阶段并不会实际做垃圾的收集,等待evacuation阶段来回收。

拷贝存活对象

Evacuation阶段是全暂停的,该阶段把一部分Region里的对象拷贝到另一部分Region中,从而实现垃圾回收清理。

发布了7 篇原创文章 · 获赞 0 · 访问量 492

猜你喜欢

转载自blog.csdn.net/T_chuxin/article/details/102906398