从Android程序员的角度理解JVM之垃圾回收(GC)

       从Android程序员的角度理解JVM之垃圾回收(GC)



前言

  在前面的篇章从Android程序员的角度理解JVM之内存布局中,我们以Android程序员的角度出发了解了JVM虚拟机内存布局的知识点,在今天得篇章中将要一起学习JVM的垃圾回收相关知识点。

Java 相比 C/C++ 最显著的特点便是引入了自动垃圾回收 (下文统一用 GC 指代自动垃圾回收),它解决了 C/C++ 最令人头疼的内存管理问题,让程序员专注于程序本身,不用关心内存回收这些恼人的问题,这也是 Java 能大行其道的重要原因之一,GC 真正让Java程序员可以完全关注于业务本身,从而生产力得到了释放。虽然GC程序员很难感知它的存在,这就好比,我们吃完饭后在桌上放下餐盘即走,服务员会替你收拾好这些餐盘,你不会关心服务员什么时候来收,怎么收。

确实按照上面的说来,在 Java 的世界里,似乎我们不用对垃圾回收那么的专注,很多初学者不懂 GC,也依然能写出一个能用甚至还不错的程序或系统。但其实这并不代表 Java 的 GC 就不重要。相反,它是那么的重要和复杂,以至于出了问题,譬如内存泄漏等OOM,JVM优化等问题,这个时候就需要考察你对于GC的功力了,同样这个也适用于Android.

这就是为什么我们要聊聊GC的原因了,下面让我们一起学习学习垃圾回收。

在这里插入图片描述



一.垃圾回收概念


1.1 垃圾回收的定义

此垃圾回收,并不是我们生活所见的垃圾回收。这里的垃圾回收(Garbage Collection,GC),就是释放垃圾占用的空间,防止内存泄露。有效的使用可以使用的内存,对内存堆中已经死亡的或者长时间没有使用的对象进行清除和回收。

Java 语言出来之前,大家都在拼命的写 C 或者 C++ 的程序,而此时存在一个很大的矛盾,C++ 等语言创建对象要不断的去开辟空间,不用的时候又需要不断的去释放控件,既要写构造函数,又要写析构函数,很多时候都在重复的 allocated,然后不停的析构。于是,有人就提出,能不能写一段程序实现这块功能,每次创建,释放控件的时候复用这段代码,而无需重复的书写呢?由此GC孕育而生!


1.2 垃圾回收作用的内存区域

在前面的篇章从Android程序员的角度理解JVM之内存布局中,我们知道了JVM的内存区域主要分为程序计数器,虚拟机栈,本地方法栈,方法区,堆。那么那个才是GC作用的区域呢?答案是堆区,前面几块数据区域都不进行 GC,那只剩下堆了,是的,这里是 GC 发生的区域!对象实例和数组都是在堆上分配的,GC 也主要对这两类数据进行回收,这块也是我们之后重点需要分析的区域。所以我们今天要讨论的垃圾回收的区域主要是堆区。



二.如何定义垃圾

判定事务总有一个标准,对于谁是垃圾也是如此,我们的JVM规范对于垃圾的判定也有自己得一套规则。前面我们知道GC的作用主要在堆区,那么 GC 该怎么判断堆中的对象实例或数据是不是垃圾呢,或者说判断某些数据是否是垃圾的方法有哪些。JVM规范中主要有两种方法分别是引用计数法,可达性算法。


2.1 引用计数算法

引用计数算法(Reachability Counting)是通过在对象头中分配一个空间来保存该对象被引用的次数(Reference Count)。如果该对象被其它对象引用,则它的引用计数加1,如果删除对该对象的引用,那么它的引用计数就减1,当该对象的引用计数为0时,那么该对象就会被回收。这里需要插播一点的是,引用由四种类型分别是强引用、软引用、弱引用和虚引用。这个不在本篇介绍范围之内,只简单介绍一下,但是有一点必须明确的就是引用的类型会影响到垃圾的回收。

  • 强引用(Strong Reference):通常我们通过new来创建一个新对象时返回的引用就是一个强引用,若一个对象通过一系列强引用可到达,它就是强可达的(strongly reachable),那么它就不被回收;
  • 软引用(Soft Reference):软引用和弱引用的区别在于,若一个对象是弱引用可达,无论当前内存是否充足它都会被回收,而软引用可达的对象在内存不充足时才会被回收,因此软引用要比弱引用“强”一些;
  • 弱引用(Weak Reference):弱引用简单来说就是将对象留在内存的能力不是那么强的引用。使用Weak Reference,垃圾回收器会帮你来决定引用的对象何时回收并且将对象从内存移除。
  • 虚引用(Phantom Reference):虚引用是Java中最弱的引用,那么它弱到什么程度呢?它是如此脆弱以至于我们通过虚引用甚至无法获取到被引用的对象,虚引用存在的唯一作用就是当它指向的对象被回收后,虚引用本身会被加入到引用队列中,用作记录它指向的对象已被回收。

下面让我们通过实例来演示和说明:

String obj = new String("Android");

该段代码先创建一个字符串Android,其内存分本在堆中。并且这个时候"Android"有一个引用,就是obj其指向字符串Android。
在这里插入图片描述
如果此时将obj设置为null,这时候“Android”字符串的引用次数就为0了,在引用计数垃圾回收中,意味着此时就要进行垃圾回收了。

obj = null;

此时演示的示意图如下所示,即将进行垃圾回收。
在这里插入图片描述
引用计数算法看似一切很美好,但是它有一个致命问题就是不能解决循环引用的天生短处,啥叫循环引用,让我们用代码演示一番。

public class GCReferenceCounting {
    public GCReferenceCounting instance;

    public GCReferenceCounting(String name) {
    };

    public static void main(String args) {
        //1.定义两个对象
        GCReferenceCounting objA = new GCReferenceCounting("objA");
        GCReferenceCounting objB = new GCReferenceCounting("objB");

        
        
        //2.两个对象相互引用
        objA.instance = objB;
        objB.instance = objA;
        
        //3.置空各自的引用申明
        objA = null;
        objB = null;
        
    }
}

循环引用套路三步曲,步骤如下:

  • 定义两个对象
  • 两个对象相互引用
  • 置空各自的引用申明

是不是还是有点抽象,上绝招来个演示图演示一番:
在这里插入图片描述

我们可以看到,最后这2个对象已经不可能再被访问了,但由于他们相互引用着对方,导致它们的引用计数永远都不会为0,通过引用计数算法,也就永远无法通知GC收集器回收它们。所以引用计数法存在如上缺点,会导致内存泄漏。


2.2 可达性分析算法

方法总比困难多,同样也适用于JVM的GC发展史,后续JMV的GC引入了可达性分析算法判定谁是垃圾。在现代虚拟机基本都是采用这种算法来判断对象是否存活,可达性算法的原理是以一系列叫做 GC Root 的对象为起点出发,引出它们指向的下一个节点,再以下个节点为起点,引出此节点指向的下一个结点。(这样通过 GC Root 串成的一条线就叫引用链),直到所有的结点都遍历完毕,如果相关对象不在任意一个以 GC Root 为起点的引用链中,则这些对象会被判断为「垃圾」,会被 GC 回收。文字描述有点抽象,让我们来一个示意图直观的演示一番。

在这里插入图片描述
如上图所示,用可达性算法可以解决Java对象循环引用导致的引用计数法无法回收的问题,因为从GC Root出发没有到达obj5和obj6的有效路径,所以obj5和obj6可以回收。
obj5和obj6对象可被回收,就一定会被GC回收吗?并不是,对象从判定可回收到回收需要经历下面两个过程:

  • 第一个阶段是可达性分析,分析该对象是否可达
  • 第二个阶段是当对象没有重写finalize()方法或者finalize()方法已经被调用过,虚拟机认为该对象不可以被救活,因此回收该对象。(finalize()方法在垃圾回收中的作用是,给该对象一次救活的机会),当发生GC时,会先判断对象是否执行了 finalize 方法,如果未执行,则会先执行 finalize 方法,我们可以在此方法里将当前对象与 GC Roots 关联,这样执行 finalize 方法之后,GC 会再次判断对象是否可达,如果不可达,则会被回收,如果可达,则不回收!

注意: finalize 方法只会被执行一次,如果第一次执行 finalize 方法此对象变成了可达确实不会回收,但如果对象再次被 GC,则会忽略 finalize 方法,对象会被回收!这一点切记!


2.3 GC Root对象

通过可达性算法,成功解决了引用计数所无法解决的问题-“循环依赖”,只要你无法与 GC Root 建立直接或间接的连接,系统就会判定你为可回收对象。那这样就引申出了另一个问题,哪些属于 GC Root。
在 Java 语言中,可作为 GC Root 的对象包括以下4种:

  • 虚拟机栈(栈帧中的局部变量表)中引用的对象
  • 方法区中类静态属性引用的对象
  • 方法区中常量引用的对象
  • 本地方法栈中 JNI(即一般说的 Native 方法)引用的对象

2.3.1 虚拟机栈(帧栈中局部变量表)中引用的对象

此时下面实例中的obj即为GC Root,当obj置为null时,Localtable对象也断掉了与 GC Root 的引用链,该对象将被回收。

public class GCRootStackLocaltable {
    public GCRootStackLocaltable(String name){
        
    }    
    public static void main(String[] args){
        GCRootStackLocaltable obj = new GCRootStackLocaltable("Localtable");
        obj = null;
    }  
}

2.3.2 方法区中类静态属性引用的对象

此时下面实例中的obj为GC Root,当obj置为null后,经过GC垃圾回收,obj所指向的Localtable对象由于无法与 GC Root 建立关系被回收。
而instance作为类的静态属性,也属于GC Root,staticProperty对象依然与 GC Root 建立着连接,所以此时 staticProperty 对象并不会被回收。注意这里的GC Root是谁。

public class GCRootMethodAreaStaticPro {
    public static GCRootMethodAreaStaticPro instance;
    
    public GCRootMethodAreaStaticPro(String name){
        
    }
    
    @SuppressWarnings("static-access")
    public static void main(String[] args){
        GCRootMethodAreaStaticPro obj = new GCRootMethodAreaStaticPro("Localtable");
        obj.instance = new GCRootMethodAreaStaticPro("staticProperty");
        obj = null;
    }
    
}

2.3.3 方法区中常量引用的对象

此时下面实例中的mFinalObj为方法区中的常量的引用,作为GC Root使用。此时的obj也为GC Root(虚拟机栈局部变量表),当obj置为null后,Localtable与GC Root断开将会被回收,但是objFinal不会被回收。

public class GCRootMethodAreaConstat {

    public static final GCRootMethodAreaConstat mFinalObj = new GCRootMethodAreaConstat("objFinal");
            
            
    public GCRootMethodAreaConstat(String name){
        
    }
    
    public static void main(String[] args){
        GCRootMethodAreaConstat obj = new GCRootMethodAreaConstat("Localtable");
        obj = null;
    }
}

2.3.4 本地方法栈中引用的对象

在开始介绍之前,让我们先简单给不清楚本地方法为何物的童鞋简单解释一下:所谓本地方法就是一个 java 调用非 java 代码的接口,该方法并非 Java 实现的,可能由 C 或 Python等其他语言实现的, Java 通过 JNI 来调用本地方法, 而本地方法是以库文件的形式存放的(在 WINDOWS 平台上是 DLL 文件形式,在 UNIX 机器上是 SO 文件形式)。通过调用本地的库文件的内部方法,使 JAVA 可以实现和本地机器的紧密联系,调用系统级的各接口方法。至于大家有想深入学习JNI/NDK方法的同学可以参见如下篇章JNI/NDK入门指南

任何 Native 接口都会使用某种本地方法栈,实现的本地方法接口是使用 C 连接模型的话,那么它的本地方法栈就是 C 栈。当线程调用 Java 方法时,虚拟机会创建一个新的栈帧并压入 Java 栈。然而当它调用的是本地方法时,虚拟机会保持 Java 栈不变,不再在线程的 Java 栈中压入新的帧,虚拟机只是简单地动态连接并直接调用指定的本地方法。

在这里插入图片描述

JNIEXPORT void JNICALL Java_com_pecuyu_jnirefdemo_MainActivity_newStringNative(JNIEnv *env, jobject instance,jstring jmsg) {
...
   // 缓存String的class
   jclass jc = (*env)->FindClass(env, STRING_PATH);
}

如上代码所示,当 java 调用以上本地方法时,jc 会被本地方法栈压入栈中, jc 就是我们说的本地方法栈中 JNI 的对象引用,因此只会在此本地方法执行完成后才会被释放。



三.如何回收垃圾

前面篇章中确定了那些内存可以进行垃圾回收,以及那些内存可以判定为垃圾回收之后,垃圾收集器要做的事情就是开始进行垃圾回收,但是这里面涉及到一个问题是:如何高效地进行垃圾回收。由于Java虚拟机规范并没有对如何实现垃圾收集器做出明确的规定,因此各个厂商的虚拟机可以采用不同的方式来实现垃圾收集器,这里我们讨论几种常见的垃圾收集算法的核心思想。垃圾回收算法主要有如下三种:

  • 标记 — 清除算法
  • 复制算法
  • 标记整理算法

3.1 标记 — 清除算法

在这里插入图片描述
标记清除算法(Mark-Sweep)是最基础的一种垃圾回收算法,它分为2部分,先把内存区域中的这些对象进行标记,哪些属于可回收标记出来,然后把这些垃圾拎出来清理掉。就像上图一样,清理掉的垃圾就变成未使用的内存区域,等待被再次使用。

这逻辑再清晰不过了,并且也很好操作,但它存在一个很大的问题,那就是内存碎片。

上图中等方块的假设是 2M,小一些的是 1M,大一些的是 4M。等我们回收完,内存就会切成了很多段。我们知道开辟内存空间时,需要的是连续的内存区域,这时候我们需要一个 2M的内存区域,其中有2个 1M 是没法用的。这样就导致,其实我们本身还有这么多的内存的,但却用不了。


3.2 复制算法

在这里插入图片描述
复制算法(Copying)是在标记清除算法上演化而来,解决标记清除算法的内存碎片问题。它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。保证了内存的连续可用,内存分配时也就不用考虑内存碎片等复杂情况,逻辑清晰,运行高效。

上面的图很清楚,也很明显的暴露了另一个问题,合着我这140平的大三房,只能当70平米的小两房来使?代价实在太高。


3.3 复制算法

在这里插入图片描述
标记整理算法(Mark-Compact)标记过程仍然与标记 — 清除算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,再清理掉端边界以外的内存区域。

标记整理算法一方面在标记-清除算法上做了升级,解决了内存碎片的问题,也规避了复制算法只能利用一半内存区域的弊端。看起来很美好,但从上图可以看到,它对内存变动更频繁,需要整理所有存活对象的引用地址,在效率上比复制算法要差很多。

分代收集算法分代收集算法(Generational Collection)严格来说并不是一种思想或理论,而是融合上述3种基础的算法思想,而产生的针对不同情况所采用不同算法的一套组合拳。对象存活周期的不同将内存划分为几块。一般是把 Java 堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中,每次垃圾收集时都发现有大批对象死去,只有少量存活,那就选用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用标记-清理或者标记 — 整理算法来进行回收。so,另一个问题来了,那内存区域到底被分为哪几块,每一块又有什么特别适合什么算法呢?


3.4 内存模型与回收策略

在这里插入图片描述
Java 堆(Java Heap)是JVM所管理的内存中最大的一块,堆又是垃圾收集器管理的主要区域,这里我们主要分析一下 Java 堆的结构。

Java 堆主要分为2个区域-年轻代与老年代,其中年轻代又分 Eden 区和 Survivor 区,其中 Survivor 区又分 From 和 To 2个区。可能这时候大家会有疑问,为什么需要 Survivor 区,为什么Survivor 还要分2个区。不着急,我们从头到尾,看看对象到底是怎么来的,而它又是怎么没的。

3.4.1 Eden 区

IBM 公司的专业研究表明,有将近98%的对象是朝生夕死,所以针对这一现状,大多数情况下,对象会在新生代 Eden 区中进行分配,当 Eden 区没有足够空间进行分配时,虚拟机会发起一次 Minor GC,Minor GC 相比 Major GC 更频繁,回收速度也更快。
通过 Minor GC 之后,Eden 会被清空,Eden 区中绝大部分对象会被回收,而那些无需回收的存活对象,将会进到 Survivor 的 From 区(若 From 区不够,则直接进入 Old 区)。

3.4.2 Survivor 区

Survivor 区相当于是 Eden 区和 Old 区的一个缓冲,类似于我们交通灯中的黄灯。Survivor 又分为2个区,一个是 From 区,一个是 To 区。每次执行 Minor GC,会将 Eden 区和 From 存活的对象放到 Survivor 的 To 区(如果 To 区不够,则直接进入 Old 区)。

为啥需要?
不就是新生代到老年代么,直接 Eden 到 Old 不好了吗,为啥要这么复杂。想想如果没有 Survivor 区,Eden 区每进行一次 Minor GC,存活的对象就会被送到老年代,老年代很快就会被填满。而有很多对象虽然一次 Minor GC 没有消灭,但其实也并不会蹦跶多久,或许第二次,第三次就需要被清除。这时候移入老年区,很明显不是一个明智的决定。

所以,Survivor 的存在意义就是减少被送到老年代的对象,进而减少 Major GC 的发生。Survivor 的预筛选保证,只有经历16次 Minor GC 还能在新生代中存活的对象,才会被送到老年代。

为啥需要俩?
设置两个 Survivor 区最大的好处就是解决内存碎片化。

我们先假设一下,Survivor 如果只有一个区域会怎样。Minor GC 执行后,Eden 区被清空了,存活的对象放到了 Survivor 区,而之前 Survivor 区中的对象,可能也有一些是需要被清除的。问题来了,这时候我们怎么清除它们?在这种场景下,我们只能标记清除,而我们知道标记清除最大的问题就是内存碎片,在新生代这种经常会消亡的区域,采用标记清除必然会让内存产生严重的碎片化。因为 Survivor 有2个区域,所以每次 Minor GC,会将之前 Eden 区和 From 区中的存活对象复制到 To 区域。第二次 Minor GC 时,From 与 To 职责兑换,这时候会将 Eden 区和 To 区中的存活对象再复制到 From 区域,以此反复。

这种机制最大的好处就是,整个过程中,永远有一个 Survivor space 是空的,另一个非空的 Survivor space 是无碎片的。那么,Survivor 为什么不分更多块呢?比方说分成三个、四个、五个?显然,如果 Survivor 区再细分下去,每一块的空间就会比较小,容易导致 Survivor 区满,两块 Survivor 区可能是经过权衡之后的最佳方案。

3.4.3 Old 区

老年代占据着2/3的堆内存空间,只有在 Major GC 的时候才会进行清理,每次 GC 都会触发“Stop-The-World”。内存越大,STW 的时间也越长,所以内存也不仅仅是越大就越好。由于复制算法在对象存活率较高的老年代会进行很多次的复制操作,效率很低,所以老年代这里采用的是标记 — 整理算法。

除了上述所说,在内存担保机制下,无法安置的对象会直接进到老年代,以下几种情况也会进入老年代。

大对象
大对象指需要大量连续内存空间的对象,这部分对象不管是不是“朝生夕死”,都会直接进到老年代。这样做主要是为了避免在 Eden 区及2个 Survivor 区之间发生大量的内存复制。当你的系统有非常多“朝生夕死”的大对象时,得注意了。

长期存活对象
虚拟机给每个对象定义了一个对象年龄(Age)计数器。正常情况下对象会不断的在 Survivor 的 From 区与 To 区之间移动,对象在 Survivor 区中每经历一次 Minor GC,年龄就增加1岁。当年龄增加到15岁时,这时候就会被转移到老年代。当然,这里的15,JVM 也支持进行特殊设置。

动态对象年龄
虚拟机并不重视要求对象年龄必须到15岁,才会放入老年区,如果 Survivor 空间中相 同年龄所有对象大小的总合大于 Survivor 空间的一半,年龄大于等于该年龄的对象就可以直接进去老年区,无需等你“成年”。

这其实有点类似于负载均衡,轮询是负载均衡的一种,保证每台机器都分得同样的请求。看似很均衡,但每台机的硬件不通,健康状况不同,我们还可以基于每台机接受的请求数,或每台机的响应时间等,来调整我们的负载均衡算法。



总结

本篇章只是从Android程序员的角度出发,大概的了解了一些JVM之垃圾回收的知识。至于为什么Android程序员要学习这些,因为从JVM垃圾回收中我们也能了解Android垃圾回收的基本法则,增加我们对Android内存泄漏,OOM的认识。知其然并知其所以然,这个才是我写下本篇的根本原因。



写在最后

  做为Android程序员的我,经常会遇到一些内存泄漏,OOM的问题虽然知道怎么去解决,但是没有为什么会发生泄漏。所以有必有理解GC的原理和判定规则,所以这就是我写下本篇的根本原因,至于想深入JVM之垃圾回收这个臣妾做不到,各位只能找相关的专业书籍了,本篇只是入门仅仅而已。
参阅博客
咱们从头到尾说一次 Java 垃圾回收

发布了119 篇原创文章 · 获赞 131 · 访问量 36万+

猜你喜欢

转载自blog.csdn.net/tkwxty/article/details/105542692