XML乱码问题解析

XML乱码问题和encoding的理解这篇博客已经讲的很明白了,总结一下读取XML选取编码方式的逻辑就是:

  • 如果文挡有 BOM ,就定义了文件编码,则采用此编码;
  • 如果没有 BOM ,就查看文件头 encoding 声明的编码,如声明为<?xml version="1.0"
    encoding="GB2312"?>
    ,则采用 GB2312 编码;
  • 如果上述两个都没有,就默认采用 UTF-8 编码。

需要补充的有:

  • Linux如何查看文件编码:file -i config.xml,结果比如config.xml: application/xml; charset=utf-8,可知此文件的编码是 UTF-8
  • 为什么 ISO-8859-1 编码的文件可以被 GBKGB2312 编码正确读取呢?原因是 GBKGB2312 专门用来表示汉字,是双字节编码,而英文字母编码和 ISO-8859-1 一致(兼容 ISO-8859-1 编码)。其中 GBK 编码能够用来同时表示繁体字和简体字,而 GB2312 只能表示简体字,GBK 是兼容 GB2312 编码的。

猜你喜欢

转载自blog.csdn.net/totally123/article/details/80055480