"&#,&#x,\u"开头的unicode介绍 - 代码天地

"&#,&#x,\u"开头的unicode介绍

其他 2018-11-29 01:54:17 阅读次数: 0

转载地址:https://blog.csdn.net/u013243986/article/details/75287078

最近在写爬虫时遇到"&#"或者 "&#x"开头的编码,在浏览器是可以正常打开的,但是爬取下来时却,显示 中国农业银&#x884c; 在尝试了 utf-8 或者GBK,GB2312等等的编码都行不通的情况下, 在网上也找不到太多的资料,这让我很苦恼,而且百度搜索居然没法直接搜索符号,还是大谷歌好用, 通过http://tool.chinaz.com/tools/unicode.aspx 发现其实这个只是普通的unicode编码.但是却有不同的格式比如\u开头的,"&#"或者"&#x"开头. 我们在 https://www.zhihu.com/question/21390312 找到了问题的答案.

其实 \u 开头和 &#x 开头是一样的都是16进制 unicode字符的不同写法,&# 则是 unicode字符的10进制的写法.知道这个之后我们写代码就容易多了.

public static String unicode2String(String unicode)
{
    StringBuffer string = new StringBuffer();
    
    if (unicode.startsWith("&#x")) {
        String[] hex = unicode.replace("&#x", "").split(";");
        for (int i=0; i<hex.length; i++) {
            int data = Integer.parseInt(hex[i], 16);
            string.append((char) data);
        }
    } else if (unicode.startsWith("&#")) {
        String[] hex = unicode.replace("&#", "").split(";");
        for (int i=0; i<hex.length; i++) {
            int data = Integer.parseInt(hex[i], 10);
            string.append((char) data);
        }
    }

    return string.toString();
}

猜你喜欢

转载自blog.csdn.net/zhangge3663/article/details/84101832

"&#,&#x,\u"开头的unicode介绍

原 python3 把\u开头的unicode转中文，把str形态的unicode转中文

Java将\u开头的unicode字符串转换为中文

0x和\u区别，unicode编码

Unicode介绍

u'string' 变量 unicode

python X开头解码

OSG:开头篇介绍

Python3 遇到\\u开头的编码

《C语言函数速查》U开头的函数

Java将&#x开头的内容转为汉字

&#x开头的是什么编码呢？？？

by开头

关于解决'\u'开头的字符串转中文的方法

U-boot介绍

U-Net介绍

关于Python中以字母r/R，或字母u/U 开头的字符串

以0x开头的颜色值和#开头的颜色值都是16位进制的

java过滤乱码 \u形式乱码 unicode乱码

把Java中\u格式的unicode编码转成中文

python中如何去掉unicode编码前面的u?

Python将列表list带'u'的unicode转换为中文

ASCII，Unicode，UTF-8码介绍

如何得到 0x 开头的 16 进制的值

RobotFramework日志中出现以“\x”开头的乱码的解决方式

Python爬虫-抓取的目标数据为&#x开头，怎么解决？

unicode

java 中手写可识别的 unicode 编码 ( "\u0000\u1111" )

三种空格unicode(\u00A0,\u0020,\u3000)表示的区别

[教程]-三种空格unicode(\u00A0,\u0020,\u3000)表示的区别

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)