URL中中文编码的问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haoyuexihuai/article/details/81542173

在做爬虫时需要确保附件的下载正确

在操作中发现附件的下载地址存在中文,点击下载之后的链接是URL的编码格式

中文:附件下载表:
utf8编码:
    %E9%99%84%E4%BB%B6%E4%B8%8B%E8%BD%BD%E8%A1%A8
gbk编码:
    %B8%BD%BC%FE%CF%C2

网站的解析是gbk编码格式,如果直接复制下载地址,在地址栏下载,浏览器会自动转换为utf8编码格式,导致下载的文件名乱码

起初以为转码格式只有一种,很多在线的也只提供了一种,多次搜索之后发现url编码解码有多种字符集。以后一定要注意。

在线url编码解码地址:
http://web.chacuo.net/charseturlencode

猜你喜欢

转载自blog.csdn.net/haoyuexihuai/article/details/81542173
今日推荐