python爬虫库——urllib常用函数

URL拆分与合并

  • urllib.parse.urlparse(url='') # 将URL解析为六部分:<scheme>://<netloc>/<path>;<params>?<query>#<fragment>

  • urllib.parse.urlparse(url='', scheme='') # 设置URL协议

  • urllib.parse.urlparse(url='', allow_fragments=False) # 将‘fragment’部分解析为‘path’、‘params’或‘query’的一部分

  • urllib.parse.urlunparse(components=('scheme', 'netloc', 'path', 'params', 'query', 'fragment')) # 使用六部分信息构造URL

  • urllib.parse.urlsplit(url='') # 将URL解析为五部分:<scheme>://<netloc>/<path>?<query>#<fragment>

  • urllib.parse.urlsplit(url='', scheme='') # 设置URL协议

  • urllib.parse.urlsplit(url='', allow_fragments=False) # 将‘fragment’部分解析为‘path’或‘query’的一部分

  • urllib.parse.urlunsplit(components=('scheme', 'netloc', 'path', 'query', 'fragment')) # 使用五部分信息构造URL

  • urllib.parse.urljoin(base='', url='') # 将‘base_url’解析为四部分:<scheme>://<netloc>/<path>#<fragment>,使用‘scheme’、‘netloc’、‘path’三部分内容,对新URL缺失部分进行补充

  • urllib.parse.urljoin(base='', url='', allow_fragments=False) # 将‘fragment’部分解析为‘path’的一部分

字典和URL参数转换

  • urllib.parse.urlencode(query={}) # 将字典转换为GET请求参数‘query’

  • urllib.parse.parse_qs(qs='query, str') # 将GET请求参数‘query’转换为字典

  • urllib.parse.parse_qsl(qs='query, str') # 将GET请求参数‘query’转换为由元组组成的列表

文本和URL编码转换

  • urllib.parse.quote(string='') # 将中文字符转换为URL编码格式

  • urllib.parse.unquote(string='') # 将URL编码格式解码为中文字符

猜你喜欢

转载自blog.csdn.net/guanxxx/article/details/138419885