1.Scrapy选择器
Scrapy提供基于lxml库的解析机制,它们被称为选择器。
因为,它们“选择”由XPath,re正则和CSS表达式指定的HTML文档的某部分。
Scarpy选择器的API非常小,且非常简单。
有点像bs4。
1.1 构造selector选择器
- Scrapy选择器是通过scrapy.Selector类,
通过传递文本或者TextResponse对象构造的实例。
(它会根据输入类型自动选择最佳解析规则:XML与HTML)
html_str="""
<div class="info">
<div class="hd">
<a href="https://movie.douban.com/