scrapy简单知识点分析

# -*- coding: utf-8 -*-
# spider类定义如何爬取某些网站
# 实际上是默认调用request方法
import scrapy
from quotetutorial.items import QuoteItem

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    # # name:必须存在,用来标识spider



    allowed_domains = ['quotes.toscrape.com']
    # allowed_domains:可以不存在,包含允许爬取的域名列表,
    # 简单说就是每次生成request的时候去看url是否去匹配这个域名,匹配成功就允许爬取


    start_urls = ['http://quotes.toscrape.com/']
    # start_urls :当没有指定特定的url时候,spider将从这个列表中开始爬取

    # custom_settings :对框架中的内容进行覆盖,比如我想覆盖setting中的headers的内容\
    # ,那么只要将header的内容写入custom_settings中,然后改变headers的值即可,
    # 当程序再次运行时会覆盖以前setting的headers值,而运行你修改之后的内容


# from_crawler: 通过构建from_crawler()方法的设置,来得到全局变量的设置.


    def parse(self, response):
        # parse方法生成request或者item,生成item就返回

        quotes = response.css('.quote')
        for quote in quotes:    # 操作类似于迭代查询
            item = QuoteItem()
            text = quote.css('.text::text').extract_first()
            # 使用extract()方法,得到里面的文本内容
            # 之前xpath中我们获取元素是通过.entry-header h1::text,
            # 如果是属性则用.entry-header a::attr(href)
            #  pass  # 自动调用pass方法对url进行解析
            author = quote.css('.author::text').extract_first()
            # 使用extract_first()得到第一个
            tags = quote.css('.tags::text').extract()
            # 区别在于标签是否有一个内容,如果不是一个则用extract()
            # extract()返回的是列表类型
            #extract_first()返回的是字符串类型
            # 可以用控制台命令进行shell操作:进入命令行模式进行操作
            item['text'] = text   #给item赋值,实例化
            item['author'] = author
            item['text'] = tags
            yield item
        next = response.css('.paper .next a::attr(href)').extract_first()
        url = response.urljoin(next)
        yield scrapy.Request(url=url,callback=self.parse,dont_filter=True)
        # yield request生成下一个request

        # parse的作用自己回调自己
        #dont_filter防止自动过滤掉第二页
        # 数据的保存:“命令行模式:scrapy crawl quote -o quotes.json
        # scrapy crawl quote -o quotes.jl   保存成1行
        # scrapy crawl quote -o quotes.csv 保存为csv格式的数据

# log(message[,level,component])
# 进行日志的输出

猜你喜欢

转载自blog.csdn.net/qq_40605167/article/details/81389803
今日推荐