scripyプロジェクト作成

:マウントフレームは、
バージョンの試合をアップグレードします。--upgradeピップをインストールPIP
scrapy取り付けフレームScrapyをインストールPIP PIPで

II:爬虫類の手順:
①新しいプロジェクト(コマンドライン上で、あなたが置かれたドキュメントを投影するディレクトリを入力します)
scrapyのstartprojectのプロジェクト名の
例:scrapy startprojectのdouban

カスタム名クローラ作成②
それがシェルコマンドで動作している場合> 1は
scrapyのgenspiderの爬虫類は、色域をクロールした(クローラー名は、プロジェクト名と同じにすることはできません):プロジェクトファイルを入力し、[次のコマンドを入力する最初のです
例:scrapyのgenspider douban_spider movie.douban.com

それはpycharmで、端末動作している場合2>
クモパッケージに次の項目に最初に、次のコマンドを入力します。scrapyのgenspiderの爬虫類は、ガマット(クローラー名は、プロジェクト名と同じにすることはできません)クロールされた
scrapy genspider douban_spider映画:例.douban.com

3>の設定セット

 Falseに真1. ROBOTSTXT_OBEY =

 2.パイプラインを開きます。

  ITEM_PIPELINES = {
  'douban.pipelines.DoubanPipeline':300、
  }

 3.設定や変更を開きます。

  DEFAULT_REQUEST_HEADERS = {

  '受け入れる': 'text / htmlで、アプリケーション/ XHTML + xmlの、アプリケーション/ xmlの; Q = 0.9、* / *; qは= 0.8'、
  '受け入れ言語を': 'en'と、
  'ユーザーエージェント':「Mozillaの/5.0(Windows NTの10.0; Win64の、のx64)のAppleWebKit / 537.36(KHTML、ヤモリ等)クローム/ 58.0.3029.110サファリ/ 537.36"
  }

 

③明確な目標(書かitems.py):クロールする明確な目標

④生産爬虫類(クモ/ xxspider.py):生産は爬虫類のページをクロールを開始します

⑤格納されたコンテンツ(pipelines.py):ダクトコンテンツクロールを記憶します

⑥爬虫類プロジェクト開始
scrapyクロール爬虫類名
例:scrapyクロールdouban_spiderを

 

おすすめ

転載: www.cnblogs.com/lnd-blog/p/11692501.html