Pythonの爬虫類-scrapyd

1. scrapydとは何ですか

  Scrapydはscrapyクローラを実行するために使用されるサービスです。

  それはあなたのscrapyプロジェクトを展開し、HTTP JSONの方法を通して、あなたの爬虫類を制御することができます。

  公式文書:http://scrapyd.readthedocs.org/

2、およびscrapyd・クライアントインストールscrapyd

  ピップscrapyd(サーバー)をインストール

  ピップscrapydクライアント(クライアント)をインストール

  インストールが完了したら、コマンドラインウィンドウを実行し、Pythonのインストールディレクトリにあるscrapyd.exeスクリプトファイルがあり、あなたがアクセスhttp://127.0.0.1:6800、入力することができます

非常にシンプルなページ、

  このコマンドラインを開いたサービスを示して実行Scrapyd、

 

 

   ブラウザでサービスにアクセスし、

  上記、インストールが成功したかどうかのテストにscrapyd-展開を行って、インストール後に、テスト・クライアントをインストールするために、今、サーバーのインストールが成功した表し、

 

 

 失敗し、我々は次のPythonスクリプトを見てscrapyd-クライアント。コマンドがあり、

 

 

 それならば、scrapyd-デプロイファイルがある絵から参​​照してくださいではなく、実行可能ファイル、ファイルが開いており、Pythonのコードを含むファイルを見つけました

実行は、ファイルを実行するPythonインタプリタを行うために、またはそれは、2つの方法で実行可能ファイルにコンパイルされます。

  最初の方法:

    このフォルダにscrapyd-DEPLOY.BATファイルを作成し、その中で次のコマンドを入力します。

@echo off
C:\Users\18065\AppData\Local\Programs\Python\Python37-32\python.exe C:\Users\18065\AppData\Local\Programs\Python\Python37-32\Scripts\scrapyd-deploy %*

第二行第一个路径是python解释器的绝对路径,第二路径是scrapyd-deploy文件的绝对路径,然后再来执行scrapyd-deploy命令

 

 

 这样就表明安装成功了

  第二种方式:

    用可以将python源文件编译为scrapyd-deploy.exe可执行程序的模块pyinstaller

3、上传爬虫项目

  在上传之前必须修改一下配置文件,将scrapy.cfg中的url注释掉

 

 

 注释掉后,就可以开始正式上传了,上传时必须要在爬虫项目文件中,

执行scrapyd-deploy -p <projectname>,并出现下图中“status”:“ok”,表示上传成功,可以在http://127.0.0.1:6800页面验证

 

 

 

 

4、运行爬虫项目 

上传过后就可以在命令行窗口开始启动爬虫了

启动命令:curl http://127.0.0.1:6800/schedule.json -d project=<projectname> -d spider=<spidername>

启动后,就可以看到在开启服务的那个命令行窗口不断出现scrapy项目运行时的数据,在http://127.0.0.1:6800/jobs页面显示

爬虫运行信息,在http://127.0.0.1:6800/logs/页面显示运行日志

5、关闭爬虫项目

关闭命令:curl http://127.0.0.1:6800/cancel.json -d project=<projectname> -d job=<jobid>

6、其它命令:

daemonstatus.json #查看爬虫状态

addversion.json #添加版本号

listprojects.json #列出所有已经上传到服务器的爬虫工程名

listversions.json #列出指定工程的版本号

listspiders.json #列出指定工程的爬虫名

listjobs.json #列出指定工程的所有正在上传的,正在运行的,和已经完成的 jobid

delversion.json #删除指定工程的某个版本

delproject.json #删除工程

 

 

 

  

おすすめ

転載: www.cnblogs.com/loveprogramme/p/12070152.html