使用Selenium模拟浏览器抓取

最近在学习python爬虫的一些知识,在练习demo的过程中,碰到了一些问题,现已经解决,希望能给学习的朋友一点帮助。

安装

python版本建议使用python3.6版本

python下载地址

https://www.python.org/getit/
python安装检查

检查是否安装成功的方法: 在Windows命令行(cmd),输入“python”命令来检验,若提示Python不是内部或者外部命令,就把Python的安装目录添加到系统环境变量的Path下面。

添加系统环境变量的步骤:

控制面板 -> 系统和安全 -> 系统 -> 高级系统设置 -> 高级 -> 环境变量 -> 新建

正常python安装的时候有一个勾选添加到环境变量的操作,勾选上就不用自己配置环境变量了

selenuim下载安装

pip install selenium

或者下载selenium包:https://pypi.python.org/pypi/selenium

selenuim安装检查

输入pip show selenium可查看当前的selenium版本

浏览器支持下载

 1.chromedriver 下载地址:https://code.google.com/p/chromedriver/downloads/list

 2.Firefox的驱动geckodriver 下载地址:https://github.com/mozilla/geckodriver/releases/

 3.IE的驱动IEdriver 下载地址:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

selenuim尝试

from selenium import webdriver
driver = webdirver.Firefox()
dirver.get("https://www.dianping.com/search/category/7/10/pl")

报错:

Message: 'geckodriver' executable needs to be in PATH

解决方案:(以firefox为例)

1、下载geckodriver.exe:
下载地址:https://github.com/mozilla/geckodriver/releases
请根据系统版本选择下载;(如Windows 64位系统)

2、下载解压后将getckodriver.exe复制到Firefox的安装目录下,如(C:\Program Files\Mozilla Firefox),并在环境变量Path中添加路径:C:\Program Files\Mozilla Firefox;

浏览器环境变量可以右击浏览器图标,点击属性,复制浏览器exe文件的位置,然后打开控制面板 ->系统和安全 -> 系统 -> 高级系统设置 -> 高级 -> 环境变量 ->选择path,在python的path下添加浏览器的启动位置。

3、重启IDE或者终端即可

错误2

from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps = webdriver.DesiredCapabilities().FIREFOX
caps["marionette"] = False
binary = FirefoxBinary('C:\Program Files (x86)\Mozilla Firefox\firefox.exe')
dirver = webdriver.Firefox(firefox_binary=binary, capabilities=caps)
dirver.get("https//www.santostang.com/2017/03/02/hello-world/")

FileNotFoundError: [WinError 2] 系统找不到指定的文件。

解决

路径使用反斜杠

binary = FirefoxBinary('C:/Program Files (x86)/Mozilla Firefox/firefox.exe')

猜你喜欢

转载自blog.csdn.net/xjl271314/article/details/80172483