python3+gne+selenium实现的新闻类爬虫

本文主要介绍执行该爬虫所需的环境搭建，其他不多赘述。

环境搭建分以下3步，python3运行环境搭建、本地浏览器驱动安装、爬虫依赖包安装。

一、Python3运行环境搭建
Mac系统安装Python推荐使用Homebrew安装，即先安装homebrew，再使用brew命令安装Python。
复制下面的命令，粘贴到Mac的终端命令行执行，安装需要等待一段时间

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)"

brew install [email protected]


二、本地Chome驱动安装
GNE 的输入是经过 js 渲染以后的 HTML 代码，所以 GNE 需要配合 Selenium 使用，使用Selenium需要先安装浏览器驱动ChromeDriver。
安装过程这篇博客写的比较详细，新手参考其中方法一安装即可。
[https://blog.csdn.net/weixin_43931159/article/details/86078075](https://blog.csdn.net/weixin_43931159/article/details/86078075)

注意其中可能会踩的坑：
1、安装的驱动一定要对应自己的Chome浏览器版本，否则可能脚本无法打开浏览器
2、驱动的安装位置记住，安装位置的绝对路径即爬虫脚本中实例化webdriver对象时传入的参数值 driver = webdriver.Chrome("/usr/bin/chromedriver")
3、拖动驱动安装到/usr/bin/目录下时可能会被MacOS的系统安全策略拦截，此时根据报错信息百度，网上有很多文章供参考解决。基本都是恢复模式重启mac，命令行输入命令解除限制，再重启电脑即可。

三、爬虫依赖包安装
所需的依赖包有两个，selenium和gne，新手可以直接在Pycharm中先选中步骤一安装的Python作为项目解释器，然后装这两个依赖包。
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020081821061824.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L211c2tqcA==,size_16,color_FFFFFF,t_70#pic_center)


> 写在文章最后，为什么选gne这个工具。GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML， 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到 100%的准确率

python3+gne+selenium实现的新闻类爬虫

猜你喜欢