爬百度新闻 - 代码天地

爬百度新闻

其他 2020-03-21 14:01:10 阅读次数: 0

from selenium import webdriver

from bs4 import BeautifulSoup

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

import time

infor_name= [ ] #标题

infor_url=[ ] #网址

browser = webdriver.Chrome('C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')

find_name=['激光雷达','lidar']

num=len(find_name)

def find_infor(htmlin):

xpath_urls = '//h3[@class="c-title"]/a'

texts = browser.find_elements_by_xpath(xpath_urls)

for text_xx in texts:

infor_url.append(text_xx.get_attribute("href"))

infor_name.append(text_xx.text)

for x in range(num):

browser.get("百度新闻搜索--全球最大的中文新闻平台")

# print(browser.title)

assert "百度新闻搜索——全球最大的中文新闻平台" in browser.title

browser.find_element_by_id("ww").send_keys(find_name[x])

browser.find_element_by_class_name("btn").click()

time.sleep(3) # 给网页读取的时间，否则是空白网页信息

find_infor(browser)

browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")

browser.find_element_by_xpath("//a[@class='n']").click()

time.sleep(3)

find_infor(browser)

browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")

browser.find_element_by_xpath("//a[@class='n']").click()

time.sleep(3)

find_infor(browser)

browser.quit()

print(infor_name)

print(infor_url)

猜你喜欢

转载自www.cnblogs.com/li128/p/12538995.html

爬百度新闻

用selenium爬取百度新闻

利用Python简单的爬取百度新闻

20200203_selenium爬取百度新闻

python爬取百度新闻数据,python爬取新闻网站内容

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

用pyquery5行代码爬取百度热点新闻

网络爬虫百度新闻标题及链接爬取

爬百度的原码

百度新闻的轮播（js）

百度AI攻略：新闻摘要

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

Python爬取百度图片

Python 爬取百度音乐

爬取百度图片

爬取百度地图

python爬百度翻译demo

python——百度文库爬取

python爬百度文库课件

Python 爬取百度图片

百度地图爬取数据

爬取百度翻译接口

爬取百度翻译

百度VIP音乐爬取

爬取百度地图评论

scrapy 爬百度图片

爬取百度信用（转）

批量爬取百度图片

【Python】爬取百度图片

爬取百度热搜

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)