配置文件
MONGO_URL = 'localhost' #链接数据库地址
MONGO_DB = 'taobao' #数据库名称
MONGO_TABLE = 'product' #表名
主程序
from selenium import webdriver
from selenium.webdriver.common.by import By #引入判断元素加载模块
from selenium.webdriver.support.ui import WebDriverWait #引入判断元素加载模块
from selenium.webdriver.support import expected_conditions as EC #引入判断元素加载模块
from selenium.common.exceptions import TimeoutException
from pyquery import PyQuery as pq #pyquery解析网页源代码模块
import re
import time
from time import sleep
from config import * #注意要把config.py文件放在环境变量的目录下
import pymongo #应用
client = pymongo.MongoClient(MONGO_URL) #声明MongoDB对象
db = client[MONGO_DB] #定义db 引用数据库
browser=webdriver.Firefox() #创建webdriver对象
wait=WebDriverWait(browser, 10) #设置目标元素等待时间
# 设定页面加载限制时间
browser.set_page_load_timeout(10)
browser.set_script_timeout(10)#这两种设置都进行才有效
def search():
try:
browser.get('https://www.taobao.com') # 打开请求的url
input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))) # 等待搜索输入框加载完成
sumbit = wait.until(
EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button'))) #等待搜索按钮加载完成
input.send_keys("美食") # 输入框中输入“美食”
sumbit.click() #点击搜索按钮
#total = wait.until(EC.presence_of_all_elements_located(By.CSS_SELECTOR,'#J_relative > div.sort-row > div > div.pager > ul > li:nth-child(2)')) # 等待上面页码元素加载完成
browser.execute_script('window.stop()') # 当页面加载时间超过设定时间,通过执行Javascript来stop加载,即可执行后续动作
#print('加载超时强,行执行后面的')
#total = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total'))) # 等待搜索输入框加载完成
#print('找到了页码元素1')
#return total.text
except TimeoutException:
print('加载超时,强行执行后面的2')
total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total'))) # 等待搜索输入框加载完成
if total:
#print('找到了页码元素2')
get_products() #调用抓取商品信息
return total.text
print('出错了')
return search()
def next_page(page_number): #翻页
try:
print('正在翻页', page_number)
input = wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input"))
) #等待输入页码输入框
submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit")))#等待页码输入后点确定按钮
input.clear() #清除输入页码框的内容
input.send_keys(page_number)#传入页码参数
submit.click()#点击确定
wait.until(
EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number))) #判断高亮的页码是不是传入的页码参数
get_products()#调用抓取商品信息
except TimeoutException:
next_page(page_number)
def get_products():#抓取商品信息
sleep(3) # 强制等待3秒再执行下一步
wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #等待网页商品元素加载完成
html = browser.page_source #获取网页源代码
doc = pq(html) #解析网页代码
items = doc('#mainsrp-itemlist .items .item').items() # items 方法返回对象列表
for item in items:
product = {
'图片': item.find('.pic .img').attr('src'), #item.find获取内部元素
'价格': item.find('.price').text(),
'付款人数': item.find('.deal-cnt').text()[:-3],#截取付款人数即可
'标题': item.find('.title').text(),
'店铺名': item.find('.shop').text(),
'地区': item.find('.location').text()
}
print(product)
save_to_mongo(product)#调用存入数据库
def save_to_mongo(result): #存入mongodb
try:
if db[MONGO_TABLE].insert(result):
print('存储到MONGODB成功', result)
except Exception:
print('存储到MONGODB失败', result)
def main():
total=search()
total = int(re.compile('(\d+)').search(total).group(1)) #正则匹配页码数字
for i in range(2, total + 1): #从第二页开始
next_page(i)
if __name__ == '__main__':
main()