Selenium模拟浏览器抓取淘宝商品

配置文件

MONGO_URL = 'localhost' #链接数据库地址
MONGO_DB = 'taobao' #数据库名称
MONGO_TABLE = 'product' #表名

主程序

from selenium import webdriver
from selenium.webdriver.common.by import By   #引入判断元素加载模块
from selenium.webdriver.support.ui import WebDriverWait    #引入判断元素加载模块
from selenium.webdriver.support import expected_conditions as EC    #引入判断元素加载模块
from selenium.common.exceptions import TimeoutException
from pyquery import PyQuery as pq #pyquery解析网页源代码模块
import re
import time
from time import sleep
from config import * #注意要把config.py文件放在环境变量的目录下
import pymongo  #应用

client = pymongo.MongoClient(MONGO_URL) #声明MongoDB对象
db = client[MONGO_DB] #定义db 引用数据库

browser=webdriver.Firefox() #创建webdriver对象
wait=WebDriverWait(browser, 10) #设置目标元素等待时间

# 设定页面加载限制时间
browser.set_page_load_timeout(10)
browser.set_script_timeout(10)#这两种设置都进行才有效


def search():
    try:
        browser.get('https://www.taobao.com')  # 打开请求的url
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#q')))  # 等待搜索输入框加载完成
        sumbit = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button'))) #等待搜索按钮加载完成
        input.send_keys("美食")  # 输入框中输入“美食”
        sumbit.click() #点击搜索按钮
        #total = wait.until(EC.presence_of_all_elements_located(By.CSS_SELECTOR,'#J_relative > div.sort-row > div > div.pager > ul > li:nth-child(2)'))  # 等待上面页码元素加载完成
        browser.execute_script('window.stop()')  # 当页面加载时间超过设定时间，通过执行Javascript来stop加载，即可执行后续动作
        #print('加载超时强,行执行后面的')
        #total = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))  # 等待搜索输入框加载完成
        #print('找到了页码元素1')
        #return total.text
    except TimeoutException:
        print('加载超时,强行执行后面的2')
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))  # 等待搜索输入框加载完成
        if total:
            #print('找到了页码元素2')
            get_products() #调用抓取商品信息
            return total.text
        print('出错了')
        return search()

def next_page(page_number): #翻页
    try:
        print('正在翻页', page_number)
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input"))
        ) #等待输入页码输入框
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit")))#等待页码输入后点确定按钮
        input.clear() #清除输入页码框的内容
        input.send_keys(page_number)#传入页码参数
        submit.click()#点击确定
        wait.until(
            EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number))) #判断高亮的页码是不是传入的页码参数
        get_products()#调用抓取商品信息
    except TimeoutException:
        next_page(page_number)


def get_products():#抓取商品信息
    sleep(3)  # 强制等待3秒再执行下一步
    wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #等待网页商品元素加载完成
    html = browser.page_source #获取网页源代码
    doc = pq(html) #解析网页代码
    items = doc('#mainsrp-itemlist .items .item').items()  # items 方法返回对象列表
    for item in items:
        product = {
            '图片': item.find('.pic .img').attr('src'), #item.find获取内部元素
            '价格': item.find('.price').text(),
            '付款人数': item.find('.deal-cnt').text()[:-3],#截取付款人数即可
            '标题': item.find('.title').text(),
            '店铺名': item.find('.shop').text(),
            '地区': item.find('.location').text()
        }
        print(product)
        save_to_mongo(product)#调用存入数据库

def save_to_mongo(result): #存入mongodb
    try:
        if db[MONGO_TABLE].insert(result):
            print('存储到MONGODB成功', result)
    except Exception:
        print('存储到MONGODB失败', result)




def main():
    total=search()
    total = int(re.compile('(\d+)').search(total).group(1)) #正则匹配页码数字
    for i in range(2, total + 1): #从第二页开始
        next_page(i)


if __name__ == '__main__':
    main()

猜你喜欢

目录

热门文章