Python爬虫百度搜索

其他 2021-01-30 10:20:59 阅读次数: 0

一、bs4实现

import requests
from urllib import parse
from bs4 import BeautifulSoup
import time

headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}

def getPage(url):
    try:
        re=requests.get(url,headers=headers)
        re.encoding=re.apparent_encoding
        return re.text
    except:
        print(re.status_code)

def parsePage(text):
    soup=BeautifulSoup(text,'lxml')
    content=soup.select('div .result')
    for item in content:
        try:
            title=item.select('h3 a')[0].text
            href=item.select('h3 a')[0]['href']
            abstract=item.select('.c-abstract')[0].text
            print("{}-{}\n{}".format(title,abstract,href))
        except:
            pass
    # baike
    try:
        bk=soup.select("div .result-op .op-bk-polysemy-piccontent")[0]
        baike_abstract=bk.select('p')[0].text.strip()
        baike_title=soup.select('.result-op .c-gap-bottom-small a')[0].text.strip()
        baike_href=soup.select('.result-op .c-gap-bottom-small a')[0]['href']
        print("{}-{}\n{}".format(baike_title,baike_abstract,baike_href))
    except:
        pass

    # 其他人还在搜
    try:
        items=soup.select("div .result-op .list_1V4Yg a")
        print("其他人还在搜>>>")
        for item in items:
            e_title=item.text
            e_href=parse.urljoin('http://www.baidu.com',item['href'])
            print(e_title,e_href)
    except:
        pass

if __name__ == '__main__':
    word=parse.quote(input('请输入关键字：'))
    pn=int(input("请输入爬取的页数："))
    for i in range(pn):
        print("开始爬取第%d页>>>"%(i+1))
        url=f'http://www.baidu.com/s?wd={word}&pn={i*10}'
        text=getPage(url)
        parsePage(text)
        time.sleep(2)

二、正则表达式实现

import requests
import re
from urllib import parse
import time

def getPage(url):
    try:
        re=requests.get(url)
        re.encoding=re.apparent_encoding
        # with open('02_regex_baidu.html','w',encoding='utf8') as f:
        #     f.write(re.text)
        return re.text
    except:
        print(re.status_code)
def parse_page(html):
    content=re.findall(r'{"?title"?:("|\')(.*?)("|\'),"?url"?:("|\')(.*?)("|\')}',html)
    # baike=re.findall(r'{title:\'(.*?)\',url:\'(.*?)\'}',html)
    # print(content)
    for item in content[:-1]:
        print("{}\n{}".format(item[1],item[4]))
    # 其他人都在搜
    try:
        everybody=re.findall(r'href="(/s.*?oq=)">([-_\w\u2e80-\u9fff]+)',html)
        print("其他人都在搜...")
        for item in everybody:
            e_href=parse.urljoin("http://www.baidu.com",item[0])
            e_title=item[1]
            print(e_title,e_href)

        # 第二种方法
        '''
        everybody2=re.finditer(r'href="(/s.*?oq=)">([-_\w\u2e80-\u9fff]+)',html)
        print("其他人都在搜...")
        for item in everybody2:
            e2_title=item.group(2)
            e2_url=parse.urljoin("http://www.baidu.com",item.group(1))
            print(e2_title,e2_url)
        '''
    except:
        pass

if __name__ == '__main__':
    word=parse.quote(input("请输入关键字："))
    pn=int(input("请输入想爬取的页数："))
    for i in range(pn):
        print("开始爬取第%d页>>>"%(i+1))
        url=f"http://www.baidu.com/s?wd={word}&pn={i*10}"
        html=getPage(url)
        parse_page(html)
        time.sleep(2)

猜你喜欢

转载自blog.csdn.net/KK_2018/article/details/113092634

Python爬虫百度搜索

百度搜索结果爬虫

百度搜索爬虫完善

python 模拟百度搜索

百度搜索

Scrapy爬虫实战：百度搜索找到自己

Python爬虫爬取百度搜索内容接口-xpath

Python爬虫【urllib库模拟百度搜索并保存网页源代码】

python百度搜索url爬取图片

python 抓取百度搜索名称和路径

Python Selenium模拟百度搜索点击

python爬取百度搜索内容链接

python与seo，百度搜索关键词竞争度大小抓取异步爬虫demo

类百度搜索提示

百度搜索 URL 参数

调用百度搜索API

类似百度搜索提示

屏蔽百度搜索热点

1.20 实现百度搜索

模拟百度搜索-1

模仿百度搜索

百度搜索高级用法

百度搜索小技巧

百度搜索语法

百度搜索语法大全

百度搜索接口调用

模拟百度搜索

对百度搜索的看法

百度搜索案例

论百度搜索技巧

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

集成学习——LightGBM原理理解

java复制pdf并且往pdf文件中添加内容

DRF的解析器和渲染器 DRF的解析器和渲染器

pytest以函数形式的测试用例

CSS3 边框

C语言编程经典案例，三种方法求水仙花数（附完整代码）

算法题（313）

css如何让背景透明，文字不透明

linux下网络程序遭遇SIGPIPE的解决（转）

用xposed Hook框架Hook 安卓apk的按钮Id

每日归档

2025-04-13(999)

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)