Python爬虫获取贴吧中的邮箱 - 代码天地

Python爬虫获取贴吧中的邮箱

编程语言 2018-10-31 06:50:19 阅读次数: 0

最近公司正在谈的项目需要用到爬虫，和经理交流后，经理建议我用Python实现。昨天看了会儿Python基本语法后，在电脑上安装了Python 3.7以及编译器PyCharm。今天参考了网上的代码后，根据网上的代码小做修改，实现了之前用Java写的爬取贴吧帖子中的邮箱。以下为代码：

import  requests
import datetime
import re
def get_email(url):
    content = requests.get(url).text
    pattern = r'[0-9a-zA-Z._]+@[0-9a-zA-Z._]+\.[0-9a-zA-Z._]+' #正则表达式判断邮箱
    p = re.compile(pattern)
    m = p.findall(content)
    email = list(set(m)) #去掉重复邮箱
    count = 0 #邮箱计数
    for mm in  email:
        count = count+1
        print(mm)
    return  count
n = 1  # 页数
amount = 0  # 邮箱计数
start_time = datetime.datetime.now()  # 开始时间
while n <= 10:
    amount = amount + get_email('https://tieba.baidu.com/p/3349997454?pn=' + str(n))
    n = n + 1
end_time = datetime.datetime.now()  # 结束时间
print('获取了' + str(amount) + '个邮箱')
print(str((end_time - start_time).seconds) + '秒')

其中requests包需要自行安装导入，百度一下就可以了，这里不做赘述。效果如图：

可以看到，这里耗时和使用单线程的Java爬虫的耗时是差不多的，但Python的代码显然比Java少了几十行，所以Python还是非常厉害的。

猜你喜欢

转载自blog.csdn.net/wl_Honest/article/details/83544436

Python爬虫获取贴吧中的邮箱

Python贴吧邮箱爬虫

python爬虫获取贴吧图片

python爬虫-贴吧

python3爬虫—实现简单获取贴吧信息

Python爬虫实践：获取百度贴吧内容

Python爬虫--- 1.5 爬虫实践：获取百度贴吧内容

从零开始写Python爬虫 -1.3 爬虫实践：获取百度贴吧内容

python3中运用urllib抓取贴吧的邮箱以及QQ

[python]百度贴吧爬虫

python 爬虫贴吧猫进阶

Python——requests的安装及入门-贴吧爬虫

python爬虫学习之贴吧抓取

Python爬虫开发：贴吧案例

Python爬虫-百度贴吧

使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号

使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号

贴吧爬虫案例

贴吧爬虫

爬虫贴吧

贴吧爬虫入门

Python3爬虫-贴吧爬虫代码

Python3爬虫-贴吧爬虫代码

爬虫-1.5获取百度贴吧内容

Python爬虫获取百度贴吧进行手游评测(生成词云并进行情感分析)

Python爬虫实战：百度贴吧帖子

Python爬虫之百度贴吧

python爬虫四：爬取贴吧数据

python爬虫爬取百度贴吧图片

python爬虫-xpath爬贴吧图片--------------（2）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)