利用正则表达式爬取HTML页面内容 - 代码天地

利用正则表达式爬取HTML页面内容

其他 2019-03-29 14:45:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/fzuzhanghao1993/article/details/85072624

闲来使用正则表达式做了一个HTML页面的数据爬虫，主要是根据页面规则去匹配相应字段内容，记录一下。

利用HttpGet获取页面内容，使用pattern获取匹配内容

CloseableHttpClient client = HttpClientBuilder.create().build();
        long t = new Date().getTime();
        for (int i = 1; i <= max; i++) {
            String uri = "http:///xxx.com/xxx/PG(?)tok=" + t;
            uri = uri.replaceAll("(?)",i+"");
            HttpGet hget = new HttpGet(uri);
            hget.addHeader(HttpHeaders.ACCEPT, "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8");
            hget.addHeader(HttpHeaders.USER_AGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");
            CloseableHttpResponse response = client.execute(hget);
            String bodyAsString = EntityUtils.toString(response.getEntity());
            StringBuffer ori = new StringBuffer(bodyAsString);
            if (ori.length() > 0) {
            //获取指定a标签内链接内容以及随后的图片内容
                Pattern pattern = Pattern.compile("<a onclick=\"[^\"]*\"\\starget=\"_blank\"\\shref='([^']*)'>[\\s]*<img src=\"([^\"]*)");
                Matcher matcher = pattern.matcher(ori.toString());
                List<String> content = new ArrayList<>();
                while (matcher.find()) {
                    String tmp = matcher.group(1);
                    String msg = matcher.group(2);
                     System.out.println(tmp +":"+msg );
                 }
                    }else{
                        continue;
                    }

                }
            }
            try {
                Thread.sleep(30000);//休息30s
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }

随后附上获取某标题后内容（常用）

Pattern adminPricePattr = Pattern.compile("姓 名 ：</span>[^>]*([^<]*)");

猜你喜欢

转载自blog.csdn.net/fzuzhanghao1993/article/details/85072624

利用正则表达式爬取HTML页面内容

使用正则表达式爬取内容

利用正则表达式处理爬取的今日头条内容数据（Python爬虫数据清洗）

利用正则表达式和Request库爬取知乎发现页面的标题部分

利用Matlab正则表达式爬取网页数据

利用requests库和正则表达式爬取猫眼电影

利用Requests库和正则表达式爬取豆瓣影评Top250

Python 利用BeautifulSoup和正则表达式来爬取旅游网数据

Python爬虫-利用正则表达式爬取猫眼电影

python-对豆瓣的top250的爬取(利用正则表达式)

爬取猫眼电影榜单Top100—利用requests、正则表达式

利用正则表达式爬取猫眼电影TOP100信息

利用requests和正则表达式爬取猫眼Top250电影

爬虫实战——利用正则表达式爬取古诗文网

利用正则表达式爬取官网数据及反反爬虫方法分析

python 正则表达式爬取新闻详情页面

Python +正则表达式爬取豆瓣页面邮箱

Selenium+python --使用正则表达式爬取页面的URL链接

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

Requests + 正则表达式爬取猫眼电影

正则表达式爬取猫眼电影

requests正则表达式爬取猫眼电影

python正则表达式爬取猫眼电影

正则表达式爬取猫眼电影100

python爬取准备二正则表达式

re 正则表达式爬取网站标题

正则表达式爬取网页实战

利用正则表达式进行爬取数据以及正则表达式的一些使用方法

正则表达式过滤html注释内容

利用正则表达式去除html标签

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)