java基础：12.4 web爬虫 - 代码天地

java基础：12.4 web爬虫

其他 2019-01-27 01:57:21 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/L20902/article/details/86499469

跟随超链接来自动遍历Web.

package day11;
import java.util.ArrayList;
import java.util.Scanner;
public class WebCrawler {
	public static void main(String[] args) {
		Scanner input = new Scanner(System.in);
		System.out.println("enter a URL(such as:http://wwww.xxxx.com):");
		String url = input.nextLine();
		crawler(url);
	}
	
	public static void crawler(String startingURL) {
		ArrayList<String> listOfPendingURLs = new ArrayList<>();
		ArrayList<String> listOfTraversedURLs = new ArrayList<>();
		listOfPendingURLs.add(startingURL) ;
		int i= 0;
		while (!listOfPendingURLs.isEmpty() &&   //is.Empty() :empty return true
				listOfTraversedURLs.size() <= 100) {
			String urlString = listOfPendingURLs.remove(0);  // remove the first url
			if (!listOfTraversedURLs.contains(urlString)) {
				listOfTraversedURLs.add(urlString);
				System.out.println("Crawl " + ++i + "  "+urlString);
				
				for (String s: getSubURLs(urlString)) {
					if (!listOfTraversedURLs.contains(s))
						listOfPendingURLs.add (s);
				}
			}
		}
	}
	
	public static ArrayList<String> getSubURLs(String urlString) {
		ArrayList<String> list = new ArrayList<>() ;
		
		try {
			java.net.URL url = new java.net.URL(urlString);
			Scanner input = new Scanner(url.openStream());
			int current = 0;
			while(input.hasNext()) {
				String line = input.nextLine();
				current = line.indexOf("http:",current);
				while (current > 0) {
					int endIndex = line.indexOf("\"",current);
				    if (endIndex > 0 ) {
				    	list.add(line.substring(current,endIndex));
				    	current = line.indexOf("http:",endIndex);
				    }
				    else 
				    	current = -1;
				}
			}
		}
		catch (Exception ex) {
			System.out.println("error:" + ex.getMessage());
		}
		
		return list;
	}
}

猜你喜欢

转载自blog.csdn.net/L20902/article/details/86499469

java基础：12.4 web爬虫

爬虫开发web前端基础

[Java] 网络爬虫(Web Crawler)

java语言实现的WEB爬虫平台

Web 爬虫 Apache Nutch 1.15 发布，支持 Java 10

12.4

web爬虫

Java网络爬虫基础

Java基础:爬虫

【Java web基础】JDBC基础

JAVA Web基础1

java Web基础

Java Web基础总结

Java web application——基础

JAVA WEB基础简记

JAVA WEB Servlet 基础

Java Web基础-JQuery

Java Web前端基础

Java Web前端基础

java web基础回顾

Java Web基础 - Servlet

Java Web——JSP基础

2018 Python 零基础开发爬虫 web技术 200G资源分享！

web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础

网络爬虫基础教程 Web scraping using Beautiful soup in Python: An introduction

java爬虫的selenium基础使用

Java版网络爬虫基础

基于WEB的英语考试信息搜索引擎(爬虫)，java网站毕业设计

Java动态爬虫自动化测试系统（selenium+web Magic）

[Java爬虫HttpClient_Demo2模拟浏览器并抓取Web图片]

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)