jsoup基本操作

这里只写我项目中使用较多的

其他以后在补上：

Document html=Jsoup.parse("这里是一个html标准的string");

Document html=Jsoup.parseBodyFragment(html)；对于那些缺标签的文档进行处理

抓取页面的document：

1、Document html=Jsoup.connect(urlSource+username)

.....

.get();或者.post();

2、Document html=Jsoup.parse(这个可以是文件也可以是inputstream, "GBK", 前面这个inputstream的路径);这个可以有编码

解析document文档

getElementsByTag("标签名");返回的是一个element集合

getElementsById("id名");返回一个与之id匹配的element

getElementsByClass("class名");返回的是一个element集合

elements.toArray();//将一个element集合转为数组

element.attr("标签内的属性名");//得到这个属性的值

element.text();//将element转为string

element.toString();//将element转为string，与上面那个区别在于上一个没带上html标签

element.select();//强大的选择器用法和jq的类似

例如:

select("a[href]");

select("img[src$=.png]");img标签中src的后缀为.png的元素

select("input#ppx");id为ppx的input标签

select("input.ppx").first();class为ppx的第一个input标签、

select("div.content > p ")//class为content的div下的孩子节点

设置和移除属性值

doc.select("div.ppx a").attr("name", "ppx");//为前面所选的所有元素添加标签

doc.select("div.comments a").removeClass("rel");移除该class

doc.select("div.comments a").attr("rel", "nofollow").addClass(".sdf");支持连接操作同时加上class标记

最后jsoup的clean其实就帮你写好的一个富文本编辑器内容过滤器防xss注入（功能基本满足需求）