最最最简单的URL聚类

我们要发现一个富文本中的http链接,发现一些群体行为,获取URL

第一步:提取http链接

使用 Jsoup 来做
        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link 就是链接
            println(link)
        }



第二步:提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki,apache,org,confluence,display,mahout


第三部:聚类

参考 一个基于Mahout与hadoop的聚类搭建

不要分词了,因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了

聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的

不要期望太多

猜你喜欢

转载自beneo.iteye.com/blog/1179355
今日推荐