英文词频统计

做一个词频统计程序,该程序具有以下功能
基本要求:
(1)可导入任意英文文本文件
(2)统计该英文文件中单词数和各单词出现的频率(次数),并能将单词按字典顺序输出。
(3)将单词及频率写入文件。
 

/**
*author by daisy
*/
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.SortedMap;
import java.util.TreeMap;

public class WordFrequencyCount {
    public static void main(String[] args) throws IOException {
        BufferedReader bufferedReader = new BufferedReader(new FileReader("E:/text.txt"));
        BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter("E:/out.txt"));
        String s;
        while ((s = bufferedReader.readLine()) != null) {
        	//通过键值对的方式去分别存储单词和出现的次数
            Map<String, Integer> map = new TreeMap<String, Integer>();
            //创建一个words数组,将split分割的字符串存入数组
            String[] words = s.split("[【】、.。,\"!--;:?\'\\] ]");
            for (int i = 0; i < words.length; i++) {
            	String key = words[i].toLowerCase();//将所有单词转化为小写
                if (key.length() > 0) {
                	//用containsKey判断map集合对象中是否包含某个字符串
                    if (!map.containsKey(key)) {//如果不包括说明第一次出现,则给频率值赋1;
                    	map.put(key, 1);
                    	} else {// 如果不是第一次出现,就把value值++,那么value值是多少就是出现了几次
                    		int value = map.get(key);//用get(key)获取对应的value值
                    		value++;
                    		map.put(key, value);
                    		}
                    }
                }
            //利用TreeMap实现Comparator接口
            Comparator<Map.Entry<String, Integer>> valueComparator = new Comparator<Map.Entry<String,Integer>>() {
            	public int compare(Map.Entry<String, Integer> o1,Map.Entry<String, Integer> o2) { 
            		return o1.getKey().compareTo(o2.getKey());//降序排序
           		}
            }; 
            //map转换成list进行排序,Entry是Map中的一个静态内部类,用来表示Map中的每个键值对
            //map.EntrySet(),实现了Set接口,里面存放的是键值对.
            List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String,Integer>>(map.entrySet()); 
            // 排序
            Collections.sort(list,valueComparator); 
            System.out.println("-----------------按字典顺序排序如下---------------");
          	for (Map.Entry<String, Integer> entry : list) { 
          		System.out.println(entry.getKey() + "----" + entry.getValue());
           		bufferedWriter.write(entry.getKey()+"----"+entry.getValue()+"\r\n");
           		}
           	}
        bufferedWriter.newLine();
        // 关闭输入输出流
        bufferedReader.close();
        bufferedWriter.close();
    }
}

猜你喜欢

转载自blog.csdn.net/qq_36691353/article/details/82814233