词频统计(python)

一、程序分析

  1.读文件到缓冲区

def process_file(dst):     # 读文件到缓冲区
try: # 打开文件
file1 = open(dst, "r")
except IOError as s:
print(s)
return None
try: # 读文件到缓冲区
bvffer = file1.read()
except:
print("Read File Error!")
return None
file1.close()
return bvffer
2.处理缓冲区 bvffer的文件,统计每个单词的频率,存放在字典word_freq
def process_buffer(bvffer):
if bvffer:
word_freq = {}
# 下面添加处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq
for i in '!"#$%&()*+-,-./:;<=>?@“”[\\]^_{|}~':
bvffer = bvffer.replace(i, " ") # 替换特殊字符
bvffer = bvffer.lower() # 把大写字母转换为小写
words = bvffer.split() # 分割字符串
for word in words:
word_freq[word] = word_freq.get(word, 0)+1
return word_freq
3.用输出函数将处理好的单词按词频排序,输出词频Top10 的单词
def output_result(word_freq):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print("%-5s %d " % (item[0], item[1]))

4.设立主函数,用于测试
def main():
parser = argparse.ArgumentParser()
parser.add_argument('dst')
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffer(bvffer)
output_result(word_freq)


5.cProfile对代码性能进行测试
if __name__ == "__main__":
import cProfile
import pstats
import argparse
cProfile.run("main()", "result")
# 直接把分析结果打印到控制台
p = pstats.Stats("result") # 创建Stats对象
p.sort_stats('calls').print_stats(10)
# 按照调用次数排序,打印前10函数的信息
p.strip_dirs().sort_stats("cumulative", "name").print_stats(10)
p.strip_dirs().sort_stats("cumulative").print_stats() # 按执行时间次数排序
p.print_callers(0.5, "process_file") # 得知哪些函数调用了process_file
p.print_callers(0.5, "process_buffer")
p.print_callers(0.5, "output_result")

二、代码风格

缩进

使用 4 个空格进行缩进

def process_buffer(bvffer):
if bvffer:
word_freq = {}

空格

在二元运算符两边各空一格[=,-,+=,==,>,in,is not, and]

bvffer = file1.read()

三、程序运行命令、运行结果截图 

1.对Gone_with_the_wind.txt进行词频统计

2.对A_Tale_of_Two_Cities.txt进行词频统计

 四、性能分析结果及改进

        为了更明显的看出差异,选择对Gone_with_the_wind.txt进行分析和改进

       1.性能分析

         (1)总运行时间

                    

          (2)执行时间、次数最多的部分代码

                    

                    

                   根据数据可以看出,如果除去函数中调用子函数的运行时间,执行次数最多且执行时间最多的代码是

         for word in words:
word_freq[word] = word_freq.get(word, 0)+1           

       2.代码改进

           根据测试结果,最耗时间和次数最多的代码并不方便修改,我就从耗费时间第二多的replace 以及 split代码入手,

           将原来的代码:            

        for i in '!"#$%&()*+-,-./:;<=>?@“”[\\]^_{|}~':
bvffer = bvffer.replace(i, " ") # 替换特殊字符
bvffer = bvffer.lower() # 把大写字母转换为小写
words = bvffer.split() # 分割字符串

             变为:           

         words = bvffer.lower().strip().split()

             结果如下:

               

            运行时间:

               

             结果:比之前的0.669快了0.09秒,对于计算计而言已经算是非常漫长的时间了,在实验过程中我发现当我的电脑处于“繁忙”状态时,运行的总时间是0.97左右,有时候甚至高于1秒,当我把不用的软件关掉时,时间就会缩短,可见电脑性能也会影响实验结果

    

              

              

 

猜你喜欢

转载自www.cnblogs.com/vahala/p/9745915.html