《NLTK基础教程》读书笔记 005期

纽约时报的内容网上找了半天没有一模一样的,不过有一个意思至少还过得去,在这里附上链接:
https://www.huffingtonpost.com/2015/05/18/obama-military-equipment-police_n_7304504.html
这个网页上有一个违法字符ñ,直接改成n就好了,要不然在读入的时候可能会报错,另外最好把该网站的单双引号都用英文再敲一遍。

然后就是因为版本的问题,可能会遇到下面这个报错

NotImplementedError: Use label() to access a node label.

参考网页:https://blog.csdn.net/LIUSHAO123456789/article/details/79473514
将代码的这一部分改成如下:

no_of_ners = len([chunk for chunk in ners if hasattr(chunk, 'label')])

大概是取消了node,而变成了label的缘故吧。


直接打一段长文字,真的恶心,这里放上找到的该书英文pdf链接
https://universalflowuniversity.com/Books/Computer%20Programming/Machine%20Learning%20and%20Deep%20Learning/NLTK%20Essentials_%20Build%20cool%20NLP%20and%20machine%20learning%20applications%20using%20NLTK%20and%20other%20Python%20libraries.pdf


注意在sklearn的样例代码中,norm是l2,不是12。然后有一个很明显的打印多了一个count。

这个样例测试完之后也可以考虑自己找一些新闻,或者试试中文的也行,看编写的情况。

猜你喜欢

转载自blog.csdn.net/bright_silmarillion/article/details/80988234