项目介绍:
数据集包含了34k+条GeeksforGeeks网站上的文章数据。
数据说明
字段 | 说明 |
---|---|
title | 文章的标题 |
author_id | 文章的作者 |
last_updated | 文章的最后更新日期 |
link | 文章在GeeksforGeeks上的链接 |
category | 文章分类 |
数据来源
数据清洗及概览
import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.naive_bayes import MultinomialNB, ComplementNB, BernoulliNB from sklearn.metrics import brier_score_loss as BS from sklearn.feature_extraction.text import TfidfVectorizer as TFIDF import pyecharts.options as opts from pyecharts.charts import WordCloud,Ta