Datawhale_day3 - 代码天地

Datawhale_day3

其他 2020-08-05 16:06:23 阅读次数: 0

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
import os
import pandas as pd

data_set = os.path.join(os.getcwd(), "数据集\\train_set.csv\\train_set.csv")
train_df = pd.read_csv(data_set, sep='\t', nrows=15000)


def Count_Vector():
    vectorizer = CountVectorizer(max_features=3000)
    train_test = vectorizer.fit_transform(train_df['text'])

    clf = RidgeClassifier()
    clf.fit(train_test[:10000], train_df['label'].values[:10000])

    val_pred = clf.predict(train_test[10000:])
    print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))


def TF_IDF():
    tfidf = TfidfVectorizer(ngram_range=(1, 3), max_features=3000)
    train_test = tfidf.fit_transform(train_df['text'])

    clf = RidgeClassifier()
    clf.fit(train_test[:10000], train_df['label'].values[:10000])

    val_pred = clf.predict(train_test[10000:])
    print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))


if __name__ == '__main__':
    Count_Vector()
    TF_IDF()

猜你喜欢

转载自blog.csdn.net/qq_38890412/article/details/107580464

Datawhale_day3

Datawhale_day4

Datawhale_day2

Datawhale_day1

Datawhale-Python基础-Day3-基础（续）

Datawhale leetcode day3 NO_441. 排列硬币

datawhale python Day1

Day 3【Datawhale】爬虫入门学习——实战一抓取豆瓣Top250电影信息

Datawhale-初级算法梳理-Day3-决策树算法梳理

datawhale算法与数据结构（上）day3-栈与递归

Datawhale | 高级算法（3）——XGBoost

Day4-SQL集合运算(Datawhale)

Datawhale学习笔记Day01

DataWhale

Datawhale-爬虫-Task3(beautifulsoup)

【datawhale】学习小组打卡博客3

天池&DataWhale：task3 特征工程

DataWhale（numpy）：task3 数组操作

Datawhale17期-task3

Datawhale day05 任务五反转字符串

Day 4【Datawhale】爬虫入门学习——学习BeautifulSoup

Day 1【Datawhale】爬虫入门学习——GET与POST请求

Datawhale-Python基础-Day5-常用模块

Datawhale-Python基础-Day4-函数

Datawhale-Python基础-Day2-基础

Datawhale-Python基础-Day1-Python初体验

Day 5【Datawhale】爬虫入门学习——XPath学习

Datawhale leetcode day5 NO_455.分发饼干

datawhale数据竞赛day02-数据清洗

datawhale数据竞赛day01-认识数据

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)