使用HuggingFace做一个简单的情感分析模型 - 代码天地

使用HuggingFace做一个简单的情感分析模型

企业开发 2023-04-06 15:34:32 阅读次数: 0

HuggingFace简明教程,BERT中文模型实战示例.NLP预训练模型,Transformers类库,datasets类库快速入门._哔哩哔哩_bilibili


# pip install datasets
# 加载数据集
from datasets import load_dataset
raw_datasets = load_dataset("glue", "mrpc")


# pip install transformers
# tokenizer操作
from transformers import AutoTokenizer
checkpoint = 'bert-base-uncased'
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


# 高效数据预处理
def tokenize_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)


# 相当于dataloaders，一次选择batch_size个数据
from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer)

# 去掉前几列没有用的数据列
samples = tokenized_datasets["train"][:8]
samples = {k:v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}

batch = data_collator(samples)


import numpy as np
from datasets import load_metric

def compute_metrics(eval_pred):
    metric = load_metric("glue", "mrpc")
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)


from transformers import TrainingArguments
from transformers import AutoModelForSequenceClassification
from transformers import Trainer


traing_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

trainer = Trainer(
    model,
    traing_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

trainer.train()
predictions = trainer.predict(tokenized_datasets["validation"])

猜你喜欢

转载自blog.csdn.net/weixin_43135178/article/details/129597954

使用HuggingFace做一个简单的情感分析模型

实现python一个简单的文本情感分析

使用NSURLSession简单做一个上传图片的方法

使用beautifulsoup做一个简单的网络爬虫

使用Android studio做一个简单的网站APP

使用koa做一个简单的接口及获取数据

使用JS做一个简单的时钟

unity使用Animator做一个简单的动画

Java：使用动态代理做一个简单的AOP

如何使用Apifox做一个简单的接口测试

做一个简单的scrapy爬虫

做一个简单的注册功能

做一个简单的登录功能

简单做一个堡垒机

做一个简单的拍照APP

redux做一个简单的todolist

凌擀手作简单分析做一个面包店需要多少费用？

【Huggingface系列学习】Finetuning一个预训练模型

一个 tflearn 情感分析小例子

android使用贝塞尔曲线做一个简单的玩意

基于python使用qqbot接入qq做一个简单的文字消息自动回复

使用application内置对象做一个简单的网页访问计数器

使用Vue自己做一个简单的MarkDown在线编辑器

使用Vue.js和Element-UI做一个简单的登录页面

使用Vue做一个简单的todo应用的三种方式的示例代码

20190318-使用类做一个简单的图书馆管理系统

Django做一个简单的博客系统(4)----使用Markdown语法书写文章

ng-做一个简单的通讯录--学习使用路由和HTTP

Vue小白踩坑使用vue做一个简单的todo list

使用Node.js做一个简单的图片上传web

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)