NLP中kaggle比赛实例《每日新闻对股票市场的预测》基础版 - 代码天地

NLP中kaggle比赛实例《每日新闻对股票市场的预测》基础版

其他 2018-09-12 15:34:32 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/shaoyou223/article/details/79638657

TF-IDF+SVM是文本分类问题的基准线

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import  pandas as pd
import numpy as pd
from sklearn.svm import SVC
from sklearn.metrics import roc_auc_score
from datetime import date

#导入数据
data = pd.read_csv('')
#将headlines合并起来，考虑所有的news
data['combined_news'] = data.filter(regex=('Top.*')).apply(lambda x:''.join(str(x.values)),axis = 1)
#分割测试/训练集
train = data[data['Date']<'2015-01-01']
test = data[data['Date']>'2014-12-31']
#提取特征
feature_extraction = TfidfVectorizer()
X_train = feature_extraction.fit_transform(train['combined_news'].values)
X_test = feature_extraction.transform(test['combined_news'].values)
y_train = train['label'].values
y_test = y_test['label'].values

#训练模型
clf = SVC(probability=True,kernel='rbf')
clf.fit(X_train,y_train)
predictions = clf.predict_proba(X_test)
print('ROC_AUC yieds'+str(roc_auc_score(y_test,predictions[:,1])))

以上代码是七月在线上的代码，主要代码过程包括合并数据，分割训练和测试集，用TfidfVectorizer提取特征，用SVC训练模型。

猜你喜欢

转载自blog.csdn.net/shaoyou223/article/details/79638657

NLP中kaggle比赛实例《每日新闻对股票市场的预测》基础版

NLP中kaggle比赛实例《每日新闻对股票市场的预测》进阶版

LSTM股票市场预测入门

寻找股票市场中的预期差

使用LSTM预测股票市场基于Tensorflow

【数据挖掘】LSTM和RandomForest对于股票市场的预测

解读：ChatGPT在股票市场预测方面的应用

kaggle比赛房屋预测普通版

期货开户市场与股票市场的分别

推荐：利用深度学习和机器学习预测股票市场（附代码）

深度学习与股票市场预测：探索神经网络的力量(含代码)

R语言深度学习实战：股票市场趋势预测

【Python实例第10讲】可视化股票市场结构

JS逆向---多种方法对补环境操作-实例股票市场

深度学习在股票市场的应用

LSTM 应用于股票市场

金融股票市场记录

股票市场分析实战

python股票市场数据探索指北

人工股票市场模型简介

A股市场的市场分类（股票市场简介及历史）

股票市场新闻

每日新闻 | 2024年云服务器出货占市场74%

每日新闻丨苹果联想共占全球移动计算设备市场36%

投资股票与股票市场的基本原理

实战KAGGLE比赛：房价预测

期权市场和股票市场谁的日内涨幅更大?

《动手学深度学习 Pytorch版》 4.10 实战Kaggle比赛：预测比赛

华为云云耀云服务器L实例评测|定时给微信群中推送每日新闻及生活小常识

[USACO09FEB]股票市场Stock Market

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)