(180911)验证（validation）：数据集的进一步划分避免测试集过拟合---Google机器学习速成课程笔记 - 代码天地

(180911)验证（validation）：数据集的进一步划分避免测试集过拟合---Google机器学习速成课程笔记

其他 2018-10-10 22:10:46 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/lzw2016/article/details/82630924

上次提到了通过划分数据集为训练集和测试集，并不断迭代训练模型，通过测试集对模型进行评估，进而不断调整超参数，来解决过拟合问题。

但是还会出现问题

按数据集分成训练集和测试集不断迭代训练模型的方式，每次迭代时，我们都会对训练数据进行训练并评估测试数据，并以基于测试数据的评估结果为指导来选择和更改各种模型超参数。迭代次数越多，基于给定的该测试集的评估越多，可能会导致模型过拟合该测试集。

总结一下，测试集在不断测试模型是否最佳时，可能会导致模型对测试集数据过拟合。

因为测试集的数据过多的暴露给了模型。解决也很好解决，只要把测试集分离开，不过多的暴露。所以在分离出一部分数据组成验证集，用验证集代替上文的测试集迭代评估模型是否最佳，最后在把效果最佳的模型用于测试集的预测，判断是否最佳。

如图所示的流程
这里写图片描述

另外提几点：

对于任意特征，训练集/验证集值的分布应该差不多
对于原数据集应该打乱之后划分，避免存在一定特定顺序的问题

猜你喜欢

转载自blog.csdn.net/lzw2016/article/details/82630924

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)