1.4 数据标注

1.4 数据标注

1. 数据标注流程

  • 是否有足够多的标注
    • 是:小模型可以半监督学习
    • 否:足够费用
      • 是:众包,付费标注
      • 否:弱标注

在这里插入图片描述

2 半监督学习 SSL

主要适用于数据集中只有小部分有数据标注,很大一部分没有数据标注。

比如在淘宝推荐场景中,只有少部分用户浏览并购买了商品,但是大部分用户只是浏览了商品,并没有做其他任何事,也就是相当于只有少部分数据有反馈有标注,其他都没有标注。

想要把标注过的数据和未被标注过的数据一起使用来训练模型,这就是半监督学习,但是使用的前提是有一些假设:

  • 连续性假设:如果两个数据具有相似的特征,假设这两个数据有相同的标注
  • 聚类假设:数据可以分为很多簇,堆,同一个簇里面的数据具有相同的标注
  • 流型假设:数据真实的维度可能比显现出来的维度低,通过降维来处理。

3 自学习

流程:标注数据–>训练–>模型–>伪标注数–>数据整合

未标注数据–>模型

注:1. 可以选择比较昂贵的模型,保持高置信度,不会在线

猜你喜欢

转载自blog.csdn.net/ch_ccc/article/details/129877358
1.4