[半监督学习] Teacher-Student Learning Paradigm for Tri-training

模仿现实师生学习过程, 对传统的 Tri-Training 进行改进, 使用自适应师生阈值, 使得伪标签具有更高的质量.

论文地址: Teacher-Student Learning Paradigm for Tri-training: An Efficient Method for Unlabeled Data Exploitation
任务: 情感分析

在现有的半监督学习方法中, 例如: self-training, co-training, tri-training 等, 它们都有一个问题, 即在迭代过程中, 训练数据集噪声水平逐渐增加. 此问题可归因于两个因素:

  1. 静态的标记阈值.
  2. 示例标记迭代的停止时机.

为解决这两个问题, 提出 tri-training with teacher-student 范式. 具体来说, 在每个迭代中, 基于预定义的师生阈值, 建立 double-teacher-single-student 关系, 其中 teacher 通过在未标记数据上生成的代理标签(伪标签)来指导 student. 在教学指导过程中, 师生关系通过自适应的师生阈值不断调整. 师生关系在用完可教示例(伪标签示例)或达到"毕业点"时终止, 此时 student 阈值等于 teacher 阈值.

Teacher Student Tri-training(Tri-TS)算法

同 Tri-Training, 首先从标记数据集 L L L 中用 bootstrap 采样获得三个不同的数据集 S i S_i Si, S j S_j Sj, S k S_k Sk, 这样做的目的是增加多样性, 然后分别训练三个分类器 m i m_i mi, m j m_j mj, m k m_k mk. 对于未标记数据集 U U U 中的示例 x x x, 每个分类器对其的预测结果分别为 c i c_i ci, c j c_j cj, c k c_k ck, 以及对应的概率 p i ( c i ∣ x ) p_i(c_i\vert x) pi(cix), p j ( c j ∣ x ) p_j(c_j\vert x) pj(cjx), p k ( c k ∣ x ) p_k(c_k\vert x) pk(ckx).

与原始 Tri-Training 中为 x x x 分配多数投票标签的策略不同, 在 Teacher-Student 中, 从师生的角度对学习任务进行建模. 在迭代过程中, 如果 p j ( c j ∣ x ) p_j(c_j\vert x) pj(cjx), p k ( c k ∣ x ) p_k(c_k\vert x) pk(ckx) 同时大于 teacher 的阈值 τ t \tau_t τt, 则将 m j m_j mj, m k m_k mk 视作 teacher, 如果另一个分类器 m i m_i mi 的预测概率小于 student 的阈值 τ s \tau_s τs, 则将其视为 student. 未标记样本 x x x 只有在被判别为可被教导(Teachable)后才会被分配一个标签. 选择 Teachable 样本的算法如下所示:
在这里插入图片描述
其标准如下:

  • 分类器 m j m_j mj, m k m_k mk 互相认同对方的分类结果 c k c_k ck, c j c_j cj.
  • 两个 teacher 的预测置信度 p j p_j pj, p k p_k pk 必须同时大于 τ t \tau_t τt, 同时 student 的预测置信度 p i p_i pi 必须小于 τ s \tau_s τs.

完整的 Teacher Student Tri-training 算法如下所示:
在这里插入图片描述

自适应阈值

在 student 接收指导的过程中, 其对于来自 teacher 的知识变得越来越自信, 从这个意义上说, student 阈值 τ s \tau_s τs 在每次迭代中单调增加. 另一方面, 随着 student 在学习过程中的进步, teacher 应该教他们更高级的知识(对于 teacher 来说, 这些知识是其不太自信的示例). 这个想法通过单调降低 teacher 阈值 τ t \tau_t τt 来实现. 如算法 1 中第 10-11 行所示, 选择线性自适应速率来调整阈值 τ t \tau_t τt τ s \tau_s τs.

停止标准

self-labeled 通常在没有可标记样本时停止. 原始 Tri-Training 中引入了一个误差约束, 检查是否已经达到峰值性能. 然而, 误差测量仅在已标记的数据集上进行, 因此只能假设已标记集的分布情况代表了未标记集的分布情况.

在 Teacher Student Tri-training 中, 假设当 student 在迭代中达到与 teacher 相同的信心水平时, 那么 student 就没有什么可以从 teacher 那里学到的东西了. 即在算法 2 中, 当 τ s ≥ τ t \tau_s \geq \tau_t τsτt 时, 将更新的样本添加到 m i m_i mi(学生)的训练集中将不再提升学习效果. 从这个意义上说, 将 τ s ≥ τ t \tau_s \geq \tau_t τsτt 的点称为毕业点, 以便在达到约束时自然停止 tri-training 过程.

猜你喜欢

转载自blog.csdn.net/by6671715/article/details/123181675