Do Deep Nets Really Need to be Deep?

其他 2021-11-20 08:25:39 阅读次数: 0

文章目录

Annotation
Introduction
- The subjects
Experiment
- Result
- - Structure
Reference

Annotation

DN----Deep Net
SN----Shallow Net

Introduction

Theme: 用一个SN去模拟DN可不可以达到较好的效果？

思考：DN的效果为什么比SN好？
可能原因：1、DN参数多。2、DN层数多。3、卷积操作可以学到一些特殊的特征。4、目前的学习算法和正则化过程对DN更加有效。5、All of above 或者 None of above.

作者在文中给出了一个判断网络深度是否合适的方法，如果一个SN 和一个DN 拥有相同的参数规模，并且SN可以有很接近DN的结果，那么当前任务就不需要那么深的网络。

The subjects

TIMIT

Experiment

SoftMax 的输入为 logits，输出为 probability，训练SN时用logits.
原因：probability 给出的是softMax对目标的给分（如（0.01, 0.01, 0.98）），同一个对象的不同组给的分数差异很大，容易让SN忽略小分数。
Loss函数：

其中， $x^{(t)}$ 代表输入特征， $z^{(t)}$ 代表logits， $W$ 是输入与隐藏层的权重， $\beta$ 是隐藏层与输出之间的权重， $g(x^{(t)}; W; \beta )=\beta f(Wx^{(t)})$ 是第 $t$ 个训练点的预测。

为了限制通过网络的信息流和有效参数的数量，分解权重矩阵 $W\in R^{h\times d}$ 为 $W=U\times V$ ,得：

Result

在这里插入图片描述
PER: phone error rate

Structure

在这里插入图片描述

Reference

参考博客
 论文地址

猜你喜欢

转载自blog.csdn.net/Goodlick/article/details/108254930

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)