네트워크가 증가함에 따라 전통적인 다층 네트워크 구조의 비선형 표현은 아이덴티티 매핑을 표현하기 어렵고 모델이 네트워크 저하 문제를 겪는 이유는 무엇입니까? 아이덴티티 매핑이란 무엇입니까? !

여기에 이미지 설명을 삽입하세요.


1. ID 매핑이란 무엇입니까?

ID 매핑은 입력과 출력 간의 정확히 동일한 매핑 관계, 즉 y=x를 나타냅니다. 비선형 변환이 없는 선형 함수입니다.

심층신경망의 각 계층은 ReLU 함수 등 비선형 활성화 함수를 가지고 있습니다. 이렇게 하면 深层网络很难精确学习到一个恒等映射이 됩니다.

이유는 다음과 같습니다.

  1. 각 레이어의 비선형 활성화는 입력 신호에 대해 어느 정도의 비선형 변환을 수행합니다. 레이어 수가 증가함에 따라 이 비선형 변환이 누적되어 복원이 어려워집니다完全抵消 입력의 원래 모습으로 출력됩니다.

  2. 심층 네트워크表达能力很强,容易过拟合의 경우 학습된 기능은 단순한 ID 매핑보다 더 복잡할 수 있습니다.

이상随着层数增加,深层网络很难学习到一个线性恒等映射函数,往往会出现网络退化的问题,即某些时候深层网络的性能不如浅层网络.

2. 심층 신경망의 경우 ID 매핑을 유지할 필요가 없습니다.

심층 신경망의 경우 ID 매핑을 유지하세요并不是必需的, 특히 处理复杂的任务时에서. 심층 신경망의 주요 목적은 多层非线性变换을 통해 입력 데이터의 高级抽象表示或特征를 학습하여 특정 학습 작업을 더 잘 해결하는 것입니다.

그러나在一些情况下,恒等映射是必需的. ID 매핑은 입력과 출력이 정확히 동일하다는 것을 의미합니다. 즉, 네트워크는 입력에 대해 어떤 변환도 수행하지 않습니다. 일부 작업에서는 이미지 노이즈 제거/복원 작업과 같이 입력 콘텐츠 자체가 대상 출력이 되는 등 아이덴티티 매핑이 원하는 결과일 수 있습니다.输出图像与输入图像尽量相同

또한 ID 매핑이 도입되었습니다主要解决网络退化问题. 네트워크 계층 수가 증가함에 따라 非线性变换可能使得网络性能下降 그러나 ID 매핑을 도입하면 在一定程度上保留输入的信息 가능하므로 减轻梯度消失和梯度爆炸的问题 네트워크를 통해 더욱 효과적으로 훈련할 수 있습니다.

3. ID 매핑은 네트워크의 일부 중요한 속성을 평가하고 분석하기 위한 간단한 벤치마크 작업으로 사용될 수 있습니다.

  1. 用来测试网络是否过拟合: 매우 깊은 네트워크가 간단한 데이터 세트(예: ID 매핑 데이터 세트)에서 제대로 작동하지 않는 경우 더 복잡한 패턴을 과적합하여 간단한 패턴을 학습하는 능력을 상실했을 수 있습니다.

  2. 用来分析网络表达能力是否随层数增加而退化: 네트워크가 ID 매핑을 학습할 수 없는 경우 레이어 수가 증가함에 따라 특징 추출 및 모델 모델링 기능이 감소할 수 있습니다.

  3. 用来测试优化算法是否有效: 네트워크가 훈련을 통해 ID 매핑과 같은 간단한 기능을 학습할 수 없다면 네트워크 구조나 최적화 알고리즘에 문제가 있을 수 있습니다.

  4. 恒等映射是一个基础的线性模型네트워크가 이를 학습할 수 없다면 이는 네트워크의 선형 및 비선형 패턴 학습 능력을 더욱 향상시켜야 함을 나타냅니다.


추천

출처blog.csdn.net/qlkaicx/article/details/135025225