새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

https://www.toutiao.com/a6692998683081835012/

 

최근 많은 연구는 신경 네트워크를 비교하여 신경망 표현의 행동을 이해하려고했습니다. 유사성 지표로 중심 커널 정렬 (CKA)을 소개하고, CKA, 선형 회귀, 정준 상관 분석 (CCA) 및 기타 관련 방법, 증거 CKA 사이의 관계를 분석하는 새로운 연구 구글 뇌 사이먼 Kornblith, 제프리 힌튼, 다른 유사한 인덱스보다.

기계 학습에 많은 작업에서, 신경 네트워크는 자동으로 데이터의 강력한 기능 표현의 깊이를 배울 수 있습니다. 신경망의 깊이에도 불구하고 다양한 작업에 인상적인 진전을 이루었습니다,하지만 어떻게 적절하게 연구되지 나타 내기 위해 이해하고 데이터로부터 학습 신경망을 설명 할 수 있습니다. 이전의 연구 (예를 들어, 아드 바니 및 작센 (2017) 등을위한 아마리. (2018), 작센 외. (2013)) 동적 신경망 훈련 과정의 이론적 이해 일부 진전. 매우 깊은하지만 훈련 및 구조화 된 데이터의 역동적 인 과정 사이의 복잡한 상호 작용을 무시하기 때문에이 연구는 있지만, 기본적인 한계가있다. 사실, 신경 네트워크가 손실 함수에 비해 기계 학습 알고리즘과 데이터 사이의 상호 작용에 대한 자세한 정보를 제공 할 것이라고 말했다.

이 논문은 문제의 유사성을 나타내는 신경망의 깊이를 측정 할 수있는 구글의 뇌를 연구합니다. (1) 동일한 아키텍처 다른 임의 초기화 GET 교육을 기반으로 신경망의 깊이가 유사한 표현 여부를 배울 : 그것은 포함하여 많은 흥미로운 질문, 답변 도움이 될 수 유사성을 측정 할 수있는 효과적인 방법을 나타냅니다? 다른 뉴럴 네트워크 아키텍처의 다양한 층 사이의 대응 관계를 확립 (2) 가능성? (3) 서로 다른 데이터 표현에서 같은 신경 네트워크 아키텍처는 방법과 유사한 학습에 초점을?

이 논문의 주요 공헌은 다음과 같습니다 :

  • 불변성은 설명과 그 효과 유사성 지수 신경망 유사성의 측정을 나타낸다.
  • 유사도의 지표로서 커널 중심 정렬 (CKA)를 ​​도입하고, CKA, 회귀, 상관 관계 표준 분석 (CCA) 및 다른 관련 방법 사이의 관계를 분석한다.
  • CKA 다른 임의의 초기화와 폭이 다른 훈련 은닉층 신경망 사이의 대응 관계에 기초하여 결정할 수있는 증명 이전 시나리오에서 제안 된 유사 지수는 적용되지 않는다.
  • 포화 유사도보다 쉽게 ​​전방 및 후방 층의 더 유사 층을 알아 넓은 네트워크를 확인. 이 연구는 유사한 표현에 학습에 집중하는 대신 데이터의 다른 레이어에서 이전 층의 신경 네트워크를 보여줍니다.

 

문제 설명

주문 X∈R ^ (P_1 × N) 신경 활성화 P_1 않음 매트릭스 시료를 나타내고 Y∈R ^ (N P_2를 ×) P_2 뉴런이 활성화 된 매트릭스의 동일 N 개의 샘플을 나타낸다. 행렬의 각 열이 미리 행렬이 제로 평균되었음을 가정한다. 일반성을 잃지의 경우, 우리는 p_1≤p_2을 가정합니다.

시각화 및 다른 요인 깊이 연구의 효과를 이해하기 위하여, 연구자들은 설계 신경망 신경망 비교기 사이의 유사도를 나타내는 데 사용될 수있는 스칼라 유사 지수 (S) (X, Y)를 분석 하였다.

论文 : 신경망 표현 재 방문의 유사성

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

논문 주소 : HTTPS를 : //arxiv.org/pdf/1905.00414.pdf를

최근의 몇몇 작품은 층 사이에 표시하여 신경 네트워크의 동작을 이해하고 다양한 교육 모델 사이의 비교하려고합니다. 정준 상관 분석을 바탕 종이 연구가 (CCA) 비교는 신경 네트워크에 의해 표현되는, 다 변수 통계 방법의 클래스 유사도 측정 속하는 증거 CCA 있지만 가역 CCA 다른 불변 선형 변환은 통계적 방법은 높은 치수를 측정 할 수없는 포함 표현에서 데이터 포인트의 수 간의 유사성.

본 연구는 유사성 행렬 사이의 관계를 나타내는 측정하고 그래서 상기 제한없는 유사 인덱스를 설명한다. 유사성 지수는 커널 중심 정렬 (CKA)에 상당하고, 또한 CCA 밀접한 관련이있다. CCA 달리 CKA 확실 얻어진 다른 초기화 훈련 학습의 표현 사이의 대응 관계에 기초하여 식별 될 수있다.

불변의 유사성 지수는 어떤 용어의 변환을위한?

불변 유사도 지수 신경망을 측정하는 유사성의 영향이 매우 중요 나타낸다. 연구 유사성 신경망 훈련 직관적 개념의 동적 처리는 등방성 직교 변환 및 스케일링 (등방성 스케일링)의 유사 지수 필요하다고 제안 상수 및 선형 변환 가역 아니다.

상대적으로 유사한 구조 (비슷한 구조)

(이러한 회귀 분석과 같은) 두 개의 다 변수 표현을 특징으로하는 샘플과 직접 비교는 상이한, 본 연구의 주요 점은 첫째 각 각 샘플의 표현 및 유사한 비교 유사도를 측정했다 구조. 신경에서, 샘플 매트릭스 사이의 유사도는 유사도 특성화 행렬이라고 나타낸다 (Kriegeskorte 외., 2008A). 이하 제품 유사성의 측정 값이 사용되는 경우, 유사 매트릭스 간의 유사성의 특성이 유사한 특성의 다른 쌍 직관적 개념을 간략화 할 수 있다는 것을 증명했다.

내적의 유사성을 기준으로합니다. 다음은 내적 샘플 기능의 점 사이의 상관 관계의 생성물 간단한 공식이다 :

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

힐버트 - 슈미트 독립성 기준 (HSIC). (1) X와 Y는 0 평균을위한 방정식으로부터 도출 될 수있다 :

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

따라서 K와 L 두 커널이다 K_ij = K (x_i로부터, x_j) L_ij = L (y_i, y_j). HSIC 경험 추정치는 다음과 같습니다

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

중심 커널 정렬. HSIC는 등방성 스케일링 불변성을 가지고 있지만, 불변성을 정규화 할 수 없습니다. 정상화라는 중심 커널 정렬 후 표시 (코르테스 등, 2012; Cristianini 등 2002 ..) :

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

관련 유사성 지수

뉴럴 네트워크 사이의 유사도의 맥락에서 측정 연구자 선형 회귀, 상관 관계 표준 및 관련 방법 고찰을 나타낸다. 표 1은 실험 지표 그들의 불변에 사용되는 수식을 요약 한 것이다.

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

표 1 : 다양한 유사성 메트릭들의 요약.

Q_X 和 Q_Y 分别是 X 和 Y 的正交基。U_X 和 U_Y 分别是对 X 和 Y 做奇异值分解后按奇异值降序排列的左奇异向量。|| · ||∗ 表示核范数。T_X 和 T_Y 是截断单位矩阵,利用 T_X 和 T_Y 选出的 X 和 Y 的左奇异向量可以使累积方差达到某个阈值。

线性回归。线性回归是关联神经网络表示的一种简单方法。它可以将 Y 中的每个特征拟合为 X 中特征的线性组合。一个合适的汇总统计量是该拟合所能解释的方差比例:

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

典型相关分析(CCA)。典型相关分析是求两个矩阵的基,使得当原矩阵被投影到这些基上时,相关性最大。对于 1≤i≤p_1,第 i 个典型相关系数ρ_i 由下式给出:

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

SVCCA.当 X 或 Y 的条件数很大时,CCA 对扰动敏感。为了提高鲁棒性,奇异向量 CCA 方法 (singular vector CCA, SVCCA) 对 X 和 Y 的奇异值分解截断后使用 CCA。

Projection-Weighted CCA. Morcos 等人 (2018) 提出了一种不同的策略来降低 CCA 对扰动的敏感性,他们称这种方法为「投影加权典型相关分析」(PWCCA):

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

结论

该研究首先研究了一种基于 All-CNN-C 的类 VGG 卷积网络。图 2 和表 2 说明只有 CKA 方法通过了完整性检查,而其他方法则表现得很差。

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

图 2:CKA 揭示了基于不同随机初始化训练的 CNN 的不同层之间的一致关系,而 CCA、线性回归和 SVCCA 则无法揭示这种关系。

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

表 2:不同方法基于最大相似性识别基于不同初始化训练的 10 个结构相同的 10 层 CNN 网络中对应层的准确率,其中排除了 logits 层。

CKA 可以揭示神经网络表示中的异常。图 3 展示了具有不同深度的卷积网络各层之间的 CKA,其中卷积网络的各层分别重复 2、4 和 8 次。从中可以看出,深度加倍可以提高准确率,但是深度增加太多反而会降低准确率。

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

그림 3 : CKA 계시 이상 깊이 너무 깊이 신경 네트워크가 나타나는 것이라고 말했다입니다. 탑 : 선형 CKA CIFAR-10에 대한 교육 네트워크의 다른 레이어 사이의 깊이. 각 패널의 제목은 각 네트워크의 정확성을 나타낸다. 뉴럴 네트워크 층의 8 배의 깊이 후 마지막 층과 유사하다. 아래 : 같은 신경 네트워크의 계층에 대한 합의는 로지스틱 회귀 분류의 정확성과 CKA을 훈련했다.

CKA는 숙련 된 네트워크에 서로 다른 데이터 세트를 비교하는 데 사용할 수 있습니다. 도 7에 숙련 전방 CIFAR-100 모델에 CIFAR 층 및 10에서 생성 된 유사한 표현을 나타낸다. 이 훈련의 필요성을 표명, 그들은 훈련받지 않은 네트워크의 표현 사이에 발생하는 낮은 유사성을 많이 나타냅니다.

 

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

도 7 : CKA는 훈련되지 의해 표현 모델에 의해 발생 된 큰 차이를 나타내는 훈련 데이터 세트는 상이한 모델 (CIFAR-10 CIFAR-100)의 제조와 유사한 표현을 나타낸다. 오른쪽 열에 CIFAR-100 테스트 세트의 유사도를 나타내고있다 왼쪽 패널은, 동일 층의 다른 모델 사이 CIFAR-10 테스트 세트의 유사도를 나타낸다. CKA 모델의 각 유형 (45쌍)의 (10)의 평균이다.

방법이 아닌 하나의 숫자로 요약 RSM 유사성을하지 않고,보다 완벽한 측정 결과 정보 CKA를 제공하기 때문에 시각적 인 관점에서 RSM 방법은 요약 통계 CKA보다 더 유용합니다. 도 8은 롤과 유사한 많은 특징 벡터, 및 XX YY ^ T ^ T를 들어 도시하지만 너무 멀리 활성화 함수 아래 부분 공간 차원의 설립 랭크.

 

새로운 연구 힌튼 등 : 가장 유사성을 나타내는 신경망을 측정하는 방법

 

도 8 : 10 주로 고유 벡터에 대응하는 최대 고유의 공유 부분 공간 두 층 신경망 훈련 임의의 초기화에 기초하여. 각 행은 상이한 네트워크 계층을 나타낸다. 평균 셀 층 (64 개)에만 신경.

추천

출처www.cnblogs.com/think90/p/11482945.html