용지가 예순넷 노트 읽기 : 윈도우 음성 파형에 대해 정의 깊은 신경망 기반 음향 모델에 대한 아키텍처를 (INTERSPEECH 2015)

 

논문 사이트 : https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf

개요

      본 논문에서는 신경망 직접 입력 음성 파형 형상 입력 창 (WSW)이고 깊이 역행 음성 자동 음성 인식 (ASR) 모델의 사용. 본 논문은 네트워크가 멜 스펙트럼 자동화 할 필요가 유사한 특성을 가지고 있음을 보여줍니다 (멜 스펙트럼은 무엇? 참조입니다 https://blog.csdn.net/qq_28006327/article/details/59129110 ),이 논문 DNN은 구조적 특징의 WSW 광산. 우선, 동적 bottlenect DNN 시간 도메인 스펙트럼 정보를 캡쳐하기위한 개선 된 구조는 어려운 조건을 나타낸다. DNNN 내에서 중복 정보에 기초 WSW도 고려 될 수있다. 기능 멜 스펙트럼 상관 특성 (MFSC)를 기반으로 WSW 음성 모델 음성 모델은 월스트리트 코퍼스 데이터 세트에 비교된다. 결과는 WSJ 코퍼스 기반으로 음성 모델에서 WER MFSC 기능에 따라 모델보다 WSW 기능은 3.0 % 증가 얻을 수 있음을 보여준다. 그러나, 결합 MFSC 특성 4.1 % 감소 특성 DNNN MFSC 기반 단일 최상의 모델에 비해.

키워드 : 지체에있어서, 음성 인식, 신경망의 깊이, 음성 파형

소개

      일부 연구가 자동 음성 인식 신경망 깊이를 이용함으로써 달성 될 수 표시, 음성 파형 데이터 윈도우 형 (WSW)의 입력, 연구의 대부분은 네트워크의 다층 구조, 동시에 서로 다른 영역에 그 작업을 나타내는 평가 : ASR 워드 에러 레이트 (WERS, 참조 링크 https://zhuanlan.zhihu.com/p/59252804을 더 일반적으로 특징 기반 MFSC WSW 기능 합리적인 근사치 일 수있다). 그러나,이 연구를 기반으로, 여전히 음성 기반 모델 WSW는 MFSC에 따라 방법과 기능을 비교 할 수 없습니다. WERS 일반적 높은 모델 기반 기능 WSW MFSC 15 % 내지 20 %에 비해. 이 논문에서는,이 문제의 주요 반응 신경망 성능 기반 모델 접근 MFSC 위에 음성의 깊이의 특성에 기초하여 자동 분석을위한 효과적인 네트워크 구조 학습 알고리즘의 확립.

      자동 음성 인식의 분야에서, 음성 기반 분석은 상기 세 부분의 깊이가 학습 방법, 본원에 기재된. 첫째는 DNN WSW 특징 분석 모델에 입력된다. 정적 또는 동적 스펙트럼이 유형 삭제 모델이 더 좋은 것을 나타내는 정보의 스펙트럼뿐만 아니라, 소스 변경에 다른 노이즈 신호의 안정성을 나타낸다. 실험 네트워크의 깊이 표현 WSW 보조 기능에서 유사한 특징에 MFSC 멜 스펙트럼 될 수 있음을 보여준다. 이러한 기능은 완전히 네트워크 또는 구현 된 길쌈 네트워크 구조의 깊이를 연결할 수 있습니다. 두 번째 부분은 분석을 위해 네트워크에 대한 가중치이다. 표현과 스펙트럼 특성 멜의 코퍼스 층 전에 월가에 따라 DNN 완전히 연결 네트워크와 유사한 쇼,하지만 덜 사용되는 신체의 크기입니다.

      네트워크 구조의 교체에 연구의 두 번째 부분은 음성 정보가 자동으로 윈도우 형 음성 파형에서 얻을 배울되지 해석합니다. 이 논문은 슈퍼 대역 스펙트럼의 동적 모델링에 기초 DNN WSW의 능력에 초점을 맞춘다. 모두 인간의 음성 인식을 변형 스펙트럼과 음성 인식 모델 변환 스펙트럼은 매우 중요한 위치를 차지하고있다. 상기 짧은 세그먼트로부터 얻은 의미에 포함 된 정보의 변화율. 시맨틱 모델 세그먼트는 푸리에 스펙트럼 특성 MFSC에 변환을 수행하여 설명한다.

      MFSC 론적 모델의 정적 상관 계수를 추가 종속 스펙트럼 벡터 형태 또는 복수의 주파수 스펙트럼의 차이의 형태를 사용하여 동적 스펙트럼 특징 벡터가 포착된다. 이러한 표현의 스펙트럼 특성은 250 밀리 초 150 밀리의 움직임을 포착 할 수있다. 창 유형의 이러한 특징은 파도가 어려운 DNN은 음파에서 배울 수있는 네트워크를 기반으로 WSW 시간 간격을 증가 시켜도. 병목 네트워크 구조 층이 기능을 캡처하는 제 2 장에 통합 될 수 있고, 프레임은 250 밀리의 출력에 접합 될 수있다.

      세 번째 부분은이 논문을 기반으로, 심지어 DNN 음성 모델은 결과 MFSC 기능을 기반으로 시스템의 최적의 성능을 얻을 수 있지만, 몇 가지 추가 계산 복잡성과 중복성을 필요로 할 수 있습니다. 이 가정은 간단한 멜 될 것 바로 전체 좋은 또는 부분적으로 대체되었다 링크 깊이 훈련 네트워크 무게로 연결 필터 뱅크입니다. 전체 연결 DNN하십시오. 1,000,000 작업을 통해 각 네트워크. 네 번째 장에서는 자동 훈련 필터 뱅크 중복을 고려한다.

      두번째 장 은닉층 DNN 훈련 중량의 중량에 기초하여 WSW 분석을 설명한다. 제 III 연속 병목 기반 WSW DNN은 스펙트럼의 개선 된 동적 모델을 제공하는 특징을 설명합니다.

DNN WSW의 분석을 바탕으로

      이 섹션은 벽 거리로부터 얻어진 DNN WSWs 훈련 코퍼스에 도시 된 중간층을 조사한다. 먼저 DNN의 네트워크 구조, 그 다음 실험에 사용 코퍼스, 최종 결과는 제 1 층의 중량 훈련 분석이다.

      훈련 모델 시맨틱 및 구조 : DNN 기반 WSW 입력 프레임은 150ms의 샘플링 된 스피치 파형의 일부이다. 본원에 사용 된 바와 같이, 광대역 16KHz로 샘플링 된 음성 구간의 2,400 샘플. 각 분석 프레임의 상기 위치를 사전에 10ms의 160 개 샘플들에 입력한다. 완전히 연결된 DNN 세 숨겨진 레이어를 포함, 각 1024 개 노드로 구성. 후 비선형 노드 ReLU 의해 변형. 소프트 맥스 출력 층 각각이 컨텍스트 의존 히든 마르코프 모델 (컨텍스트 의존 CD)을 나타내는 층을 2,019 노드를 사용한다.

      그리고 모델 훈련 코퍼스 :이 문서의 모든 교육 및 평가를위한 코퍼스 월스트리트 연설 모델. 그것은 잡음비 환경에 높은 신호의 레코드 읽기 신문 담론이 포함되어 있습니다. 모든 음성 HMM 및 DNN 모델 WSJ0 / WSJ1 SI-284 훈련. 80시간 긴 연설과 37,961 단어 284 개 스피커 포함. 테스트-Dev93가 검증 세트로 515 개 단어를 포함하고, 테스트-Eval92 모든 평가에 사용되는 언어 모델의 20,000 단어의 어휘를 열고 해당 시험 조건을 사용하여 테스트를위한 330 개 단어가 포함되어 있습니다. 후두 및 CD HMM 상태의 MFCC (주파수 켑 스트 럼 계수) HMM-GMM 컨텍스트 상태를 맞추고 자동으로 모델 트레이너 2019 클러스터링 가우시안 혼합 HMM에 계속 집중 (HMM-GMM에)에 기초하여 자동 음성 인식 디코더 KALDI 도구에 의해 달성 CD 상태. 이러한 모델은 LDA 최대 우도 선형 변환 (MLLT) 별 MFCC 변환 기능을 사용하여 훈련된다. 동시에 교육 과정이 적응 훈련에 훈련을 사용했다. 는 CD 상태 음성 프레임에 레이블을 할당합니다 ASR 디코더 2019은 크로스 훈련 DNN 감독으로 훈련한다.

      DNN WSW 기준을 평가 : MFCC 기능 WSW 및 MFSC 기능을 포함하여, 기본 혼합물 HMM-DNN ASR 시스템, 교육 기능 세트를 복수 사용하여 상술 한 네트워크 구조의 성능을 평가하기 위해. HMM-GMM과 HMM-DNN 표 1,도 1에 도시 된 시스템에 비해보다. 처음 두 행을 비교하여 찾을 수 있습니다, HMM-DNN은 WER의 상당한 감소가 있었다 HMM-GMM에 비해. MFCC 기능, WER MFSC 3 % 상대 환원 특성을 비교 하였다. 바닥 WSW 기능을 바탕으로 MFCC는 WER에서 15.5 % 증가에 비해 기능이 있습니다.

      음성 모델은 원래 음성 샘플에 정의 될 수도 코퍼스를 기반으로 특수 설계 기능은 거리 WER 9 % 이하로 떨어질 수 있습니다. 사용자는 캡처 된 네트워크 정보 파라미터 추정하는 분석 파라미터에서 영감을 닦아 라인을 통해 얻어 질 수있다. 상기 가중치 매트릭스 (W)에서, 멜 스펙트럼 형상 표현을 사용. 도시 DNN 기반 WSW에 도시 된 바와 같이, 제 1 층, 이것은 연관된 가중치 행렬 값과 진폭 스펙트럼의 계산은 다음 행의 값에 따라 대역 통과 필터의 응답을 근사화하는 횟수를 알 수있는 것을 나타낸다.

      下图1展示了权重矩阵W1024行包含信息的总结。图中的第i行表示权重矩阵W中第i行的平滑对数幅度谱。平滑对数幅度谱通过对w进行padding,并对权重计算其快速傅里叶变换

 

,然后使用一个高斯核进行平滑处理。权重矩阵W的行数根据平滑后谱中每行的峰值计算得到的频率进行记录。最终对于记录的行数根据进行描点。由图中可以看出DNN已经学习到了类似于梅尔频谱的特征表示。

 

 

stacked bottoleneck architecture

      本节描述将bottleneck DNN应用到基于WSW的DNN语音模型中。该改进模型可以看作是一种机制,用于连续的将低维的bottleneck frames进行拼接,从而可以对帧间谱动态进行建模。ASR中许多基于BN DNN结构被提出来。其通用的结构形式如下图所示,BN-DNN通过级联一些高维度的非线性隐藏层及低纬度的隐藏层构建。这种设计的最初动因是对非线性空间进行降维处理。

     如上图所示,输入维度为2400(包含150ms)及一个40维度的bottleneck。一些BN-DNN通过拼接帧附近的bottleneck层的输出得到的局部谱信息进行增强。当将MFSC特征应用到BN-DNN时,BN只减少了一点WER。bottleneck谱信息的结合对于基于WSW的DNN是一个研究点,这是因为无法通过简单的方法在特征分层次对谱信息进行利用。因此,期望基于WSW 特征的BN-DNN结构可以拼接bottoleneck输出进而对ASR WER产生一个较大的影响。

     BN-DNN的结构设计如下:2400个输入节点对应着2400采样WSW,两个1024节点的隐藏层。及一个40个维度的bottleneck层。每层后面跟着一个ReLU。bottleneck层在具有1800个一二阶不同相关性节点向量的15帧进行拼接,表示150ms内频谱的动态变化。在解码过程中,级联的bottleneck输出送到三个1024维度的隐藏层的网络及2019节点的softmax输出层,DNN中softmax的输出对应HMM中上下文的相关状态(CD)。

     上图3下半部分显示的BNN-DNN中的DNN层分离出来进行训练,图的上半部分为HMM/DNN。BN-DNN基于CE损失标准进行训练,训练后,将bottleneck层移除,同时将BN层的激活值进行保留作为BN-DNN的输出。

     基于WSW及MFSC特征的BN-DNN WER性能结果如下图所示。将1,3行进行比较,基于MFSC特征对模型增加stacked bottleneck WER并没有发生很大的改变。这是由于1800维的MFSC特征作为BN网络的输入已经被拼接的15帧MFSC 帧图像格式化了。将第2行与第4行进行比较发现。BN-DNN将WSW特征的WER降低了14.2%,已经同最好的基于MFSC的WER很接近了。

     对WSW/MFSC特征结合使用,对于10ms,窗型输入,40维的WSW的BN-DNN与40维的MFSC向量进行拼接。80维的向量与+/-7帧向量进行拼接作为输入传到bottleneck中。上图最后一行显示了结果,相比MFSC特征WER,减少了%4。

基于WSW的DNN训练结构初始化

      通过前面对网络第一层度权重矩阵的分析,训练一个基于WSW的全连接DNN可以得到一个具有识别结构的网络。其包含的结构可能对于分类性能很重很。但很难从轶事中观察中进行表征。一种方法是增加一个类似于filter-bank的结构,选择一个与梅尔filter-bank特征分析类似的参数化。本文的工作重点是研究是否可以通过训练一个全连接网络来发现这个结构。确定研究网络的哪个部分来通过连续的迭代来提升网络的性能及效率。根据图1的第一层权重矩阵相邻行显示了大部分情况下中心频率相似,但相位及增益不同的filter的响应。通过观察,是否可以将该层进行隔离,从而可以使DNN更有效训练的结构。

      设计了两步过程,根据少量的"basis rows"的延迟及缩放变换来近似权重矩阵第一层的行。在过程的第一步,得到与带通滤波器相关的矩阵行数,该带通滤波器的中心频率接近于梅尔滤波器的中心频率。

其可以作为"basisi rows",用进行表示。在第二步,将最接近basis rows hi中心频率的滤波器的权重矩阵被看作是basis rows的缩放或者延迟版本。即对于权重矩阵第wj行,

其近似,其中,a_i,j 及d_i,j分别代表wj相对于hi(其傅里叶变换于带通滤波器的中心频率最相似)缩放尺度及延迟数值 。

      上述形成的具有行形式的第一层权重矩阵用于初始化训练一个新的基于WSW的DNN。下图显示了基于前文初始化得到的每个训练使其的验证集的帧精度(FAC)。与随机初始化的DNN参数得到的FAC进行比较,基于第一层权重矩阵的结构初始化,FAC的精度始终更高。另外,结构初始化使WER进行小幅度的下降。7.64%下降至7.51.同时,还使basis row与第一层权重矩阵的剩余行之间的平均近似误差减小。

 

추천

출처www.cnblogs.com/fourmi/p/10955012.html