딥러닝, 신경망, 컨볼루션 신경망과 다양한 분야에서의 응용에 대해 알아보세요.

목차

1. 딥러닝이란 무엇인가요?

2. 딥러닝의 개념

3. 딥러닝과 신경망

4. 딥러닝 훈련 과정

4.1 먼저 상향식 비지도 학습을 사용합니다(즉, 맨 아래에서 시작하여 맨 위로 레이어별로 학습).

4.2 Post-top-down 지도 학습(즉, 레이블이 지정된 데이터를 통한 학습, 오류는 하향식으로 전송되고 네트워크는 미세 조정됨)

5. 컨벌루션 신경망

5.1 콘볼루션 신경망의 역사

5.2 컨볼루션 신경망의 네트워크 구조

5.3 매개변수 축소 및 가중치 공유에 대하여

5.4 전형적인 예

5.5 훈련 과정

5.6 컨볼루션 신경망의 장점

6. 딥러닝의 응용 분야

7. 딥러닝 적용 결과

7.1 컴퓨터 비전 분야

7.2 음성인식 분야

7.3 자연어 처리 및 기타 분야

8. 딥러닝 요약

9. 딥러닝의 미래


VC++의 공통 기능 개발 요약(칼럼 기사 목록, 구독 환영, 지속적인 업데이트...)icon-default.png?t=N7T8https://blog.csdn.net/chenlycly /article/details/124272585 초급부터 숙달까지 C++ 소프트웨어 이상 문제 해결 튜토리얼 시리즈(칼럼 기사 목록, 구독 환영, 지속적인 업데이트...)icon-default.png?t=N7T8https://blog.csdn.net/chenlycly/article/details/125529931입력부터 마스터리 사례 수집까지 C++ 소프트웨어 분석 도구(컬럼 기사가 업데이트 중입니다...)icon-default.png?t=N7T8오픈 소스 구성 요소 및 데이터베이스 기술(칼럼 기사, 지속적으로 업데이트됨...)       오늘날의 인터넷 시대에는 복잡한 빅데이터와 네트워크 환경이 전통적인 정보처리 이론을 인위적으로 만들었습니다. 지능과 인공신경망이 더 중요해지고, 엄청난 도전에 직면하게 됩니다. 최근에는 딥러닝이 점차 사람들의 눈에 들어오고 있으며, 딥러닝을 통해 여러 가지 문제를 해결하는 사례가 점점 많아지고 있습니다. 일부 기존 이미지 처리 기술은 노이즈 제거, 초해상도, 추적 알고리즘과 같은 딥 러닝을 통해 더 나은 결과를 얻을 수도 있습니다. 시대에 뒤처지지 않기 위해서는 딥러닝과 신경망 기술에 대한 학습과 연구가 필요합니다. 본 글에서는 딥러닝 기술, 신경망, 컨볼루션 신경망과 관련 분야에서의 응용을 소개합니다. https://blog.csdn.net/chenlycly/category_12458859.html https://blog.csdn.net/chenlycly/category_11931267.htmlC/C++ 기본 및 고급(칼럼 기사, 지속적으로 업데이트됨...)icon-default.png?t=N7T8https:/ /blog.csdn.net/chenlycly/article/details/131405795icon-default.png?t=N7T8

1. 딥러닝이란 무엇인가요?

       딥러닝(DL, Deep Learning)은 머신러닝(ML, Machine Learning) 분야의 새로운 연구 방향입니다. 딥러닝은 샘플 데이터의 고유한 패턴과 표현 수준을 학습하는 과정으로, 이러한 학습 과정에서 얻은 정보는 텍스트, 이미지, 사운드 등의 데이터를 해석하는 데 큰 도움이 됩니다. 궁극적인 목표는 기계가 인간과 동일한 분석 학습 능력을 갖고 텍스트, 이미지, 소리 등의 데이터를 인식할 수 있도록 하는 것입니다. 딥러닝은 이전 관련 기술을 훨씬 능가하는 음성 및 이미지 인식 결과를 달성하는 복잡한 기계 학습 알고리즘입니다.​ 

       딥 러닝은 검색 기술, 데이터 마이닝, 기계 학습, 이미지 인식 및 처리, 기계 번역, 음성 인식, 인간-컴퓨터 상호 작용, 의료 이미지 분석, 질병 진단, 재무 위험 평가, 신용 등급 및 기타 분야에서 많은 결과를 얻었습니다. 딥러닝을 통해 기계는 시청각, 사고 등 인간의 활동을 모방하고, 복잡한 패턴 인식 문제를 해결하며, 인공지능 관련 기술에 큰 발전을 이룰 수 있습니다.

2. 딥러닝의 개념

       n개의 레이어(S1,...Sn)가 있는 시스템 S가 있고 입력은 I이고 출력은 O라고 가정합니다. 이는 다음과 같이 생생하게 표현됩니다. I =>S1=>S2=>… ..=> ;Sn => O, 출력 O가 입력 I와 같다면, 즉 입력 I는 이번 시스템 변경 후에도 아무런 정보 손실이 없고 그대로 유지됩니다. Si의 각 층을 통과한 후의 모든 정보 손실 즉, 모든 Si 층에서 이는 원래 정보(즉, 입력 I)의 또 다른 표현입니다. 자동으로 기능을 학습해야 합니다. 입력 I(예: 이미지 또는 텍스트 묶음)가 많고 시스템 S(n개 레이어 포함)를 설계한다고 가정합니다. 시스템의 매개변수를 조정하여 출력이 다음과 같도록 합니다. 여전히 입력 I이면 입력 I의 일련의 계층적 특징, 즉 S1,..., Sn을 자동으로 얻을 수 있습니다.

       딥러닝의 경우 여러 레이어를 쌓는 것이 아이디어입니다. 즉, 이 레이어의 출력이 다음 레이어의 입력으로 사용됩니다. 이러한 방식으로 입력 정보를 계층적으로 표현할 수 있습니다. 또한 이전 가정에서는 출력이 입력과 엄격하게 동일하다는 제한이 너무 엄격하므로 이 제한을 약간 완화할 수 있습니다. 예를 들어 입력과 출력의 차이를 최대한 작게 만들기만 하면 됩니다. .

3. 딥러닝과 신경망

신경망 알고리즘 상세 설명 05: 다른 신경망 소개(DNN, CNN, RNN, DBN, GAN 등)_지속적인 드립핑은...

       딥러닝(Deep Learning)은 머신러닝 연구의 새로운 분야로, 분석과 학습을 위해 인간 두뇌의 신경망을 구축하고 시뮬레이션하는 것을 목적으로 하며, 이미지, 소리, 텍스트 등의 데이터를 해석하기 위해 인간 두뇌의 메커니즘을 모방합니다. 딥러닝은 비지도 학습(Unsupervised Learning)의 한 종류입니다. 딥러닝의 개념은 인공신경망 연구에서 유래되었습니다. 여러 개의 숨겨진 레이어가 있는 다층 퍼셉트론은 딥러닝 구조입니다. 딥 러닝은 하위 수준 기능을 결합하여 보다 추상적인 상위 수준 표현 속성 카테고리 또는 기능을 형성함으로써 데이터의 분산 기능 표현을 발견합니다.

       딥러닝 자체는 머신러닝의 한 분야로 간단히 신경망의 발전으로 이해될 수 있습니다. 약 20~30년 전에는 머신러닝 분야에서 신경망이 특히 뜨거운 방향이었으나 이후 점차 쇠퇴하게 되었는데, 그 이유는 다음과 같습니다.

1) BP 알고리즘은 다층 네트워크의 전통적인 학습을 위한 일반적인 알고리즘입니다. 실제로 몇 개의 레이어만 있는 네트워크의 경우 이 학습 방법은 이미 이상적이지 않습니다. 심층 구조(다층의 비선형 처리 장치 포함)의 비볼록 객관적 비용 함수에 어디에나 존재하는 로컬 최소값은 훈련 어려움의 주요 원인입니다.
2) 깊은 네트워크(7개 레이어 이상)의 경우 앞 레이어로의 잔여 전파가 너무 작아져 소위 경사 확산이 발생합니다.
3) 일반적으로 훈련에는 레이블이 지정된 데이터만 사용할 수 있습니다. 하지만 대부분의 데이터는 레이블이 없으며 뇌는 레이블이 없는 데이터에서 학습할 수 있습니다.

       딥러닝과 기존 신경망 사이에는 많은 유사점과 차이점이 있습니다.

       둘 사이의 유사점은 딥러닝이 유사한 신경망의 계층 구조를 채택한다는 점이며, 시스템은 입력 레이어, 은닉 레이어(다중 레이어), 출력 레이어로 구성된 다층 네트워크로 구성됩니다. 교차 계층 노드 사이에는 연결이 없으며 각 계층은 로지스틱 회귀 모델로 간주될 수 있으며 이러한 계층 구조는 비교적 인간 두뇌의 구조에 가깝습니다.


신경망 훈련의 문제점을 극복하기 위해 딥러닝은 신경망과는 매우 다른 훈련 메커니즘을 사용합니다. 2006년 Hinton은 비지도 데이터를 기반으로 다층 신경망을 구축하는 효과적인 방법을 제안했는데, 간단히 말하면 두 단계로 나누어집니다. 하나는 한 번에 한 계층씩 학습시키는 것이고, 다른 하나는 그렇게 조정하는 것입니다. 원래 표현 x는 위쪽으로 생성됩니다. 상위 수준 표현 r과 이 상위 수준 표현 r에 의해 아래쪽으로 생성된 x'는 다음과 같이 가능한 한 일관성이 있습니다.

1) 먼저 뉴런의 단일 레이어를 레이어별로 구축하여 매번 단일 레이어 네트워크가 훈련되도록 합니다.
2) 모든 레이어가 훈련된 후 Hinton은 wake-sleep 알고리즘을 사용하여 튜닝합니다.

       최상위 레이어를 제외한 레이어 간의 가중치를 양방향으로 변경하여 최상위 레이어는 여전히 단일 레이어 신경망이고 다른 레이어는 그래픽 모델이 되도록 합니다. 상향 가중치는 "인지"에 적용되고 하향 가중치는 "생성"에 적용됩니다. 그런 다음 Wake-Sleep 알고리즘을 사용하여 모든 가중치를 조정합니다. 인지와 생성을 일관되게 만드는 것, 즉 생성의 최상위 표현이 기본 노드를 최대한 정확하게 복원할 수 있도록 보장하는 것입니다. 예를 들어 최상위 레이어의 노드가 얼굴을 나타낸다면 모든 얼굴의 이미지가 이 노드를 활성화해야 하며 결과 이미지는 대략적인 얼굴 이미지로 표현될 수 있어야 합니다. Wake-Sleep 알고리즘은 wake와 sleep의 두 부분으로 나뉩니다.

1) 웨이크 단계: 인지 과정, 외부 특성과 상향 가중치(인지 가중치)를 통해 각 계층의 추상적 표현(노드 상태)을 생성하고, 경사하강법을 사용하여 계층 간 하향 가중치(생성) 가중치). 즉, "상상한 것과 현실이 다르다면, 상상한 것이 이렇게 되도록 몸무게를 바꿔라"는 것이다.
2) 수면 단계: 생성 과정에서 최상위 표현(깨어 있을 때 학습한 개념)과 하향 가중치를 거쳐 하위 상태가 생성되고, 계층 간 상향 가중치는 수정됩니다. 같은 시간. 즉, "꿈속의 장면이 내 마음속에 있는 해당 개념이 아니라면 나의 인지적 비중을 바꾸면 그 장면이 나에게 개념으로 나타나게 된다"는 것이다.

4. 딥러닝 훈련 과정

         딥러닝 훈련 과정은 다음 두 단계로 구성됩니다.

4.1 먼저 상향식 비지도 학습을 사용합니다(즉, 맨 아래에서 시작하여 맨 위로 레이어별로 학습).

       보정되지 않은 데이터(보정된 데이터도 가능)를 사용하여 각 레이어의 매개변수를 계층적으로 학습하는 단계입니다. 이 단계는 비지도 학습 과정으로 볼 수 있으며 이는 기존 신경망과 가장 큰 차이점입니다(이 과정은 특징 학습 과정으로 볼 수 있음) ) . 구체적으로 첫 번째 레이어는 보정되지 않은 데이터를 사용하여 학습하고, 첫 번째 레이어의 매개변수는 학습 중에 먼저 학습됩니다(이 레이어는 출력과 입력의 차이를 최소화하는 3계층 신경망의 은닉층이라고 볼 수 있음). ).모델 이후 용량 제한과 희소성 제약을 통해 결과 모델은 데이터 자체의 구조를 학습할 수 있으므로 입력보다 표현력이 더 풍부한 특징을 얻을 수 있습니다. 첫 번째 레이어를 레이어 n의 입력으로 사용하여 n번째 레이어를 학습함으로써 각 레이어의 매개변수를 얻습니다.

4.2 Post-top-down 지도 학습(즉, 레이블이 지정된 데이터를 통한 학습, 오류는 하향식으로 전송되고 네트워크는 미세 조정됨)

       첫 번째 단계에서 얻은 각 레이어의 매개변수를 기반으로 전체 다층 모델의 매개변수를 추가로 미세 조정합니다. 이 단계는 지도 학습 과정이며 첫 번째 단계는 신경망의 무작위 초기화 과정과 유사합니다. DL의 첫 번째 단계가 무작위가 아니기 때문에 입력 데이터의 구조를 학습하여 초기화를 하기 때문에 이 초기값은 전역 최적값에 더 가깝고 더 나은 결과를 얻을 수 있으므로 딥러닝의 좋은 효과에 크게 기인합니다. 첫 번째 단계의 특성 학습 과정을 살펴보겠습니다.

5. 컨벌루션 신경망

       컨벌루션 신경망(Convolutional Neural Network)은 인공 신경망의 일종으로 음성 분석 및 이미지 인식 분야에서 현재 연구 핫스팟이 되었습니다. 가중치 공유 네트워크 구조는 생물학적 신경망과 더 유사하게 만들어 네트워크 모델의 복잡성과 가중치 수를 줄입니다. 이러한 장점은 네트워크의 입력이 다차원 이미지인 경우 더욱 분명해집니다. 따라서 이미지를 네트워크의 입력으로 직접 사용할 수 있으므로 기존 인식 알고리즘의 복잡한 특징 추출 및 데이터 재구성 프로세스를 피할 수 있습니다. 컨벌루션 네트워크는 2차원 모양을 인식하도록 특별히 설계된 다층 퍼셉트론입니다. 이 네트워크 구조는 이동, 스케일링, 기울기 또는 기타 형태의 변형에 대해 매우 불변합니다.

       CNN은 초기 지연 신경망(TDNN)의 영향을 받습니다. 지연 신경망은 시간 차원에서 가중치를 공유하여 학습 복잡성을 줄이고 음성 및 시계열 신호를 처리하는 데 적합합니다.

        CNN은 다층 네트워크 구조를 성공적으로 훈련하는 최초의 학습 알고리즘입니다. 일반적인 순방향 BP 알고리즘의 훈련 성능을 향상시키기 위해 학습해야 하는 매개변수 수를 줄이기 위해 공간 관계를 사용합니다. CNN은 데이터 전처리 요구 사항을 최소화하기 위한 딥 러닝 아키텍처로 제안됩니다. CNN에서는 이미지의 작은 부분(국부 수용 영역)이 계층 구조의 최하위 계층의 입력으로 사용되며, 해당 정보는 차례로 다른 계층으로 전송되며, 각 계층은 디지털 필터를 통과하여 가장 중요한 정보를 얻습니다. 관찰된 데이터의 특징. 이 방법은 이미지의 국소 수용 영역을 통해 뉴런이나 처리 장치가 방향이 지정된 가장자리 또는 모서리와 같은 가장 기본적인 기능에 액세스할 수 있기 때문에 변환, 크기 조정 및 회전에 불변하는 관찰 데이터의 두드러진 특징을 캡처할 수 있습니다. .

5.1 콘볼루션 신경망의 역사

       1962년 Hubel과 Wiesel은 고양이 시각피질 세포에 대한 연구를 통해 수용장 개념을 제안했고, 1984년 일본 학자 후쿠시마는 수용장 개념을 바탕으로 신경인지론을 제안했는데, 이는 회선 신경 시스템으로 볼 수 있다. 네트워크의 구현은 인공 신경망 분야에서 수용 필드 개념을 최초로 적용한 것이기도 합니다. 신경인지 기계는 시각적 패턴을 여러 하위 패턴(특징)으로 분해한 후 계층적으로 연결된 특징 평면에 들어가서 처리하며, 객체가 변위되거나 약간 변형되더라도 작동할 수 있도록 시각 시스템을 모델링하려고 시도합니다. 인식도 완료할 수 있습니다.

       일반적으로 신경인지 기계에는 두 가지 유형의 뉴런, 즉 특징 추출을 담당하는 S 요소와 변형에 저항하는 C 요소가 포함됩니다. S 요소에는 두 가지 중요한 매개변수인 수용 필드와 임계값 매개변수가 있는데, 전자는 입력 연결 수를 결정하고 후자는 특성 하위 패턴에 대한 응답 정도를 제어합니다. 많은 학자들이 신경인지 기계의 성능을 향상시키기 위한 연구에 전념해 왔습니다. 전통적인 신경 인지 기계에서는 각 S 요소의 감광 영역에서 C 요소로 인해 발생하는 시각적 흐림 정도가 정규 분포를 따릅니다. 감광 영역의 가장자리가 중앙보다 더 큰 흐림 효과를 생성하는 경우 S-요소는 이러한 비정규 흐림으로 인해 발생하는 더 큰 변형 허용 오차를 수용합니다. 우리가 달성하고자 하는 것은 수용 필드의 가장자리와 중심에서 훈련 패턴과 변형된 자극 패턴에 의해 생성된 효과 간의 차이가 점점 더 커지는 것입니다. 이러한 비정규 블러를 효과적으로 형성하기 위해 후쿠시마는 이중 C 요소 레이어를 갖춘 향상된 신경 인지 기계를 제안했습니다.

       Van Ooyen과 Niehuis는 신경인지 기계의 식별 능력을 향상시키기 위한 새로운 매개변수를 도입했습니다. 실제로, 이 매개변수는 반복적 흥분 특징의 신경 흥분을 억제하는 억제 신호로 작용합니다. 대부분의 신경망은 훈련 정보를 가중치로 기억합니다. Hebb 학습 규칙에 따르면 특정 기능을 여러 번 훈련할수록 후속 인식 과정에서 더 쉽게 감지됩니다. 일부 학자들은 또한 진화적 계산 이론을 신경인지 기계와 결합하여 반복적 여기 기능의 훈련 및 학습을 약화시켜 네트워크가 이러한 다양한 기능에 주의를 기울여 식별 능력을 향상시키는 데 도움을 줄 수 있도록 했습니다. 이상은 신경인지 기계의 모든 개발 과정이며, 컨볼루션 신경망은 신경인지 기계의 일반화된 형태라고 볼 수 있으며, 신경인지 기계는 컨볼루션 신경망의 특별한 경우이다.

5.2 컨볼루션 신경망의 네트워크 구조

       컨벌루션 신경망은 다층 신경망으로, 각 계층은 여러 개의 2차원 평면으로 구성되고, 각 평면은 여러 개의 독립 뉴런으로 구성됩니다.

컨볼루션 신경망의 개념적 시연은 위 그림에 나와 있습니다. 입력 이미지는 훈련 가능한 세 개의 필터와 추가 가능한 편향으로 컨볼루션되어 있습니다. 필터링 프로세스는 그림 1에 나와 있습니다. 컨볼루션 후 C1 계층에 세 개의 특징 맵이 생성됩니다. 그런 다음 특징 맵 내 각 그룹의 4개 픽셀을 합산하고 가중치를 부여하고 편향한 후 Sigmoid 함수를 통해 3개 S2 레이어의 특징 맵을 얻습니다. 그런 다음 이 맵을 필터링하여 C3 레이어를 얻습니다. 이 계층 구조는 S2와 같은 S4를 생성합니다. 마지막으로 이러한 픽셀 값은 래스터화되고 기존 신경망에 대한 벡터 입력으로 연결되어 출력을 얻습니다.

       일반적으로 레이어 C는 특징 추출 레이어로 각 뉴런의 입력이 이전 레이어의 로컬 수용 필드에 연결되어 로컬 특징이 추출되고, 로컬 특징이 추출되면 다른 특징과의 위치 관계도 동일해진다. 네트워크의 각 계산 레이어는 여러 개의 특징 맵으로 구성되어 있으며 각 특징 맵은 평면이고 평면에 있는 모든 뉴런의 가중치는 동일합니다. 특징 매핑 구조는 컨볼루셔널 네트워크의 활성화 함수로 함수 커널에 작은 영향을 미치는 시그모이드 함수를 사용하여 특징 맵 이동을 불변하게 만듭니다.

       또한 매핑 표면의 뉴런은 가중치를 공유하므로 네트워크의 자유 매개변수 수가 줄어들고 네트워크 매개변수 선택의 복잡성이 줄어듭니다. 컨볼루셔널 신경망의 각 특징 추출 계층(C-layer) 뒤에는 로컬 평균 및 2차 추출을 위한 계산 계층(S-layer)이 옵니다. 이 독특한 2회 특징 추출 구조는 네트워크가 입력 왜곡에 대해 높은 허용 오차를 갖도록 합니다. 인식 중 샘플.​ 

5.3 매개변수 축소 및 가중치 공유에 대하여

       위에서 언급했듯이 CNN의 가장 큰 장점 중 하나는 수용 필드와 가중치 공유를 통해 신경망이 훈련해야 하는 매개변수의 수를 줄이는 것 같습니다. 그럼 정확히 무엇입니까?

       아래 왼쪽 그림: 1000x1000 픽셀 이미지와 100만 개의 숨겨진 레이어 뉴런이 있고 완전히 연결되어 있으면(각 숨겨진 레이어 뉴런이 이미지의 모든 픽셀에 연결됨) 1000x1000x1000000=10^ 12개의 연결이 있습니다. 즉, 10^12개의 가중치 매개변수입니다. 그러나 이미지의 공간적 연결은 마치 사람들이 지역적 수용장을 통해 외부 이미지를 경험하는 것처럼 지역적입니다. 각 뉴런은 전체 이미지를 느낄 필요가 없습니다. 각 뉴런은 지역 이미지 영역만 느끼고 더 높은 수준에서는 전체 서로 다른 국소 영역을 감지하는 이러한 뉴런을 통합하여 정보를 얻을 수 있습니다. 이런 방식으로 연결 수를 줄일 수 있습니다. 이는 신경망이 훈련해야 하는 가중치 매개변수의 수를 줄이는 것을 의미합니다. 아래 오른쪽 그림과 같이 로컬 수용 필드가 10x10인 경우 은닉층의 각 수용 필드는 10x10 로컬 이미지에만 연결하면 되므로 100만 개의 은닉층 뉴런에는 1억 개의 연결, 즉 10개만 연결됩니다. ^8개의 매개변수. . 이전보다 4개의 0(크기 순서)이 적어 훈련이 덜 힘들지만 여전히 많은 것처럼 느껴지므로 다른 방법이 있나요?

        우리는 히든 레이어의 각 뉴런이 10x10 이미지 영역에 연결되어 있다는 것을 알고 있습니다. 이는 각 뉴런이 10x10=100 연결 가중치 매개변수를 가짐을 의미합니다. 그렇다면 각 뉴런의 100개 매개변수가 동일하다면 어떨까요? 즉, 각 뉴런은 동일한 컨볼루션 커널을 사용하여 이미지를 디컨볼루션합니다. 우리는 얼마나 많은 매개변수를 가지고 있나요? 매개변수는 100개뿐입니다! 히든 레이어에 뉴런이 아무리 많아도 두 레이어를 연결하는 데 필요한 매개변수는 100개뿐입니다! 이것이 바로 체중분배입니다.

       필터, 즉 컨볼루션 커널이 특정 방향의 에지 등 이미지의 특징을 제안하는 경우. 그럼 다양한 특징을 추출해야 하는데 어떻게 해야 할까요?필터를 더 추가하는 것만으로는 충분하지 않을까요? 옳은. 따라서 100개의 필터를 추가하고 각 필터의 ​​매개변수가 다르다고 가정해 보겠습니다. 이는 서로 다른 가장자리와 같은 입력 이미지의 서로 다른 특징을 제안한다는 의미입니다. 이러한 방식으로 각 필터는 이미지를 분리하여 이미지의 다양한 특징에 대한 투영을 얻습니다. 이를 특징 맵이라고 합니다. 따라서 100가지 유형의 컨볼루션 커널에 대한 100개의 기능 맵이 있습니다. 이러한 100개의 특징 맵은 뉴런 레이어를 형성합니다. 이 레이어에는 몇 개의 매개변수가 있습니까? 100가지 컨볼루션 커널 x 각 컨볼루션 커널은 100개의 매개변수 = 100x100 = 10K, 즉 10,000개의 매개변수를 공유합니다. 아래 오른쪽 이미지를 참조하세요. 다양한 색상은 다양한 필터를 나타냅니다.

       방금 말했듯이 은닉층의 매개변수 수는 은닉층의 뉴런 수와 아무런 관련이 없으며 필터의 크기와 필터 유형의 수에만 관련됩니다. 그렇다면 은닉층의 뉴런 수는 어떻게 결정할까요? 원본 이미지, 즉 입력의 크기(뉴런 수), 필터의 크기, 이미지 내 필터의 슬라이딩 단계와 관련이 있습니다! 예를 들어 내 이미지가 1000x1000픽셀이고 필터 크기가 10x10이라면 필터가 겹치지 않는다고 가정하면, 즉 스트라이드가 10이므로 히든 레이어의 뉴런 개수는 (1000x1000)/(10x10)= 100x100 뉴런. . 이는 단지 기능 맵의 뉴런 수인 필터일 뿐이므로 기능 맵이 100개 있으면 100배가 됩니다. 이미지가 클수록 뉴런 수와 훈련해야 하는 가중치 매개변수 수 사이의 격차가 커지는 것을 알 수 있습니다.

       한 가지 주목해야 할 점은 위의 논의에서는 각 뉴런의 편향 부분을 고려하지 않았다는 것입니다. 따라서 가중치의 개수를 1씩 늘려야 합니다. 이 역시 동일한 필터에서 공유됩니다.
즉, 컨벌루션 네트워크의 핵심 아이디어는 로컬 수용 필드, 가중치 공유(또는 가중치 복사) 및 시간 또는 공간 하위 샘플링의 세 가지 구조 아이디어를 결합하여 일부를 얻는 것입니다. 일종의 변위 정도, 크기 및 변형 불변성입니다.

5.4 전형적인 예

       숫자를 인식하는 데 사용되는 일반적인 컨벌루션 네트워크는 LeNet-5입니다. 당시 미국 대부분의 은행에서는 수표에 손으로 쓴 숫자를 식별하는 데 이를 사용했습니다. 이 수준의 상업적 사용에 도달하려면 그 정확성을 상상할 수 있습니다. 결국 현재 가장 논란이 되고 있는 것은 학계와 산업계의 통합이다.

         ​ ​ 그러면 이 예를 들어 설명해 보겠습니다.

LeNet-5에는 입력을 제외한 총 7개의 레이어가 있으며 각 레이어에는 학습 가능한 매개변수(연결 가중치)가 포함되어 있습니다. 입력 이미지는 32*32 크기입니다. 이는 필기인식 데이터베이스인 Mnist 데이터베이스의 가장 큰 글자보다 크다. 그 이유는 뇌졸중 중단이나 코너와 같은 잠재적으로 명백한 특징이 최상위 기능 모니터링 하위 하위의 수용 필드 중앙에 나타날 수 있기를 바라는 것입니다.

       먼저 명확히 해야 합니다. 각 레이어에는 여러 개의 특징 맵이 있고, 각 특징 맵은 컨볼루션 필터를 통해 입력의 특징을 추출하며, 각 특징 맵에는 여러 개의 뉴런이 있습니다.

       C1 레이어는 6개의 특징 맵으로 구성된 컨볼루션 레이어입니다(왜 컨볼루션인가요? 컨볼루션 작업의 중요한 특징은 컨볼루션 작업을 통해 원래 신호 특징을 향상시키고 노이즈를 줄일 수 있다는 것입니다). 특징 맵의 각 뉴런은 입력의 5*5 이웃에 연결됩니다. 특징 맵의 크기는 28*28로 입력 연결이 경계 밖으로 떨어지는 것을 방지합니다(이는 경사 손실을 피하기 위해 BP 피드백 중 계산을 위한 것임, 개인적인 의견). C1에는 156개의 훈련 가능한 매개변수가 있습니다(각 필터에는 5*5=25개의 단위 매개변수와 편향 매개변수, 총 6개의 필터, 총 (5*5+1)*6=156개의 매개변수가 있음), 총 156*( 28*28)=122,304개의 연결.

       S2 레이어는 6개의 14*14 기능 맵이 포함된 다운샘플링 레이어입니다(다운샘플링하는 이유는 무엇입니까? 이미지의 로컬 상관 관계 원리를 사용하여 이미지를 서브샘플링하면 유용한 정보를 유지하면서 데이터 처리량을 줄일 수 있습니다). 특징 맵의 각 유닛은 C1의 해당 특징 맵의 2*2 이웃에 연결됩니다. 레이어 S2의 각 단위에 대한 4개의 입력을 합산하고 훈련 가능한 매개변수를 곱한 다음 훈련 가능한 편향에 추가합니다. 결과는 시그모이드 함수를 사용하여 계산됩니다. 훈련 가능성 계수와 편향은 시그모이드 함수의 비선형성 정도를 제어합니다. 계수가 상대적으로 작으면 작업은 거의 선형이고 서브샘플링은 이미지를 흐리게 하는 것과 동일합니다. 계수가 비교적 큰 경우 서브샘플링은 오프셋 크기에 따라 잡음이 있는 OR 연산 또는 잡음이 있는 AND 연산으로 볼 수 있습니다. 각 유닛의 2*2 수용 필드는 겹치지 않으므로 S2의 각 기능 맵 크기는 C1의 기능 맵 크기의 1/4입니다(행과 열은 각각 1/2입니다). S2 계층에는 훈련 가능한 매개변수 12개와 연결 5880개가 있습니다.

컨볼루션 및 서브샘플링 프로세스는 위와 같으며 컨볼루션 프로세스에는 훈련 가능한 필터 fx를 사용하여 입력 이미지(첫 번째 단계는 입력 이미지이고 다음 단계는 컨볼루션 특징 맵)를 컨볼루션한 다음 편향을 추가하는 작업이 포함됩니다. bx를 사용하여 컨벌루션 레이어 Cx를 얻습니다. 서브샘플링 프로세스에는 각 이웃의 4개 픽셀을 하나의 픽셀로 합산한 다음 스칼라 Wx+1로 가중치를 부여하고 바이어스 bx+1을 추가한 다음 시그모이드 활성화 함수를 전달하여 약 4배 더 작은 특징 맵을 생성하는 작업이 포함됩니다. .그림 Sx+1.

       따라서 한 평면에서 다음 평면으로의 매핑은 컨볼루션 연산으로 간주할 수 있으며, S 레이어는 2차 특징 추출 역할을 하는 퍼지 필터로 간주할 수 있습니다. 숨겨진 레이어 사이에서는 공간 해상도가 감소하는 반면, 각 레이어에 포함된 평면의 수가 증가하므로 더 많은 특징 정보를 탐지하는 데 사용할 수 있습니다.

      C3 레이어도 콘볼루션 레이어입니다. 또한 5x5 콘볼루션 커널을 통해 레이어 S2를 디콘볼루션합니다. 결과 기능 맵에는 10x10 뉴런만 있지만 16개의 서로 다른 콘볼루션 커널이 있으므로 16개의 기능이 매핑됩니다. 여기서 주목해야 할 점은 C3의 각 기능 맵은 S2의 6개 또는 여러 기능 맵 모두에 연결되어 있다는 점입니다. 이는 이 레이어의 기능 맵이 이전 레이어에서 추출된 기능 맵의 서로 다른 조합임을 나타냅니다.

       방금 말했듯이 C3의 각 기능 맵은 S2의 6개 또는 여러 기능 맵으로 구성됩니다. S2의 모든 기능 맵을 C3의 모든 기능 맵에 연결하면 어떨까요? 두 가지 이유가 있습니다. 첫째, 불완전한 연결 메커니즘은 연결 수를 합리적인 범위 내로 유지합니다. 둘째, 가장 중요한 것은 네트워크의 대칭성을 깨뜨린다는 것입니다. 다양한 기능 맵에는 입력이 다르기 때문에 서로 다른 기능을 추출해야 합니다.

       예를 들어, 한 가지 방법은 C3의 처음 6개 기능 맵이 S2의 3개 인접 기능 맵 하위 집합을 입력으로 사용하는 것입니다. 다음 6개의 기능 맵은 S2의 4개의 인접한 기능 맵 하위 집합을 입력으로 사용합니다. 다음 3개는 인접하지 않은 4개의 기능 맵 하위 집합을 입력으로 사용합니다. 마지막 것은 S2의 모든 기능 맵을 입력으로 사용합니다. 이러한 방식으로 C3 레이어에는 1516개의 훈련 가능한 매개변수와 151600개의 연결이 있습니다.

       S4 레이어는 5*5 크기의 16개 특징 맵으로 구성된 다운샘플링 레이어입니다. 특징 맵의 각 단위는 C1과 S2 간의 연결과 마찬가지로 C3에 있는 해당 특징 맵의 2*2 이웃에 연결됩니다. S4 레이어에는 훈련 가능한 매개변수 32개(특징 맵당 요소 1개 및 편향 1개)와 연결 2,000개가 있습니다.

       C5 레이어는 120개의 특징 맵이 있는 컨벌루션 레이어입니다. 각 유닛은 S4 레이어의 16개 유닛 모두의 5*5 이웃에 연결됩니다. S4 레이어 기능 맵의 크기도 5*5(필터와 동일)이므로 C5 기능 맵의 크기는 1*1입니다. 이는 S4와 C5 간의 완전한 연결을 구성합니다. C5가 여전히 완전 연관 레이어가 아닌 컨벌루션 레이어로 분류되는 이유는 LeNet-5의 입력이 더 커지고 나머지는 변경되지 않은 경우 특징 맵의 차원이 1*1보다 커지기 때문입니다. 레이어 C5에는 48120개의 훈련 가능한 연결이 있습니다.

       F6 레이어에는 84개의 유닛이 있으며(이 숫자를 선택한 이유는 출력 레이어의 설계에서 비롯됨) C5 레이어에 완전히 연결됩니다. 훈련 가능한 매개변수는 10,164개입니다. 기존 신경망과 마찬가지로 레이어 F6은 입력 벡터와 가중치 벡터 간의 내적과 편향을 계산합니다. 그런 다음 이는 단위 i의 상태를 생성하기 위해 시그모이드 함수로 전달됩니다.

       마지막으로 출력 레이어는 유클리드 방사형 기초 함수 단위(각 유형당 하나의 단위, 각각 84개의 입력 포함)로 구성됩니다. 즉, 각 출력 RBF 단위는 입력 벡터와 매개변수 벡터 사이의 유클리드 거리를 계산합니다. 입력이 매개변수 벡터에서 멀어질수록 RBF 출력은 더 커집니다. RBF 출력은 입력 패턴이 RBF와 관련된 클래스 모델과 얼마나 잘 일치하는지를 측정하는 페널티 용어로 이해될 수 있습니다. 확률적인 측면에서 RBF 출력은 F6 레이어 구성 공간에서 가우스 분포의 음의 로그 가능성으로 이해될 수 있습니다. 입력 패턴이 주어지면 손실 함수는 F6의 구성이 RBF 매개변수 벡터(즉, 원하는 패턴 분류)에 충분히 가까워야 합니다. 이 단위의 매개변수는 수동으로 선택되며 (적어도 초기에는) 고정된 상태로 유지됩니다. 이러한 매개변수 벡터의 구성요소는 -1 또는 1로 설정됩니다. 이들 매개변수는 선택적으로 -1과 1의 동일한 확률로 선택되거나 오류 정정 코드를 구성할 수 있지만 해당 문자 클래스의 7*12 크기(즉, 84) 형식의 그림으로 설계됩니다. 이 표현은 개별 숫자를 식별하는 데는 그다지 유용하지 않지만 인쇄 가능한 ASCII 세트에서 문자열을 식별하는 데는 유용합니다.

       출력 생성에 더 일반적으로 사용되는 "N 중 1" 인코딩 대신 이 분산 인코딩을 사용하는 또 다른 이유는 비분산 인코딩은 범주가 클수록 덜 효과적이기 때문입니다. 그 이유는 비분산 인코딩의 경우 출력이 0이 되어야 하는 경우가 대부분이기 때문이다. 이로 인해 시그모이드 단위를 사용하여 구현하기가 어렵습니다. 또 다른 이유는 분류기가 문자를 식별하는 데뿐만 아니라 문자가 아닌 문자를 거부하는 데에도 사용된다는 것입니다. 분산 인코딩을 사용하는 RBF가 이 목표에 더 적합합니다. 시그모이드와 달리 입력 공간의 잘 제한된 영역 내에서 여기되는 반면, 비정형 패턴은 외부에서 더 쉽게 떨어지기 때문입니다.

       RBF 매개변수 벡터는 F6 레이어 대상 벡터의 역할을 합니다. 이러한 벡터의 구성요소는 +1 또는 -1이며 이는 정확히 F6 시그모이드 범위 내에 있으므로 시그모이드 함수가 포화되는 것을 방지한다는 점을 지적하는 것이 중요합니다. 실제로 +1과 -1은 시그모이드 함수의 최대 곡률 지점입니다. 이를 통해 F6 장치는 최대 비선형 범위 내에서 작동할 수 있습니다. 시그모이드 함수의 포화는 손실 함수의 수렴 속도를 늦추고 조건이 나쁜 문제로 이어지므로 피해야 합니다.

5.5 훈련 과정

       패턴 인식에 사용되는 신경망의 주류는 안내 학습 네트워크인 반면, 비안내 학습 네트워크는 클러스터 분석에 더 일반적으로 사용됩니다. 유도 패턴 인식의 경우 모든 샘플의 카테고리가 알려져 있으므로 공간 내 샘플 분포는 더 이상 자연적인 분포 경향에 따라 구분되지 않고 공간 내 유사한 샘플의 분포와 다른 카테고리 샘플 간의 차이를 기반으로 합니다. 분리 정도에 맞는 적절한 공간 분할 방법을 찾거나, 서로 다른 유형의 시료가 서로 다른 영역에 위치하도록 분류 경계를 찾습니다. 이를 위해서는 길고 복잡한 학습 과정이 필요하며, 샘플 공간을 분할하는 데 사용되는 분류 경계의 위치를 ​​지속적으로 조정하여 가능한 적은 수의 샘플이 유사하지 않은 영역으로 분할되도록 합니다.

       컨벌루션 네트워크는 본질적으로 입력-출력 매핑입니다. 알려진 패턴을 사용하는 한 입력과 출력 간의 정확한 수학적 표현 없이도 입력과 출력 간의 수많은 매핑 관계를 학습할 수 있습니다. , 네트워크에는 입력과 출력 쌍을 매핑하는 기능이 있습니다. 컨벌루션 네트워크는 교사 훈련을 수행하므로 샘플 세트는 (입력 벡터, 이상적인 출력 벡터) 형식의 벡터 쌍으로 구성됩니다. 이러한 모든 벡터 쌍은 네트워크가 시뮬레이션하려는 시스템의 실제 "실행" 결과에서 파생되어야 합니다. 실제 실행 중인 시스템에서 수집할 수 있습니다. 훈련을 시작하기 전에 모든 가중치는 다른 작은 난수로 초기화되어야 합니다. "작은 난수"는 과도한 가중치로 인해 네트워크가 포화 상태에 들어가 훈련 실패를 초래하지 않도록 하기 위해 사용되며, "다르다"는 네트워크가 정상적으로 학습할 수 있도록 하기 위해 사용됩니다. 실제로 동일한 숫자를 사용하여 가중치 행렬을 초기화하면 네트워크가 학습할 수 없게 됩니다.

       훈련 알고리즘은 기존 BP 알고리즘과 유사합니다. 주로 4단계로 구성되며 두 단계로 나뉩니다.

첫 번째 단계인 순방향 전파 단계:
a) 샘플 세트에서 샘플(X, Yp)을 가져와 X를 네트워크에 입력합니다.
b) 해당 실제 출력 Op를 계산합니다.
이 단계에서는 정보가 단계별 변환을 통해 입력 계층에서 출력 계층으로 전달됩니다. 이 프로세스는 훈련이 완료된 후 네트워크가 정상적으로 실행될 때 수행되는 작업이기도 합니다. 이 프로세스 동안 네트워크는 계산을 수행합니다(실제로 최종 출력 결과를 얻기 위해 입력의 도트 곱셈과 각 레이어의 가중치 행렬):
          Op=Fn(...(F2( F1 (XpW (1)) W (2))...) W (n))
두 번째 단계, 역방향 전파 단계
a) 실제 계산 출력 Op와 해당 이상적인 출력 Yp의 차이
b) 오류를 최소화하여 가중치 행렬을 조정하는 역전파.

5.6 컨볼루션 신경망의 장점

       컨벌루션 신경망 CNN은 주로 변위, 크기 조정 및 기타 형태의 왜곡에 변하지 않는 2차원 그래픽을 식별하는 데 사용됩니다. CNN의 특징 검출 계층은 훈련 데이터를 통해 학습하기 때문에 CNN을 사용할 경우 명시적인 특징 추출을 피하고 훈련 데이터로부터 암시적으로 학습이 수행되며, 더 나아가 동일한 특징 매핑 표면의 뉴런 가중치로 인해 동일하므로 네트워크는 병렬로 학습할 수 있으며 이는 뉴런이 서로 연결된 네트워크에 비해 컨벌루션 네트워크의 주요 장점이기도 합니다. Convolutional Neural Network는 Local Weight Sharing이라는 특수한 구조로 음성 인식 및 이미지 처리에 독특한 장점을 가지고 있으며, 레이아웃이 실제 생물학적 신경망에 더 가깝습니다. 입력 벡터의 이미지를 네트워크에 직접 입력할 수 있으므로 특징 추출 및 분류 중에 데이터 재구성의 복잡성을 피할 수 있습니다.

       스트림 분류 방법은 거의 항상 통계적 특징을 기반으로 합니다. 즉, 차별하기 전에 특정 특징을 추출해야 합니다. 그러나 명시적인 특징 추출은 쉽지 않으며 일부 응용 프로그램 문제에서는 항상 신뢰할 수 있는 것은 아닙니다. 컨벌루션 신경망은 명시적인 특징 샘플링을 피하고 훈련 데이터로부터 암시적으로 학습합니다. 이로 인해 컨볼루셔널 신경망은 다른 신경망 기반 분류기와 크게 다르며, 구조 재구성 및 무게 감소를 통해 특징 추출 기능을 다층 퍼셉트론에 통합합니다. 회색조 이미지를 직접 처리할 수 있으며 이미지 기반 분류를 처리하는 데 직접 사용할 수 있습니다.

       컨벌루션 네트워크는 이미지 처리에 있어 일반 신경망에 비해 다음과 같은 장점이 있습니다: a) 입력 이미지와 네트워크의 토폴로지 구조가 잘 일치할 수 있음 b) 특징 추출과 패턴 분류가 훈련 중에 동시에 수행되어 생성됨 c) 가중치 공유 네트워크의 훈련 매개변수를 줄여 신경망 구조를 더 간단하고 적응력 있게 만들 수 있습니다.

6. 딥러닝의 응용 분야

       딥 러닝은 인공 지능의 중요한 분야 중 하나이며 다음을 포함하되 이에 국한되지 않는 광범위한 응용 분야가 있습니다.

1) 이미지 인식 및 처리: 딥 러닝은 이미지 인식, 객체 감지, 이미지 분할, 얼굴 인식 및 기타 분야에서 많은 응용 분야를 갖고 있습니다. 이 중 딥러닝 모델은 얼굴 인식 기술, 자율주행 기술, 보안 모니터링 등 대량의 데이터를 학습해 영상 속 객체, 장면, 얼굴 등을 식별할 수 있다.

2) 자연어 처리: 딥 러닝은 음성 인식, 기계 번역, 텍스트 분류, 감정 분석 등 자연어 처리 분야에서 많은 응용 분야를 가지고 있습니다. 딥러닝 기술을 통해 모델은 입력된 자연어 정보를 기반으로 자연어의 의미와 의미를 자동으로 이해할 수 있어 활용 가능성이 크다.

3) 인간-컴퓨터 상호 작용: 딥 러닝은 지능형 고객 서비스, 지능형 질문 및 답변, 가상 캐릭터 등과 같은 인간-컴퓨터 상호 작용 분야에서 많은 응용 프로그램을 보유하고 있습니다. . 딥러닝 기술을 통해 모델은 사용자 입력을 기반으로 지능적인 판단과 대응을 할 수 있어 사람들의 업무와 생활 효율성을 향상시키는 데 큰 도움이 될 수 있습니다.

4) 의료 및 건강: 딥 러닝은 의료 영상 분석, 질병 진단, 약물 연구 및 개발 등 의료 및 건강 분야에서 많은 응용 분야를 갖고 있습니다. 딥러닝 기술을 통해 질병을 빠르게 진단하고, 의사의 상태 판단을 지원하며, 신약 발견 등을 할 수 있습니다.

5) 금융: 딥 러닝은 위험 평가, 신용 등급, 사기 탐지 등 금융 분야에서 다양한 응용 분야를 갖고 있습니다. 딥러닝 기술을 통해 금융시장의 변화와 동향을 더 잘 파악하고 분석할 수 있으며, 금융 리스크 관리 능력을 향상시킬 수 있습니다.

7. 딥러닝 적용 결과

       딥 러닝은 검색, 데이터 마이닝, 컴퓨터 비전, 기계 학습, 기계 번역, 자연어 처리, 멀티미디어 학습, 음성, 개인화 추천 및 기타 분야에서 널리 사용되고 있으며 많은 응용 결과를 달성했습니다.

7.1 컴퓨터 비전 분야

       홍콩중문대학교 멀티미디어 연구실은 컴퓨터 비전 연구에 딥러닝을 적용한 최초의 중국 팀입니다. 세계적 수준의 인공지능 대회 LFW(Large Scale Face Recognition Competition)에서 연구소가 페이스북(FaceBook)을 꺾고 우승을 차지하며 이 분야 인공지능의 인식 능력이 처음으로 실제 사람의 인식 능력을 능가하게 됐다.

7.2 음성인식 분야

        Microsoft 연구진은 Hinton과 협력하여 RBM 및 DBN을 음성 인식 음향 모델 훈련에 최초로 도입했으며, 대규모 어휘 음성 인식 시스템에서 큰 성공을 거두어 음성 인식 오류율을 30% 줄였습니다. 그러나 DNN에는 효과적인 병렬 고속 알고리즘이 없으며, 많은 연구 기관에서는 GPU 플랫폼을 통해 DNN 음향 모델의 훈련 효율성을 높이기 위해 대규모 데이터 코퍼스를 사용하고 있습니다.

       국제적으로는 IBM, Google 등의 기업들이 DNN 음성인식에 대한 연구를 발빠르게 진행하고 있으며 그 속도는 매우 빠릅니다.

       국내에서도 알리바바, 아이플라이텍, 바이두 등 기업이나 연구기관, 중국과학원 자동화연구소 등에서도 음성인식 분야의 딥러닝 연구를 진행하고 있다.​ 

7.3 자연어 처리 및 기타 분야

       많은 기관에서 연구가 진행되고 있는데 2013년 Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean이 word2Vector 모델을 확립하기 위해 Efficient Estimation of Word Representations in Vector Space라는 논문을 발표했습니다. ), word2Vector는 문법 정보를 더 잘 표현할 수 있습니다. 딥러닝은 주로 자연어 처리 등의 분야에서 기계 번역, 의미 마이닝에 사용됩니다.

       2020년에는 딥 러닝이 반도체 패키징 및 테스트 혁신을 가속화할 수 있습니다. 반복 노동 감소, 수율 향상, 정확도 및 효율성 제어, 검사 비용 절감 측면에서 AI 딥러닝 기반 AOI는 시장 전망이 넓지만 제어가 쉽지 않습니다.

       2020년 4월 13일 영국 잡지 Nature Machine Intelligence에 게재된 의료 및 인공지능(AI) 연구에서 스위스 과학자들은 몇 초 만에 심혈관 혈류를 스캔할 수 있는 인공지능 시스템을 소개했습니다. 이 딥 러닝 모델은 환자가 MRI 스캔을 받는 동안 임상의가 실시간으로 혈류 변화를 관찰할 수 있도록 하여 진단 워크플로우를 최적화할 수 있는 잠재력을 가지고 있습니다.

8. 딥러닝 요약

       딥러닝 알고리즘은 분류에 필요한 하위 수준 또는 상위 수준의 특징을 자동으로 추출합니다. 높은 수준의 특징은 그 특징이 계층적으로(계층적으로) 다른 특징에 의존할 수 있다는 사실을 나타냅니다. 예: 머신 비전의 경우 딥 러닝 알고리즘은 원본 이미지에서 학습하여 가장자리 감지기와 같은 낮은 수준의 표현을 얻습니다. , 웨이블릿 필터 등을 사용하고 이러한 하위 수준 표현식의 선형 또는 비선형 조합과 같은 이러한 하위 수준 표현식을 기반으로 표현식을 구축하고 이 프로세스를 반복하여 최종적으로 상위 수준 표현식을 얻습니다.

       딥러닝을 통해 데이터를 더 잘 표현하는 특징을 얻을 수 있으며, 동시에 모델의 레이어와 매개변수가 많고 용량이 충분하기 때문에 모델은 대규모 데이터를 표현할 수 있는 능력을 갖추고 있어 이미지, 음성 등의 특징이 명확하지 않습니다( 수동 설계가 필요하고 직관적인 물리적 의미가 많이 필요하지 않음) 대규모 교육 데이터에서 더 나은 결과를 얻을 수 있습니다. 또한, 패턴 인식 특징 및 분류자의 관점에서 볼 때, 딥러닝 프레임워크는 특징과 분류자를 하나의 프레임워크로 결합하고, 데이터를 사용하여 특징을 학습하며, 사용 중에 수동으로 특징을 설계하는 막대한 작업량을 줄여줍니다. industry 엔지니어가 가장 공을 들인 측면) 따라서 효과가 더 좋을 뿐만 아니라 사용하기도 훨씬 편리합니다. 따라서 주목할만한 프레임워크이며, ML을 하는 모든 사람이 지불해야 하는 프레임워크입니다. 그것에주의를 기울이십시오.

       물론 딥러닝 자체가 완벽하지도 않고, 세상의 어떤 ML 문제도 해결할 수 있는 강력한 도구도 아니며, 전능한 수준으로 확대되어서는 안 됩니다.

9. 딥러닝의 미래

       딥러닝에는 아직 해야 할 일이 많습니다. 현재 초점은 여전히 ​​머신러닝 분야, 특히 차원 축소 분야에서 딥러닝에 사용할 수 있는 몇 가지 방법을 차용하는 데 있습니다. 예를 들면 다음과 같습니다. 현재 작업 중 하나는 압축된 감지 이론을 사용하여 고차원 데이터의 차원을 줄이는 희소 코딩입니다. 따라서 요소가 거의 없는 벡터가 원래의 고차원 신호를 정확하게 나타낼 수 있습니다. 또 다른 예는 훈련 샘플의 유사성을 측정하고 고차원 데이터의 유사성을 저차원 공간에 투영하는 반지도 인기 학습입니다. 또 다른 고무적인 방향은 개념적 적응 학습을 수행하고 엔지니어링 에너지를 최소화하여 핵심 아키텍처를 변경할 수 있는 진화적 프로그래밍 접근 방식입니다.

      딥러닝은 이미지 인식, 자연어 처리, 인공지능 등 다양한 분야에서 큰 성공을 거두었습니다. 앞으로도 딥러닝은 계속해서 인공지능 기술의 발전을 촉진하고 인류에게 더 많은 편리함과 혁신을 가져올 것입니다. 다음은 딥러닝의 몇 가지 미래 동향입니다.

1) 자가 학습 및 자가 최적화: 딥 러닝 모델의 복잡성이 점점 더 높아짐에 따라 모델을 더 잘 학습하고 자가 최적화하는 방법이 중요해질 것입니다. 중요한 문제, 연구 분야. 미래의 딥 러닝 모델은 데이터를 기반으로 스스로 학습하고 조정하여 정확성과 효율성을 향상시킬 수 있습니다.

2) 딥 러닝과 센서 기술의 결합: 사물 인터넷과 센서 기술의 발전으로 딥 러닝이 센서 기술과 결합되어 더욱 지능적인 애플리케이션을 구현할 것입니다. 예를 들어 교통 혼잡, 자율 주행, 환경 모니터링 등의 문제를 해결하는 데 딥러닝을 사용할 수 있습니다.

3) 의료 분야에서의 딥 러닝 적용: 딥 러닝은 의료 분야에서 중요한 기술 중 하나가 될 것입니다. 미래의 딥러닝 모델은 의료영상, 전자의료기록, 생리학적 데이터 등을 분석하고 진단할 수 있어 의사가 질병을 더 빠르게 진단하고 치료할 수 있도록 돕습니다.

4) 딥러닝과 자연어 처리의 결합: 딥러닝과 자연어 처리 기술이 결합되어 보다 효율적인 자연어 처리와 지능적인 대화를 달성하게 됩니다. 미래의 딥 러닝 모델은 언어 컨텍스트와 의미를 더 잘 이해하여 더욱 인간과 유사한 상호 작용을 가능하게 할 것입니다.

한마디로, 딥러닝 기술이 계속해서 발전하고 발전함에 따라 다양한 분야에서 더 많은 혁신과 변화를 가져올 것으로 기대해 볼 수 있습니다.

추천

출처blog.csdn.net/chenlycly/article/details/134043297