논문 에세이 | Sparse Ising Machine을 사용하여 심층 볼츠만 네트워크 훈련

오픈소스 중국 커뮤니티 팀이 공유라는 이름으로 오픈소스 중국 커뮤니티의 뒷이야기를 전하는 첫 생방송을 진행했습니다."

공유자: Zeng Qingguo ｜학교: 남부 과학 기술 대학교

간략한 소개

무어의 법칙의 둔화로 인해 조합 최적화 문제를 해결하기 위해 특별히 설계된 맞춤형 Ising 기계와 같은 비전통적인 컴퓨팅 패러다임의 개발이 촉진되었습니다. 이 세션에서는 확률론적-고전적 컴퓨팅 환경이 혼합된 심층 볼츠만 네트워크를 훈련하기 위해 희소 비동기식 고도 병렬 Ising 머신을 사용하여 심층 생성 신경망을 트레이닝하기 위한 P-비트 기반 Ising 머신의 새로운 애플리케이션을 소개합니다.

관련 논문

작성자: Sparse Ising Machines를 사용한 심층 볼츠만 네트워크 교육
작곡: **Shaila Niazi, Navid Anjum Aadit, Masoud Mohseni, Shuvro Chowdhury, Yao Qin, Kerem Y. Camsari

기사의 목적

목표: 계산 하드 확률 샘플링 작업에서 일반적으로 사용되는 소프트웨어 구현에 비해 몇 배의 속도 향상을 제공하는 특수 하드웨어 시스템(예: P비트)을 사용하여 심층 볼츠만 네트워크의 희소 버전을 효율적으로 훈련하는 방법을 보여줍니다.

장기 목표: 그래픽 및 텐서 처리 장치(GPU/TPU)를 기반으로 하는 기존 딥 러닝의 급속히 증가하는 비용을 줄이기 위해 물리학에서 영감을 받은 확률적 하드웨어의 개발을 촉진합니다.

하드웨어 구현의 어려움:
1. 연결된 p-비트는 순차적으로 업데이트되어야 하며 밀도가 높은 시스템에서는 업데이트가 금지됩니다.
2. 업데이트하기 전에 p-비트가 이웃 노드로부터 모든 최신 정보를 수신하는지 확인하십시오. 그렇지 않으면 네트워크가 작동하지 않습니다. 실제 볼츠만 분포에서 샘플링합니다.

메인 콘텐츠

Sparse Ising Machine을 사용하여 Deep Boltzmann 네트워크를 훈련하는 내용은 주로 네 부분으로 나뉩니다.
1. 네트워크 구조
2. 목적 함수
3. 매개변수 최적화
4. 추론(분류 및 이미지 생성)

1. 네트워크 구조
D-Wave에서 개발한 Pegasus 및 Zepyhr 토폴로지는 하드웨어 인식 희소 심층 네트워크를 훈련하는 데 사용됩니다. 이 작업은 인간의 두뇌 및 고급 마이크로프로세서와 같이 확장되었지만 연결이 제한된 네트워크에서 영감을 받았습니다. 기계 학습 모델에서 완전한 연결성을 어디서나 사용함에도 불구하고, 수십억 개의 트랜지스터 네트워크를 갖춘 고급 마이크로프로세서와 인간 두뇌 모두 상당한 희박성을 나타냅니다. 실제로 RBM의 대부분의 하드웨어 구현은 각 노드에 필요한 높은 계산 책임으로 인해 확장 문제에 직면하는 반면, 하드웨어 신경망의 희소 연결은 종종 이점을 보여줍니다. 또한, 희박한 네트워크 구조는 위에서 언급한 하드웨어 구현의 어려움을 잘 해결합니다.

(이미지 출처: arXiv:2303.10728)

2. 목적 함수
우도 함수를 최대화하는 것은 데이터 분포와 모델 분포 사이의 KL 발산을 최소화하는 것과 같습니다.

그 중 데이터 분포와 모델 분포가 있습니다.

모델 매개변수( ) 에 대한 KL 발산 의 기울기는 다음과 같습니다.

3. 매개변수 최적화

(이미지 출처: arXiv:2303.10728)

다음을 포함하여 알고리즘 1에 따라 네트워크 매개변수를 훈련합니다.

초기화 매개 변수 초기화( , )
학습 데이터를 사용하여 입력 레이어 p 비트에 값을 할당한 다음 MC 샘플링을 수행하여 데이터 분포의 샘플링 샘플을 얻습니다.
MC 샘플링을 직접 수행하여 모델 분포의 샘플링 샘플을 얻습니다.
기울기(지속적 대비 발산이라고 함)는 두 단계로 샘플링된 샘플을 사용하여 추정되며 매개변수는 기울기 하강 방법을 사용하여 업데이트됩니다.

그중 MC 샘플링은 p비트 반복 진화를 사용합니다.

희소 볼츠만 네트워크를 훈련하는 과정에서 주목해야 할 두 가지 사항이 있습니다.

1) 무작위 p-비트 인덱스
주어진 희소 네트워크에서 볼츠만 네트워크 모델을 훈련할 때 가시 노드, 숨겨진 노드, 레이블 노드 사이의 그래프 거리가 매우 중요한 개념입니다. 일반적으로 레이어가 완전히 연결된 경우 주어진 두 노드 사이의 그래프 거리는 일정하지만 희소 그래프의 경우에는 그렇지 않으므로 가시적, 숨겨진 및 레이블 p-비트의 위치가 매우 중요합니다. 가시적, 숨겨진 및 레이블 p-비트가 클러스터링되어 있고 너무 가까우면 분류 정확도가 크게 영향을 받습니다. 이는 레이블 비트와 표시 비트 사이의 그래픽 거리가 너무 크면 둘 사이의 상관 관계가 약해지기 때문일 가능성이 높습니다. p-비트 인덱스를 무작위화하면 이 문제를 완화할 수 있습니다.
(이미지 출처: arXiv:2303.10728)

**2）大规模并行**  
在稀疏深度玻尔兹曼网络上，我们使用启发式图着色算法DSatur对图着色，对于未连接p-bits进行并行更新。

(이미지 출처: arXiv:2303.10728)

4. 추론

분류: 테스트 데이터를 사용하여 가시적인 p-비트를 수정한 다음 MC 샘플링을 수행하고 얻은 label-pbit에 대한 기대값을 얻고 가장 큰 기대값을 갖는 라벨을 예측 라벨로 사용합니다.

(이미지 출처: arXiv:2303.10728)

이미지 생성: 생성하려는 레이블에 해당하는 인코딩으로 레이블 p-비트를 고정한 다음 MC 샘플링을 수행하고 샘플링 프로세스 중에 네트워크를 어닐링(0.125씩 0에서 5로 점진적으로 증가)하고 얻은 샘플은 생성된 이미지에 해당합니다. 가시적인 p비트는 생성된 이미지입니다.

(이미지 출처: arXiv:2303.10728)

요약하다

이 기사에서는 기존 CPU보다 훨씬 빠른 샘플링 속도를 달성하는 대규모 병렬 아키텍처를 갖춘 희소 Ising 머신을 사용합니다. 이 논문은 하드웨어 인식 네트워크 토폴로지의 혼합 시간을 체계적으로 연구하고 모델의 분류 정확도가 알고리즘의 계산 운용성에 의해 제한되는 것이 아니라 이 작업에 사용할 수 있는 적당한 크기의 FPGA에 의해 제한된다는 것을 보여줍니다. 추가 개선에는 초고속 확률 샘플러를 최대한 활용하는 더 깊고 광범위하며 "혼합하기 더 어려운" 네트워크 아키텍처를 사용하는 것이 포함될 수 있습니다. 또한, 기존 DBM의 레이어별 학습 기술과 기사의 방법을 결합하면 더욱 향상된 개선을 가져올 수 있습니다. 무작위 자기 터널 접합과 같은 나노 규모 장치를 사용하여 희소 이징 기계를 구현하면 심층 볼츠만 네트워크의 실제 응용 프로그램의 현재 상태가 바뀔 수 있습니다.

논문 에세이 | Sparse Ising Machine을 사용하여 심층 볼츠만 네트워크 훈련

추천