Принцип AlphaGo

Три глубокие политические сети (Policy Networks) и одна глубокая сеть оценки (Value Network)
Вставьте сюда описание изображения

Сеть контролируемой политики обучения

Вставьте сюда описание изображения

Оптимизационный анализ:

характеристики шахматной доски:

Цвет камня
Вставьте сюда описание изображения

С момента хода:
Вставьте сюда описание изображения
Свобода:

Количество ударов:

Лестница:

Чувствительность:
Вставьте сюда описание изображения

Сеть углубленной политики Сеть усиления обучения политике

Вставьте сюда описание изображения

Вставьте сюда описание изображения

Стратегия обучения с подкреплением:

Детали обучения и результаты:

Сеть политики развертывания сети глубокой оценки

Вставьте сюда описание изображения

Как играть в шахматы - Поиск в дереве Монте-Карло

Смоделируйте будущую шахматную партию несколько раз и выберите ход, который выбирался чаще всего в симуляции.

Вставьте сюда описание изображения
uУвеличить разнообразие выбора

Улучшения AlphaGo Zero

(1) Нет никакой необходимости в человеческих шахматных рекордах, и вы можете учиться, играя в шахматы самостоятельно.

(2) Объединение шахматной сети перемещения и сети оценки в одну сеть:
Вставьте сюда описание изображения
процесс самообучения и процесс обучения нейронной сети.

Вставьте сюда описание изображения

[ZJU-Машинное обучение] Знакомство с AlphaGo

Принцип AlphaGo

Сеть контролируемой политики обучения

Сеть углубленной политики Сеть усиления обучения политике

Сеть политики развертывания сети глубокой оценки

Как играть в шахматы - Поиск в дереве Монте-Карло

Улучшения AlphaGo Zero

рекомендация