[ZJU-Машинное обучение] Знакомство с AlphaGo

Принцип AlphaGo

Три глубокие политические сети (Policy Networks) и одна глубокая сеть оценки (Value Network)
Вставьте сюда описание изображения

Сеть контролируемой политики обучения

Вставьте сюда описание изображения
Вставьте сюда описание изображения
Оптимизационный анализ:
Вставьте сюда описание изображения
характеристики шахматной доски:
Вставьте сюда описание изображения

Цвет камня
Вставьте сюда описание изображения

С момента хода:
Вставьте сюда описание изображения
Свобода:
Вставьте сюда описание изображения
Количество ударов:
Вставьте сюда описание изображения
Лестница:
Вставьте сюда описание изображения

Чувствительность:
Вставьте сюда описание изображения

Сеть углубленной политики Сеть усиления обучения политике

Вставьте сюда описание изображения

Вставьте сюда описание изображения
Вставьте сюда описание изображения
Стратегия обучения с подкреплением:
Вставьте сюда описание изображения
Детали обучения и результаты:
Вставьте сюда описание изображения

Сеть политики развертывания сети глубокой оценки

Вставьте сюда описание изображения
Вставьте сюда описание изображения
Вставьте сюда описание изображения

Как играть в шахматы - Поиск в дереве Монте-Карло

Смоделируйте будущую шахматную партию несколько раз и выберите ход, который выбирался чаще всего в симуляции.

Вставьте сюда описание изображения
uУвеличить разнообразие выбора
Вставьте сюда описание изображения
Вставьте сюда описание изображения
Вставьте сюда описание изображения
Вставьте сюда описание изображения
Вставьте сюда описание изображения
Вставьте сюда описание изображения

Улучшения AlphaGo Zero

(1) Нет никакой необходимости в человеческих шахматных рекордах, и вы можете учиться, играя в шахматы самостоятельно.

(2) Объединение шахматной сети перемещения и сети оценки в одну сеть:
Вставьте сюда описание изображения
процесс самообучения и процесс обучения нейронной сети.

Вставьте сюда описание изображения
Вставьте сюда описание изображения
Вставьте сюда описание изображения

рекомендация

отblog.csdn.net/qq_45654306/article/details/113508427