Принцип AlphaGo
Три глубокие политические сети (Policy Networks) и одна глубокая сеть оценки (Value Network)
Сеть контролируемой политики обучения
Оптимизационный анализ:
характеристики шахматной доски:
Цвет камня
С момента хода:
Свобода:
Количество ударов:
Лестница:
Чувствительность:
Сеть углубленной политики Сеть усиления обучения политике
Стратегия обучения с подкреплением:
Детали обучения и результаты:
Сеть политики развертывания сети глубокой оценки
Как играть в шахматы - Поиск в дереве Монте-Карло
Смоделируйте будущую шахматную партию несколько раз и выберите ход, который выбирался чаще всего в симуляции.
uУвеличить разнообразие выбора
Улучшения AlphaGo Zero
(1) Нет никакой необходимости в человеческих шахматных рекордах, и вы можете учиться, играя в шахматы самостоятельно.
(2) Объединение шахматной сети перемещения и сети оценки в одну сеть:
процесс самообучения и процесс обучения нейронной сети.