Горячие документы | используется для прогнозирования поведения человеческого взаимодействия в нейронной сети дубликата игры

1. Резюме

    Фокус на человек участник обнаружил, что экспериментальные данные стандартной модели нейронной сети могут быть установлены в более чем поведенческой экономике, чтобы точно предсказать поведение игроков. Нейронные сети превосходит другие модели с точки зрения точности прогнозирования и кросс-энтропии, с высокой экономической ценностью. В статье также оказалась короткой последовательности, если таковая имеется, введите только игру, то экономическая информация об игре для прогнозирования поведения игроков очень важно. И достаточно долго, так что входная последовательность не экономические факторы улучшение информации о производительности сети, которая является информация, указывающая последовательность действий подразумеваемой уже недостаточно для удовлетворения прогноза нейронной сети.

2. Введение

    Данная статья посвящена игроку предсказать поведение человека в случае повторяющихся игры. Спрос модель обучения относительно подходит, эти модели достижения обновляется на основе предыдущей обратной связи. Однако эти модели, как правило, распространяются в небольших шагах, чтобы обновить свой прогноз, и сближение между тихоходным или квази-статическим распределением, и, следовательно, не может быть пригодно для прогнозирования динамического поведения отдельных игроков. Только для воспроизведения одной игры преимущества над поведением модели нейронной сети. Нейронная сеть узнал заранее из фиксированного набора, например функции, та же функция, а затем использовать это, чтобы предсказать новый экземпляр.

    В подконтрольном обучении рамок этой статьи, на этапе подготовки, ввод сети является историей игры до момента времени т, выход на время игрока предсказание т +-действие. Оптимизирована функция параметров модели потери. Использование 2х2 (двойная игра) оценивал набор данных, набор данных состоит из 12 игр, каждая игра имеет уникальное равновесие Нэша. Статья используется два типичных сетевая модели - MLP (MLP) и сверточная нейронная сеть (CNN) и поведенческая экономика с установленной моделью и сетевой моделью, полученной от конкретной игры обучения для сравнения, измерение стандарт кросс-энтропия точность предсказания потерь и экономическая ценность.

3. Установить предсказатель

    Для средней повторяемости игры, при условии , что имеется п игроков. Я представляю собой пространственное поведение игрока я, А т я ∈ A , я представляю собой я участник действие период Т. - я представляет собой операцию , отличных от игрока я других игроков (то есть, А - я = (А 1. , ..., А i - 1. , А + 1. , ..., А п )). Определим U Яя , А -i ) функции полезности, которая определяет , если другой игрок выбирает - я , каждый игрок выбирает I выгоды , получаемые с помощью операции. В наборе (2X2) игровых данных , соответствующих выбранному: Есть два игрока (игроков строк и столбцов игрока) повторяется в соответствии с игровой фиксированной функции полезности.

    Задачи Поведение моделирования в каждый момент времени T = 1 ... T предсказать следующий ход игрока I A T + 1 я . Введите историческое решение двух игроков, а также возможную дополнительную информацию, например , как игра продолжается, или матричной функции. Выходом является операция Л Я вероятность. Во время фазы обучения, модель последовательности действий в игроках человека в группе G игр проводится для наблюдения и оптимизации предсказанной последовательности и проверить игру не принадлежит G игре с обученной моделью. Оценка является кросс-энтропии точность прогнозирования потерь и экономической ценности. Более формально , что сделает У Т я ∈ {0,1} представляет собой операцию , т = 1 , ... T я игрока , когда игрок , чтобы предсказать строку, а 0 представляет собой вертикальный. Когда колонна игрок , чтобы предсказать, 0 и 1 представляет собой О. И пусть Y T I ∈ [0,1] У Т я вероятность = 0. Тогда есть н- х игроки г, кросс-энтропия модель потери:
Here Вставка рисунка Описание
индикатор точности предсказания является процентом правильного прогноза:
Here Вставка рисунка Описание
у представляет вектор: (y1i, ..., YTI) , 1 и у имеют те же размеры. Расчет экономической стоимости является:
Here Вставка рисунка Описание
который рассчитывается optti:
Here Вставка рисунка Описание
это лучший выбор во время T I игрока. Потеря модели, точность и экономическая ценность определяется как среднее значение каждого из персонажей различных игр.

4. Модель нейронной сети

4,1 многослойный персептрон (MLP)

    Используется MLP с двумя скрытых слоев бумаги, каждый слой 512 скрытые нейроны, каждый скрытый слой имеет линейную коррекцию функции активации точечно (РЕЛУ). Наличие двух нейронов выходного слоя, есть функция активации, вероятность операции вывода плеер SoftMax. Обучение с использованием отсева регуляризации, отношение веса становится 0,3, используя Оптимизатор исследование Адама 0,0002, Batch 64. Эти сети каждый входной последовательности в виде одного вектора, а не данные о временном измерении явно в качестве входных данных один размер.

4.2 сверточной нейронная сеть (CNN)

    Нейронные сети могут представлять собой локальную временную зависимость между небольшим числом параметров. Повторяя настройку игры, которые могут быть временным и частичное движение в режиме отклика может происходить в различных местах последовательности наблюдений. Действие игрока и противника в двух отдельных каналов в качестве входа в сеть, и свертки с течением времени. Статья использует сверточную сеть два слоев, каждый из 64-× 1 фильтр, 256 полного подключения к функции активации нейрона слоя и РЕЛ, A SoftMax выходного слой два нейрона, MLP сеть с теми же регулярными и оптимизации методов. В статье также протестированы два входных канала одного CNN, ряд параметров и ту же модель двойного канала, а другой был найден в два раза превышает число параметров для увеличения входных каналов является более эффективным, чем увеличение числа переменных.

5. Результаты оценки

5,1 по сравнению со статическим прогнозом

    Фигуры 1а и 1b показаны два типа сети (MLP и CNN) и потери точности. Как можно видеть, эти два типа сети, чем распределение оптимальных статического имеют более низкие потери и более высокий уровень точности. . Как видно из рис 1в, это преимущество также перевести на существенные различия в экономической ценности: сетевая модель получила более 87% от оптимального значения, что значительно выше, чем 78,3% получила лучшее статистическое распределение.
Here Вставка рисунка Описание

Рисунок 1: Сравнение статических распределений: (1a) потеря кросса энтропии, (1b) точность предсказания, и (1c) экономическая ценность сетевых моделей и моделей равновесия. Синяя горизонтальная линия указывает на производительность лучшего распределения статического теста, а красная линия указывает на производительность случайного теста.

5.2 Сравнение результатов с предсказанием динамической

    Фигуры 2A и 2B показывают потерю точности и CNN и MLP сети, можно видеть, все модели нейронной сети и точности в предсказанных потерях превосходят все модели не-сети.
Here Вставка рисунка Описание

Рисунок 2: Сравнение с динамическими моделями и критериев: (1a) кросс потеря энтропии, (1b) точность предсказания, и (1с) экономическая ценность сетевых моделей, Армирование обучение (RL) и нормализованные Фиктивные Play (NFP) динамические модели, и критерии инерции и наиболее частые действия в предыдущей истории (MF). Синяя горизонтальная линия указывает на производительность лучшего распределения статического теста, а красная линия указывает на производительность случайного теста (см раздел 4.2 для более подробной информации).

Here Вставка рисунка Описание

Более интересная информация код сканирования озабоченность BBIT
Выпущенные шесть оригинальных статей · вона похвала 0 · Просмотров 41

рекомендация

отblog.csdn.net/ShenggengLin/article/details/105302550