첫 번째 쌍 작업 ASE--

첫 번째 쌍 작업 ASE--

문제 정의

나는 MSRA 황금 포인트 게임,하자 모두 쓰기 봇 AI 상인 향신료를 절단보다 지능이 될 수있는 사람을 확인하기 위해 경쟁에 참여하는 것을 들었다. 깊이 ASE 교육 과정 교사도 조심스럽게 작업을 설계하고, 다양한 인터페이스 우리는 알고리즘의 부분에 초점 준비가되어 있습니다. 사용하기 쉽고 정말 재미 (자폐증의 마지막 플레이)

문제 정의

0.618의 평균 값에 곱한 두 숫자 중 모든 플레이어 게임에서 골든 포인트가 회 골든 번호이며, 플레이어 먼 득점 선수의 황금 수의 최신 수치. 그러나 모든 시간이 점수가 선수의 수와 동일, 두 점은 고정 점이다. 게임의 규칙이 동작은, 서브 포인트 차감 다음 황금 점의 더 나은 예측이 얼마나 중요한지 중요하지 않습니다 보여 모든 사람을 격려하는 것과 같습니다, 확률이 매우 높은 점수는 성배입니다. 우리 선생님은, 다음 RL 골든 포인트 게임 단어의 관점에서 경쟁에 참여하는 RL을 사용하도록 우리를 격려 : 봇 플레이어의 에이전트 (때문에 로봇 사이의 협력을 고려하지 않고), 이전 게임에 대한 다른 봇 경우 이 로봇은 환경이다. 물론 이러한 환경은 매우 복잡하며, 동적, 에이전트는 마지막 승리를 얻기 위해 자신의 정책을 조정하는 정보 환경을 계속 수집 할 필요가있다.

어려운 문제

  1. 환경 금 게임의 포인트를 설명하기 어렵다

    우리는 모든 선수에게, 데이터가 각 플레이어의 현재 점수가 기록 데이터를 얻을 수 있습니다. 얼마나 효과적 이러한 데이터는 현재 상태가 더 까다로운 문제이다. 데모는 골드 포인트 상승 및 현재 상태에 대한 설명으로 지난 10 년 가을의 수에만 교사를 사용, 그것은 물론 현재 상태를 나타내는 정보를 추가 할 생각할 수있다, 기차가 더 나은 모델이 더 정확하지만 더 어려울 것이다. 국가의 무한한 여기가 채택됩니다 (그렇게하는 것입니다에 RLdemo를) 제한된 다양성을 줄이기 위해 상태를 강제하지 않는 한 표 방법은, 우리는 일부에 대한 액세스를 만들기 위해 근사 방법을 작동하지 않도록 적절한 필요가있다 업데이트 데이터가 상태에서 일반화 에이전트가 보지 못한 할 수있는 충분한 능력을 가지고 후에는 좋은 전략을 제공 할 수 있습니다.

  2. 액션 선택

    내 동료와 나는 더 나은 소득을 얻을 다행히 어떤 조치, 게임의 경우 고려해야 할 오랜 시간 동안 얘기하고 싶지 않았다, RLDemo 몇 가지 예 감안할 때 최근의 금 현물 특정 작업입니다. 다른 플레이어가 어떤 방해 전략을 취할 경우, 부당 시간 등의 작업을 금 출력의 최근 라운드를 가리 킵니다. 사람들이 전략과 행동을 얻을 수 없기 때문에, 나는 좋은 방법이 없었 오랫동안 생각하고, 궁극적으로 차선책이 어떤 행동을 고정 선택합니다.

모델링 방법

초판

그리고 그의 동료는 최근 프로그램을 논의 할 때 이전에 내가 많이 생각 RL에 종사. 그들은 매우 바쁜 때 우리는이 봇을 쓰고 있었기 때문에 그러나, 그는 내가 무료 청화 9 월 밀어 준비하고, 보안 연구 일 처리로 되돌아 갔다. 결국 논의 몇 가지 좋은 아이디어는 (불편)을 지출하지 않았다. 첫 번째 버전 근사 densenet 사용되는 것을 특징으로하는 종래의 포스트 DQN이다. 우리는 세 번 최근의 처음 세 개의 매개 변수 금 5 점 평균의 다항식 적합하고, 최근 십 골드 포인트의 최근 3 골드 포인트 평균의 하락 추세의 수를 할 상승 가까운 10 금을 가리 현재의 입력 상태를 특성화한다. (이제이 프로젝트는 더 나은 추출 어쩌면 네트워크 기능, 고장으로 내가 생각하는 것을 특징으로 할 수있다). 단어의 부분에 DQN 기존의 프레임 워크는 다음과 같습니다

주요 네트워크 지연 타겟 네트워크의 수와, 두 네트워크의 출력 차이가 Q 학습 Q 및 Q 현실적인 추정합니다 (TD-오류를 구성하는) 단순히가 조정될 수있는 파라미터는 슈퍼 갱신 빈도 및 메모리 크기이다. 법을 준수하는 DQN 알고리즘 :( 버전의 서튼 소개와 호기심 모두 23333)

두 번째 판

전체 게임이 잘 모델이기 때문에 우리가 다른 사람의 입력과 계획을 할 수 있도록 첫 번째 버전은 급하게, 내 동료를 테스트하고 앞에서 설명한 몇 가지 아이디어를 추가하기 시작의 첫 라운드 후 밖으로 몰았다 각 라운드는 훈련 데이터의 시뮬레이션의 각 상승 작용의 경우를 만들 수있다. DQN 있지만 특정 고정 조치를 제공하지만, 우리는 또한 DQN도 따라서 크게 훈련의 속도를 향상, 작업을 다시 시뮬레이션 넣어 선택하지 않은 즉, 어떤 점은 피해야하고 막 다른 골목으로 싱크 할 수있다.

위와 같이, 또한 정말 우리는 또한 자신의 황금 점 플랫폼을 유지, 액션 경험 후의 선택은 우리의 모델을 개선 할 수 있도록, 사건의 현재 상태에 액션 보상의 다양한 시도했다. (RL은 거의 모든 게임에서 볼 수 있습니다 결국, 실제 문제가 아니라, 좋은 모델입니다)

결과 분석

1000 처음으로, 아직 완전히 예상치 못한 세 번째 순위하지만 베어 DQN 작성되었습니다, 우리는 약간의 표현 상태를 설계하지만,하지만. 난 단지 행운을 말할 수있다. 나중에 우리가 두 번째 버전 전에 지불하는 몇 가지 잘 설계된 정책과 계획, 추가, I 봇 및 이전 버전의 10뿐만 아니라 방에 표 데모 플레이의 일부로서 비교. 결과! ! 우리는 중주를 죽이고 원하는대로 봇으로 크지 않다 뒤집어하지만, 이전보다 더 나쁜. . . 그 10 간단한 DQN 몇 가지 매개 변수를 조정, 그것은 잘 실행 처음에 약간의 DQN, 그냥 보여주기 시작 일부 DQN는 표 방법보다 더 나쁜 안됐다. 그리고 내 동료는 두 모델을 간단 DQN 두 번째 버전 번호를 지불 계획, 첫 번째 숫자를 지불에 포괄적 인 모습을 생각하지 않았다, 공황을 비교합니다. 연습에서 지불을 처음 DQN의 매개 변수를 변경하는 작은 테스트 진리의 유일한 기준이다. 게임이 방해 요인, 특히 챔피언 봇에 합류 봇이 많이 있기 때문에 매일, 우리는, 조금 분석 (우리가 게임 성능, 다음 정상적인 게임을 망치 걸려 시작 후 썩은 제외 wellmodel 있다면 몰라) 다수 의해 얻었 매우 활성, 안정성 신호. 그리고 우리의 빈약 한 시작이 아니라 어떻게 점수를하는 상황에 있었다, 그러나 계획이 없다, 단지 작업의 일부를 득점하려고하는 욕심 방법을 엡실론 의존하고 있습니다. . . 턴어라운드 맞바람없이 능력에 상응하는, 그래서 그는 무릎을 꿇었다. 그 후 당신은 계획 버전을 추가 할 수 있으며, 추출 기능은 네트워크 버전과 결합, 플러스 방해 전략은보다 안정적인 솔로 접시 봇의 일부를 이길 수 있습니다. 심하게 너무 형제, 학대.

문제

  1. 골드 포인트는 아직 기대에 부합하는 결과

    계획의 최종 버전의 추가 지출에 대한이 없었기 때문에, 기대와 일치 넣습니다. 베어 DQN 모두 봇 놀이, 더 야채 등가도 의미가 있습니다. 때문에 개인적인 이유로 우리는 몇 가지 아이디어를 보낼 수 없었다 우리는 전쟁 조금 연민을 설계했습니다.

  2. 공식 게임하기 전에 모델의 품질을 평가하는 전략의 종류 걸릴?

    우리는 라운드 충분한 수의 (단지 순위되지 않음) 모델의 품질을 판단하는 제대로 예측 금 점의 비율을 결정하여 다음 봇 서로 놀 수있는 공간을 열려면 몇 가지 간단한 로봇을 기록 향상 봇 등을 사용합니다. 이 경우 예를 1w 라운드 들어, 3000 점을 득점하고, 낮은 지점의 비율, 그리고 좋은 모델입니다.

  3. 숫자가 3으로 각 라운드 제출하거나 대회에 참여하는 이상의 참가자를 찾고있을 수 있다면, 당신의 방법은도 적합하다?

    여기에서, 참가자 점점 더 디지털 더욱 더 우리는 결국 전통적인 방법보다 RL 사용의 이점을 강화하고, 대화 형 학습 환경 것.

  4. 파트너의 작업을 평가하십시오, 평가 방법은 샌드위치 방법의 논의를 참조하시기 바랍니다. 개선을위한 파트너 및 제안 된 지역 자매 결연.

    내 동료는이 경쟁을 매우 심각하게, 우리는 또한 정책에 대한 많은 논의가 있었다. 불행하게도 보안 연구로 인해 푸시 가지의 무료 완전히 실현 될 수있는 시간을 낭비하지 않습니다. 특히 나에게, DDL 일일 칭화 기계 시험 면접을 전달하기 전에 거쳐야하는, 유감을 짝. 그러나 우리 모두는 기본 DQN에 서둘러 협력도 찬양, 관련 테스트를 완료!

추천

출처www.cnblogs.com/vo1ad0r/p/11568496.html