첫 번째 쌍의 프로그래밍 ASE

문제 정의

리차 탈러 잉태 퀴즈는 1997 년 런던 파이낸셜 타임즈 (Financial Times)에서 공개 이벤트를 실시 경제학자 골드 포인트 게임, 게임은 매우 흥미로운 특성 때문에 프로그램의 첫번째 접합 주제로 교사가 있습니다.

문제 정의

골든 포인트 게임에서, 가정 서버에 제출 (0 또는 100 제외) 0과 100 사이에 하나 또는 두 개의 유리수를 작성하는 각 사람, 현재의 모든 라운드의 끝에서 계산을위한 N 플레이어, 게임의 규칙이있다 평균 숫자 후 0.618 (이른바 골든 상수)를 곱한 값은 G 값을 얻었다. G 가까운 플레이어 수 (절대 값)가 제출-N, 플레이어로부터 먼 G가 다른 플레이어에게 점 -2, 0 점을 얻는다 얻어. 참여하는 경우 하나의 플레이어는 점수를하지 않습니다.

어려움의 문제

  • 대한 게임의 규칙 승자 독식, 각 라운드의 첫 번째 게임은 보상을받을 것이며, 마지막 하나는 시도의 아이디어는 각 라운드에서 금의 가장 가까운 지점을 가장 정확한을 예측하는 방법을 위험 점수에서 공제됩니다 매우 어렵습니다.
  • 게임 환경을 알 수 있지만, 게임, 같은 모델이 다른 사람에 비교 누군가 다른 사람의 전략에 크게 의존 가능한 효과는 매우 다양하다.
  • 이 게임은 정보, 이용 가능한 정보의 부족의 과거 거의 황금 점의 정보를 사용할 수 있습니다, 더 나은 모델을 배울 어렵다.
  • 단지 기본 및 room0 및 들어 Booth 몇 가지 규칙 기반 로봇의 대결 훈련 모델, 더 큰 실제 게임 장면 사이의 간격 동안 조정했다.
  • 할당 단기 이익과 장기 이익, 단기는 높은 점수의 기간을 의미한다 가능한 한 많이,만큼 가능한 장기 현재 라운드 점수를 말합니다.

모델링 방법

모델 도입과 동기 부여

핵심 알고리즘은 우리가 있기 때문에 시간 제약, 첫째, Q 학습을 사용하지만, 외국에, 두 번째는 복잡한 모델이 더 나은 모델을 필요로 훈련을 전달하려면 작업 및 온라인 의견과 제한 느린 적은 데이터입니다 항목이되지 않았기 때문에, 인종 데이터를 수집하는 데 많은 시간을 보내고, 게임과 유사한 다른 학생들이 없을 것, 그래서 우리는 모두 단순, 신경 네트워크를 사용하여 Q의 학습 방법을 채택하고 방지하지 않은 데이터 스파 스 덜 적합하기 때문이다.

간단히 Q q를 학습 다른 상태 하에서 서로 다른 값이 기록 작업 테이블을 사용하는 것, 다음 환경으로부터 수집 된 동작에 대응하는 Q 보상하여 테이블을 갱신한다.

다음과 같이 알고리즘은 다음과 같습니다

플로우 차트

구체적인 개선 사항

에 레이블이 없기 때문에 가장 중요한 것은 행동을 설계하는 방법과 좋은 행동 분포를 배우는 방법, 그래서 작업은, 그래서 우리는 당연히, 우리의 모델 때문에 매개 변수를 집중적으로 학습을합니다.

전자는 주로 우리가 디자인에서 원래의 동작이 매우 불합리하기 때문에, 우리는 마지막 지점 골드가 상대적으로 작은 수렴 할 것을 발견, 우리는 크기와 값의 범위를 변경해야 할 우선 개선하기 위해 팔 개 조치를 제공 데모를 기반으로 범위 우리는 다양한 범위의 임의의 샘플링을 수행하는 방법을 설계는 큰 편차를 발생 동작의 값을 방지 할 수있다.

후자는 반나절 때문에, 시간은 훈련 없습니다, 그래서 우리는 시간과 데이터 문제의 부족을 보충하기 위해, 여러 데이터 세트를 생성하는 경연 대회를 통해 다른 값을 예측하기 위해 로봇을 얻을하려고합니다.

결과 분석

경쟁의 첫번째 결과는 상반기, 우리는 주로도 금 지점 변화에 기초하고, 동작의 각 샘플링 범위의 수치 크기 및 두 번째 레이스에서 여러 가지 새로운 여러 하이브리드 동작 작용의 신규 추가를 변경 처음 네를 제작, 투자 한 시간을 기준으로 우리의 개선에서 상승의 결과는 첫째, 두 개의 다른 학생들이 반대의 효과를 연주 결과를 개선하기 위해 서두를 수있다 받아 들일 준비가되어 있습니다.

반사 요약

당신의 기대와 일치 그것의 1. 골든 포인트 게임 결과?

게임의 첫 번째 라운드의 결과가 매우 기대와 일치, 우리는 약간의 행동을 개선하지, 몇 가지 개선이 있었다, 그러나 결과는 세 가지 이유를 들어, 매우 만족되지 않습니다 : 1. 훈련 반복의 부족. 2. 모델 용량 부족을 나타낸다. 3.action 디자인은 아직 개선 할 수 있습니다.

2. 공식 게임하기 전에 모델의 품질을 평가하는 전략의 종류 걸릴?

들어 Booth 및 room0에 약간의 시간이 없기 때문에 항목의 얻은 점수를 참조 선거 플레이 학생들을 찾고되지 않습니다.

숫자가 3으로 각 라운드 제출하거나 대회에 참여하는 이상의 참가자를 찾고있을 수 있습니다 3. 경우, 방법은도 적합하다?

디자인 개념을 적용하지만, 몇 가지 변화를 선택하는 데 필요한 조치의 구체적인 방법은 더 될 것입니다 아이디어와 방법을 방해 할 수있다.

파트너 4. 평가는 평가 방법은 샌드위치 방법의 논의를 참조하시기 바랍니다. 개선을위한 파트너 및 제안 된 지역 자매 결연.

내 파트너가 우 지웨이 우 Xueqing는 팀 동료가 너무 강한 것입니다.

우 Xueqing 코드와 조직적인 기술은 우리가 바쁜, 강한,하지만 그녀는 곧 데모를했고, 많은 개선을 썼다.

우 지웨이 잘 효율 개선의 결과에 따라 만들어진, 그리고 더 많은 유망 방향은 물론, 코드하는 기능도 매우 강하다는 것을 지적하고있다.

나는 우리의 문제는 주로 시간에 다른 장소에서 일반 긴장의 결과라고 생각하고, 어떤 사람들은 시차, 비행기에 어떤 사람들, 미국에서 어떤 사람들을 반환, 우리는 항목이 없습니다 일부 요구 사항은 논의 된 다른 학생들과 교사들에게 많은 기회가없는, 매우 명확하지 않다.

5. 몇 가지 아이디어.

사람들의 수로 나눈 점수는 어떻게 한 번 더 사람이 로그 또는 동일한 교체 희망, 선형, 효과 만들어진 사실 세 사람보다 훨씬 더하지 않을 것이다 그것의 결과의 출력을 증가 할 수있을 것입니다 수있는 매우 불합리한 느낌 이 프로젝트는, 다른 사람은 10 분 소요, 그래서 우리는 8,9 점을 가지고있다. 

 
 

 

사람들의 수로 나눈 점수는 어떻게 한 번 더 사람이 로그 또는 동일한 교체 희망, 선형, 효과 만들어진 사실 세 사람보다 훨씬 더하지 않을 것이다 그것의 결과의 출력을 증가 할 수있을 것입니다 수있는 매우 불합리한 느낌 이 프로젝트는, 다른 사람은 10 분 소요, 그래서 우리는 8,9 점을 가지고있다. 

추천

출처www.cnblogs.com/wtxwtx/p/11565891.html