ASE 고급 소프트웨어 공학 첫 번째 쌍 프로그래밍

문제 정의

문제 정의

Zou 연은 교사의 블로그는 게임을 가지고 혁신 타이밍을 - 황금 포인트 게임을

N 플레이어는 상기 서버로 전송 (0 또는 100 제외)가 0 ~ 100 사이의 각 기록 한두 유리수는, 상기 서버는, 소위 (0.618을 곱한 현재 라운드의 끝에서 모든 수의 평균을 산출 황금 상수)의 G 값을 얻었다. G 가까운 플레이어 수 (절대 값)가 제출-N, 플레이어로부터 먼 G가 다른 플레이어에게 점 -2, 0 점을 얻는다 얻어. 참여하는 경우 하나의 플레이어는 점수를하지 않습니다.

어려운 문제

  • 다른 사람의 전술을 알고 하드 만 어떻게 정보가 어려움이다 사용하는 특정 골드 포인트의 역사적 가치를 통해 추정 할 수있다.
  • 첫째, 게임의 뷰 규칙의 관점에서, 리턴 게임에서 승리, 멀리 골드 플레이어에서 가장 먼 지점이 2 점을 버클합니다 (플레이어의 분율을 얻을 수에 해당) 매우 높은, 손실의 위험이 게임을 느낌, 잘되지 않습니다 메커니즘은 위험 감수를 장려하지만, 근처의 금 "모험"매우 어려운 때 얼마나 변화의 극적인 점에서 금의 값을 예측하기.
  • 점수 로봇의 가장 정확한 예측이 어려움을 많이 득점 있도록 우승자는 얼마나 신뢰할 수있는 것은 어려운 점수이며, 모든 규칙을합니다.

모델링 방법

동기 부여 및 알고리즘 소개

온라인 방을 열고 게임을 테스트하기 위해 조직 된 여러 그룹에서, 우리는 금의 예측값의 다음 지점으로 지난 5 황금 점의 데모 평균을 사용하는 것은 매우 잘 한 것을 발견하면서 우리는, 황금 점 게임 시리즈의 예측 문제에 더 비슷한 느낌 데모 내가 시리즈는 직관적 예측에 통신 문제 같은 느낌, 강화 학습을 손실되지 않습니다, 우리는 그렇게 RNN 평균 예측을 의미 복용의 방법보다 더 나은 배우고,이 문제를 해결 할 수 있습니다 좋은 느낌 LSTM에서 pytorch의 사용에이 문제를 해결합니다.

곡선 곡선 그 자체를 처리하는 일련의 예측 문제 등의 문제가 매우 중요한 가치와 그 변화율 그래서 우리는 두 종류의 입력을 선택, 입력 시퀀스와 같은 과거의 제 1 입력 모드 선택 K 황금 소수점 값 과거 K 황금 시점의 시간차에 제 2 입력 모드의 선택, 즉, K-1의 차이 값은 숫자 1과 숫자 2의 두개의 예측 값을 얻기 위해 입력됨에 예측 방법이 좋은 결과를 얻을 수 있어야한다고 생각.

플로우 차트

  • 과정의 시작

  • 비즈니스 프로세스의 강제 부문에 대한 첫 번째 테스트 후

어떤 다른 아이디어

멀티 플레이어 게임 이론의 황금 포인트 게임으로 너무 많은 점은 금의 추세에 영향을 미칠 수 있기 때문에 규칙이 두 숫자를 전송할 수있는 당신이 함께 활용할 수 있습니다, 작은 수, 플레이어의 소수의 경향 적절하게 다른 점수의 가능성을 높이기 위해 자신의 수를 증가하면서 많은 수의, 교란.

외란의 판정은 게임 플러스 바이어스의 결과와 동등하므로 우선, 교란, 랜덤이어야 다른 플레이어와 간섭하지.

간단한 아이디어 (최대 허용) (99)에 설정되는 숫자 (번호 1)이고, 다른 번호 (숫자 2) 플러스 0.618 (99 - 이전의 예측 값) / (플레이어 수 2), 정확하게 말하면, 숫자 2 골드 포인트의 값이 영향을 받게됩니다 증가하지만, 선수의 수는 특히 적은 시간은 무시해야하지 않습니다. 내가 생각했던 그 때, 아이 날은 선험적으로 알려져에, 나는 약간의 주도권을 얻기 위해 영향이 정보를 사용하여 방해하고, 나중에 효과가 실제로 일반적인 것으로 나타났습니다.

그러나 실제 시험이 방해가 두 개의 번호를 하나의 사실에 큰 값 탈출구을 차단하는 것과 동일로 설정되어 있기 때문에, 자신을 구덩이하기 쉽고, 다른 사람이 적은 금 점의 수를 예측하는 데 비해 것을 발견했을 때, 당신은 적자가 매우 높은 득점 률이 있는지 확인하지만, 손실의 위험이 증가하므로 추가 할 수없는 경우에 비해 단지 적은 분은 또한 항상 가능한 지점으로 이동하지 않더라도 다른 번호는 상대적으로 보수적 인에서 할 수있다.

결과 분석

첫 번째 라운드 게임

첫 번째 집단 테스트는, 우리가 데모를 통해 많은 변화에서이기 때문에, 데모 전략에 방해를 유지, 고 (세번째 아래) 위, 우리가 나중에 이유를 분석 우리의 발견 1000 개 게임 결과 그래서 소수점 값이 중대하다 금의 작은 부분은, 우리의 RNN이 영향을받을 수 있어야이 큰 변동 곡선이 있습니다, 예측 값이되도록 한 것보다 거의 예측도 덜하고, 항상 너무 큰 금 점의 큰 부분 점수 우리가 아무 관계가 없다,이 게임은 우리의 봇의 매우 수동적 인 환경입니다.

반면에, 우리는 로봇이 많이 사용 발견 , 사용에 주요 자리를 0.618를 곱한 황금 포인트를 사용 , 전략, 그래서 라운드의 많은 검은 현상의 개방 하위 그룹과 같은 전략을 사용하는이 등장하고 있습니다 각 라운드에서 포인트를 얻을하지 않습니다 이러한 그룹 정책을 사용하고,이 현상의 고주파없이, 우리는 가입 이길 수 있지만 의지, 그래서 방법이없는 변화의 수 황금 점과 0.618를 곱한 함께 다른 점에 BOT합니다.

실제 게임

우리가 5 위를 차지 공식 게임은, 나는 그런 휘발성이 높은 일련의 예측 정말 RNN 적합하지 않은 느낌, 강화 학습을 사용하는 상위 몇 좋은 결과를 달성했다. 전반적인 변동성을보고하는 동안 좋은 장소 골드 차트 형이상학은 좋은 질문을 느낄 수 있지만, 자세히 살펴보면 좋은 그룹을 할 수와 같은 피크 또는 반등 시나리오에서 연속 하락 등 일부 지역의 법률, 거기에 약간의 라운드를 가지고있다 이러한 경우이다 더 나은 채택 전략, 그들은 높은 점수를 얻을 수 있습니다.

반사 요약

  • 경기의 결과 골든 포인트 게임은 당신이 그것을 기대?

    게임의 첫 번째 라운드의 결과는 학생들이 구축되기 전에 개인 객실 테스트하기 때문에,보기의 테스트 결과 포인트가 결과를 얻을 것으로 예상했다 매우 기대와 일치하지 않지만 1000 아래의 결과를 상호, 즉 테스트 게시물 임시 분석입니다 봇이 우리에게 포인트를 방지하기 위해보다 공격적인 전략을 채택 일부 객실이있다, 우리는 나쁜 전략 설계를 교란하기 때문에 게임의 첫 번째 라운드에서 성능 저하의 결과로 벌점의 많은 경우가 있습니다.

  • 공식 게임하기 전에 모델의 품질을 평가하는 전략의 종류 걸릴?

    봇과 다른 학생들이 경기에 앞서 테스트되었습니다, 우리가 관찰하고 점수 포인트 상황.

  • 숫자가 3으로 각 라운드 제출하거나 대회에 참여하는 이상의 참가자를 찾고있을 수 있다면, 당신의 방법은도 적합하다?

    우리는 너무 잘 확장 할 수는 RNN 사용하지만, 수치 모델의 결과는 매우 더 나은 결과를 달성하기 위해 보장 할 수 없습니다 큰 방해를 영향을받은 우리의 관점에서

  • 파트너의 작업을 평가하십시오, 평가 방법은 샌드위치 방법의 논의를 참조하시기 바랍니다. 개선을위한 파트너 및 제안 된 지역 자매 결연.

    내 파트너는 그는 내가 매우 바쁜 며칠, 그는 내가 자신의 아이디어를 공유 나는 매우 긍정적 인 효과 명, 페어 프로그래밍 운영 배열이며, 곧 데모를 완료, Shengnan_An입니다. 우리의 최종 코드는 또한 가장 그가 쓴있다, 나는 우리의 문제가 주로에 일반적인 일정의 결과라고 생각합니다, 나는 며칠 바쁜 시작하고, 그래서 시간이 논의되지 작은 파트너는 몇 일 뒤에 다시 학교에 갈 필요가 그것의 단점을 분석 테스트 때보다, 서둘러 다. 시간의 문제는 정말 아무 생각이 없다, 나는 주니어 파트너가 가장자리에 확실히 생각.

추천

출처www.cnblogs.com/QiLF/p/11563920.html