[ASE 고급 소프트웨어 공학] 첫 번째 자매 결연 작업

문제 정의

특정 규칙 참조 : 유인물을 . 다음과 같이 대략 규칙은 다음과 같습니다

급우 N은 (N은 10보다 일반적으로 더 크다)는 각각 (0 또는 100 제외) 100 0 사이의 유리수를 작성 심판으로, REF는 0.618 (이른바 골든 상수 곱 모든 수의 평균을 산출 )의 G 값을 얻었다. 디지털 G 가까운 (절대 값) 얻어진 학생 제출-N은 G로부터 먼 -2, 0 다른 학생들이 학생을 얻었다.

어려움 :

  1. 환경 알 수없는 . 게임 아케이드 게임으로 "황금 포인트는"게임 자체의 규칙은 비교적 간단하다. 따라서, 게임 상황이 크게 다른 플레이어의 전략에 따라, 예측 체스, 체스와 다른 게임, 게임의 규칙을 준수해야 큰 정도의 상황 및 개발과는 달리, 약한, 그래서 당신은 강한 예측할 수있다 . 이것은 게임 "최적의 정책"또한 스크래치 효과에서 훈련 모델보다 때로는 더 나쁜, 효과가 만족스럽지 pretrain 모델을 다른 플레이어의 전략에 크게 의존되었다.
  2. 데이터의 부족 . 첫 번째 점 때문에, 우리는 교육 모델의 처음부터 레이스 도중뿐만 아니라 팀의 가장으로 선택했습니다. 그러나 게임을하는 동안 데이터 만의 새로운 라운드를 얻을 수있는 데이터의 양이 너무 작 융합 모델에 도움이되지 않습니다. 또한, 각 데이터는 적어도 3 초를 필요로하는 전쟁에 다른 사람들과 서버를 사용하여, 코드, 매개 변수의 조정 과정을 쓸 수 있지만 효과적으로 조정 매개 변수를 더 어렵다.
  3. 스파 스 보상 . 이것은 많은 RL 문제에 대한 일반적인 문제입니다. 이 게임에서는, 대부분의 경우에 보상 모델이 학습에 도움이되지 않습니다, 0입니다.

또한, 개인은 게임 자체 것을 의심의 여지가 : 게임의 규칙의 많은 자체가 가능한 "최선의 전략"을 연상 RL 할 수있을 것이다, 그러나 게임의 규칙은 인간 내가 느끼는대로 내가 너무 많은 임의성을 느낄 수 있습니다 혼란. 심지어 나 자신 RL 에이전트, 또한 추측 더 나은 전략보다 배우기 어려울 수 있습니다, 또는 다른 플레이어가 더 나은 전략을 선택하기 위해 정책 분석의 어느 정도를해야 할 수도 있습니다. 결과는 게임이 좀 높은 팀 점수는하지만, 게임 자체 정말 "최선의 전략"가 있는지를 보여 주었다? 개인적으로, 나는 확실하지 않다. (물론, 이것은 단지 개인적으로 몇 가지 이상한 게임을 느낌, RL 학습에 영향을주지 않습니다.)

모델링 방법

핵심 알고리즘

우리는 Q-학습을 사용합니다. 알고리즘은 외부 상태로 기록되어, 테이블 Q가 유지 \ (S \) 아래에서 일부 액션을 수행 \ (A \) 예측 보상 \ (Q (S, A)를 \) . 일단 각 상태에서 충분한 실제 테이블 Q가 (S \) \가 , 당신은 액션 선택할 수 있습니다 \ (A * = ^ \의 Arg \ max_a Q (S, A) \) , 극대화 할 것으로 예상 보상을.

질문 표를 알 수 있기 때문에 실제로, 환경에서 배울 필요가있다. 특히, 임의의 초기화 Q 테이블의 모델은 다른 상태로 다른 작업을 시도하고 점차 더 현실적인, 더 지침 모델 조치를하고, 추정 된 Q 테이블 관찰 보상 피드백, 모델을 수정합니다. 다음 순서도는 다음과 같습니다

이 숙제, 우리는 좀 더 합리적인 조치를 추가, 2, 우리가 학습에 대한 데이터를보다 가능한 구성의 어려움을 해결하기 위해. 섹션의 세부 사항을 특정 구현을 참조하십시오.

의욕을 사용하여

때문에 분석 1.의 어려움, 우리는 처음부터 필요 기차로 간주하므로 데이터 부족의 양이 심각한 문제입니다. 따라서, 우리는 많은 매개 변수, 더 어려운 융합의 신경망 모델에 적합하지 않습니다 만, 가장 간단한 Q 학습해야한다 생각합니다.

Q가 고려되지 않기 때문에 학습 상태, 작업,하지만 사이의 상관 관계를 각각 \ ((들, A) \ ) 수렴 너무 어려운 별도로 Q 값, 작업 공간 또는 상태 공간 모델의 최대 저장됩니다. 따라서, 우리는 상태 공간 및 작업 공간, 수동으로 만 디자인 작업으로 더 유용한 전략의 일부의 크기를 제어 할 수 있습니다.

실현

  1. 조치를 개선하기 위해 . 필요 개의 디지털 입력과 동작의 원래 많은 개의 디지털 출력의 경우, 동일하지 않은, 이미 동작중인 데모 우리 근접한 일반적인 통계 데이터의 초기 값을 가져 오는 동작의 출력의 초기 값을 변경 도움이 점수는, 우리는 두 번째 숫자에 약간의 임의성을 소개하고, 또한, 우리는 몇 가지 새로운 조치를 도입, 금의 일정 범위 내에서 임의의 숫자가 종종 점에서 많은 수의 또는 방해의 출력을 표시 출력합니다.
  2. 구조 데이터 . 국에 사용할 수 API 서버는 모든 디지털 제출하기 때문에되도록 데이터 "이전 라운드에서, 나는 것과 같다 보상을 얻을 수있는 또 다른 전략을 채택하는 경우"교육 과정에서 우리는, 우리가 만들 수있는 데이터 연장 량 \ (N_A \) 배, \은 (N_A \) 동작의 수이다.

결과 분석

1 회, 제 육에 대한 우리. 특정 동작의 결과 데이터 및 다른 미세 조정의 범위 골든 포인트 미국 따른 이닝 사이에서 달성하고, 상기 제 이닝 처음 네 원.

반사 요약

  1. 경기의 결과 골든 포인트 게임은 당신이 그것을 기대?

    첫 번째 게임 라운드 결과는 가난하지만, 우리는 개선 후 약간의 증가를 촬영했다. 전반적으로, 우리의 봇 효과가 탁월한 아니라, 주된 이유는 디자인의 상태가 너무 단순이라고 할 수있다 : 우리는 국가의 상승 숫자로, 금에 지난 10 포인트 하락를 사용, 상황의 현재 상태를 묘사 완성하기가 어렵습니다. 또한, 우리는 Q-학습 학습 능력은 여전히 ​​제한되어 나타낼 수 있습니다, 그룹의 더 나은 성능이 DQN를 사용하여 이해합니다.

  2. 공식 게임하기 전에 모델의 품질을 평가하는 전략의 종류 걸릴?

    우리는 room0, 들어 Booth에서 봇을 실행, 경쟁, 평가 모델 결과에 참여. 나중에 room0는 들어 Booth 속도가 너무 느린, 우리가 만든 다른 학생들의 일부의 효과를 평가하기 위해 방을 추가됩니다. 또한, 우리는 학습 곡선이 로봇은 학습 능력 평가, 봇을 관찰, 봇 라운드 보상을 기록했다.

  3. 숫자가 3으로 각 라운드 제출하거나 대회에 참여하는 이상의 참가자를 찾고있을 수 있다면, 당신의 방법은도 적합하다?

    세 번호는 Q-학습을 적용 할 수 있지만, 필요 데이터를 분석, 디자인은 세 가지 디지털 전략을 제출하는 것이 더 적합하다. 작업 공간이 너무 큰 경우, 당신은 행동 사이의 관계 Q 테이블 모델링을 고려할 수 있습니다.

    많은 참가자를 들어, 방법은 여전히 ​​적용됩니다.

  4. 파트너의 작업을 평가하십시오, 평가 방법은 샌드위치 방법의 논의를 참조하시기 바랍니다. 개선을위한 파트너 및 제안 된 지역 자매 결연.

    내 파트너는 두 학생은 매우 좋은 우리의 프로젝트에 많은 기여를했다, 티안 웨이 우 지웨이 우 Xueqing 학생입니다.

    웨이 티안 RL의 반 친구들은 매우 신속하게 알고있는 문제 해결 방법을 분석하고, 적극적으로 디버깅 코드를 작성.

    데이터에 우 지웨이 학생들은 분석하고 대응하는 개선은 코드를 많이 기여했다.

    또한, 때문에 해외에서 우리의 여름 연구의 나라에서, 국내 학생들과 조교와는 제한되어 교환하고, 각 DDL 전에, 그래서 우리의 여름 연구 복귀 시간의 끝 부분 여름, DDL 프로젝트 기간 동안 우리 중 일부를 자신의 연구 작업이 사람들은 어떤 사람들은 곧 비행기로, 어떤 사람들은 여전히 ​​바쁜 여름 연구 결말이며, 시차를 반환, 그래서 전체 시간의 상대적 부족합니다. 그의 팀 동료가 아주 좋은,이 결과도 만족하실 수 있다고 생각합니다.

추천

출처www.cnblogs.com/jennawu/p/11568118.html