RL-Zhao-(4) - 모델 기반: ① Value iteration(값은 State Value가 아니며 한 단계로 계산됨), ② Strategy iteration(값은 State Value, Bellman의 방법에 의해 무한 단계로 계산됨) 공식), ③절단 전략 반복 [절충 ①②]
NoSuchKey
추천
출처blog.csdn.net/u013250861/article/details/134867859
추천
행