強化学習: ベルマン最適公式

戦略改善事例

  強化学習の目的は、最適なポリシーを見つけることです。これには、最適状態値と最適戦略という 2 つの中心的な概念と、ベルマン最適公式というツールが含まれます。
  まず、ベルマン方程式がどのようにポリシーを改善するかについてのよく知られた例を示します。
ここに画像の説明を挿入
与えられた戦略に従って、次のようなベルマン方程式を簡単に取得できます。
v π ( s 1 ) = − 1 + γ v π ( s 2 ) v_π(s_1)=-1+γv_π(s_2)vp( s1)=1+v _p( s2) v π ( s 2 ) = + 1 + γ v π ( s 4 ) v_π(s_2)=+1+γv_π(s_4)vp( s2)=+1 _+v _p( s4) v π ( s 3 ) = + 1 + γ v π ( s 4 ) v_π(s_3)=+1+γv_π(s_4)vp( s3)=+1 _+v _p( s4) v π ( s 4 ) = + 1 + γ v π ( s 4 ) v_π(s_4)=+1+γv_π(s_4)vp( s4)=+1 _+v _p( s4)
γ = 0.9 γ=0.9c=0.9時,求得
v π ( s 4 ) = v π ( s 3 ) = v π ( s 2 ) = 10 v π ( s 1 ) = 8 v_π(s_4)=v_π(s_3)=v_π(s_2)= 10 \quad v_π(s_1)=8vp( s4)=vp( s3)=vp( s2)=10vp( s1)=8
  状態値がわかれば、アクション値を取得し、状態s 1 s_1s1例として、結果は次のようになります。
q π ( s 1 , a 1 ) = − 1 + γ v π ( s 1 ) = 6.2 q_π(s_1,a_1)=-1+γv_π(s_1)=6.2qp( s1ある1)=1+v _p( s1)=6.2 q π ( s 1 , a 2 ) = − 1 + γ v π ( s 2 ) = 8 q_π(s_1,a_2)=-1+γv_π(s_2)=8qp( s1ある2)=1+v _p( s2)=8 q π ( s 1 , a 3 ) = 0 + γ v π ( s 3 ) = 9 q_π(s_1,a_3)=0+γv_π(s_3)=9qp( s1ある3)=0+v _p( s3)=9 q π ( s 1 , a 4 ) = − 1 + γ v π ( s 1 ) = 6.2 q_π(s_1,a_4)=-1+γv_π(s_1)=6.2qp( s1ある4)=1+v _p( s1)=6.2 q π ( s 1 , a 5 ) = 0 + γ v π ( s 1 ) = 7.2 q_π(s_1,a_5)=0+γv_π(s_1)=7.2qp( s1ある5)=0+v _p( s1)=7.2
  上記の計算と直感により、この戦略は良くないことがわかりました。では、戦略が良くない場合、どのように戦略を改善すればよいでしょうか? これはアクションの値によって異なります。現在の戦略は次のように数学形式で表現できます:
π ( a 1 ∣ s 1 ) = { 1 a = a 2 0 a ≠ a 2 π(a_1|s_1)=\left\{ \begin{matrix} 1 \ quad a=a_2\\ 0 \quad a≠a_2\\ \end{行列} \right。π ( _1s1)={ 1ある=ある20ある=ある2

  前の状態s 1 s_1を計算することによりs1取得されたアクション値を例にとると、 q π ( s 1 , a 3 ) q_π(s_1,a_3)がわかります。qp( s1ある3)が最大であるため、3 a_3ある3新しい戦略は次のように表されます。
π new ( a ∣ s 1 ) = { 1 a = a ∗ 0 a ≠ a ∗ π_{new}(a|s_1)=\left\{ \begin{行列} 1 \quad a=a^*\\ 0 \quad a≠a^*\\ \end{行列} \right.円周率新しい_ _( a s1)={ 1ある=ある0ある=ある
a = a ∗ a=a^*ある=ある期間確率は 1 であり、新しい戦略が確実に∗ a^*ある、この例ではa ∗ = maxaq π ( s 1 , a ) = a 3 a^*=max_aq_π(s_1,a)=a_3ある=×qp( s1_=ある3

ベルマン最適性方程式: 定義

  前の例の計算を通じて、次のように定義される最適な戦略の定義を与えることができます。
v π ∗ ( s ) ≥ v π ( s ) foralls ∈ S の場合、それは π ∗ が最適であることを意味します。戦略 if \quad v_{ π^*}(s)≥v_{π}(s) \quad for\quad all\quad s∈S\quad は、π^* が最適な戦略であることを意味しますもしもv円周率( s )vp( s )ために全部_sSそうするとπということになりますは最適な戦略です

最优策略这一定义引发了许多问题:
	最优策略存在吗?
	最优策略唯一吗?
	最优策略是随机的还是确定性的?
	如何获得最优策略?

これらの質問に答えるには、ベルマンの最適性公式を研究する必要があります。
ここに画像の説明を挿入
  上図の 2 番目の式はベルマン最適式であり、ベルマン式と比較すると、ベルマン最適式は最適戦略条件下でのベルマン式であることがわかります。以下の図に示すように、ベルマンの変形形式とベクトル形式は次のようになります。ベルマン v と π の最適式には、
ここに画像の説明を挿入
  2 つの未知数 v と π が存在することがわかります。vπ、2 つの未知数を持つ方程式を解くにはどうすればよいでしょうか? 次の式で解けることを示します。
ここに画像の説明を挿入
ここに画像の説明を挿入
  上の 2 つの例から、q ( s , a ) q(s,a)q ( s ,a )がわかっている場合、最大値はmax ( q ( s , a ) ) max(q(s,a))max ( q ( s , _a )),当a = a ∗ = maxaq ( s , a ) a=a^*=max_aq(s,a)ある=ある=×q ( s ,a )の数式と条件は次のとおりです。ここに画像の説明を挿入

ベルマン最適性方程式: 解く

  Bellman 最適性方程式を解くとき、f ( v ) f(v)を導入します。f ( v )、その形式は次のとおりです。
ここに画像の説明を挿入
  上記の方程式を解く前に、固定点、収縮マップなどの

既知の関数 f ( x ) 、 f ( x ) = x となる x が存在する場合、点 ( x , f ( x ) ) は関数 f ( x ) の固定点です 既知の関数 f(x) が存在する場合f(x)=x となる x の場合、点 (x, f(x)) は関数 f(x) の固定点になります。既知の関数f ( x ) x が存在する場合f ( x )=xをポイント ( x ,f ( x ))は関数f ( x )の固定点です。( X , d X ) と ( Y , d Y ) が計量空間であり、 f : X → Y が写像であるとします。∣ ∣ d Y − d X ∣ ∣ ≤ γ ∣ ∣ X − Y ∣ ∣ となる定数 k ∈ [ 0 , 1 ) がある場合、 f は圧縮マップと呼ばれ、k は圧縮係数と呼ばれます。 X,d_X) と (Y ,d_Y) は計量空間、f:X→Y は写像です。\quad||d_Y-d_X||≤γ||XY||\quad のような定数 k∈[0, 1) がある場合、k は圧縮係数と呼ばれます。( X , _d×)および( Y d)は計量空間f ×Y はマッピングです。定数kがある場合[ 0 , 1 )次のような∣∣ dd×∣∣γ ∣∣ XY ∣∣f圧縮写像、kは圧縮係数と呼ばれます
  上記 2 つの概念を踏まえて、数学的解析において重要な定理であるバナハの不動点定理 (収縮写像定理) を紹介します。これは、完全な計量空間の圧縮マップには一意の固定点が必要であると主張します。

バナッハの不動点定理によれば、x = f ( x ) x=f(x)
である限り、次の特性が得られます。バツ=f ( x ) iffffは圧縮マップであり、
  1になります。 f ( x ∗ ) = x ∗ となるように、固定点 x ∗ が存在する必要があります。 f(x^*)=x^* となるように、固定点 x^* が存在する必要があります。固定点x が存在する必要がありますf ( x _ )=バツ
   2. 固定小数点 x ∗ は唯一存在します。 2. 固定小数点 x^* は唯一存在します。2.固定小数点xは唯一存在します
  3. 固定点は反復を通じて取得できます: xk + 1 = f ( xk ) , xk ≈ x ∗ 、k が ∞ になる傾向があるとき; 3. 固定点は反復を通じて取得できます: x_ { k+1}=f(x_k), x_k≈x^*、k が ∞ になる傾向がある場合。3.固定小数点は反復によって取得できます: xk + 1=f ( xバツバツk がになる傾向が

  さて、上記のバナハの不動点定理を使用してベルマン最適性方程式を解くことができます。解く前に、f ( v ) f(v)を証明する必要があります。f ( v )は圧縮マップですが、ここではアプリケーションにのみ提供します。証明プロセスに興味のある友人は、自分の目で確かめに行ってください。バナッハの不動点定理から、一意のv ∗ v^*v∗ であり、反復によって取得できます。
ここに画像の説明を挿入

ベルマン最適式解例

  簡単な例を使用して、ベルマン方程式を解くプロセスの理解を深めます。以下の図に示すように、ロボットには 3 つの動作がありますある、右にa_rあるr、その場でa 0 a_0ある0、報酬はr エンドポイント = + 1 r_{エンドポイント} = +1に設定されます。r終点=+ 1r 境界 = − 1 r_{境界}=-1r境界=1
ここに画像の説明を挿入
  上記で定式化したルールに従って、ロボットのq ( s , a ) q(s,a)q ( s ,a )
ここに画像の説明を挿入
ここでの問題は、最適な状態値v ∗ ( si ) v^*(s_i)v (s私は)と最適なポリシーπ ∗ π^*円周率
上記で紹介した方法を使用すると、γ = 0.9 γ=0.9c=0.9k = 0 k=0k=0の場合は、まず初期値をランダムに与えるので
ここに画像の説明を挿入

ここに画像の説明を挿入
最適な戦略が見つかったことがわかります。

最適戦略の特性

  最適な戦略に影響を与える要因は何だと考えられますか? 次の式によると、最適戦略に影響を与える要因はr、γ、モデル環境 r、γ、モデル環境r γ 、およびモデル環境
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_50086023/article/details/130749955