【機械学習基礎研究8】
倒立状態維持の強化学習(環境として速度を加えることで成功率100%)
操作間隔(行動時間間隔)を0.05秒(20Hz)と長めに設定した場合、おもりの位置情報のみで倒立状態を維持することは意外と難しいことを実感しているところです。今回は、おもりの位置情報に加えて速度情報を加えて倒立状態の維持を目指します。 結果、いとも簡単に成功率が100%となりました。
Q学習のパラメータ
環境と行動と利得の定義(行動価値関数の定義)
・角度の分割数:4
・角速度の分割数:4
→ 環境数4×4
・力の分割数(行動数):3
→ 最適行動価値関数:4×4×3
利得はおもりの位置エネルギーから運動エネルギーを引いた値($mgz-1/2 mv^2$)とし、目標達成時(5秒間落下しない)やペナルティー(5秒以内に落下)は与えないことにします。
Q学習の表式とパラメータの値
\begin{align} Q^{(i+1)}(s,a) \leftarrow Q^{(i)}(s,a)+\eta\left[ r+\gamma \max\limits_{a'} Q^{(i)}(s',a') -Q^{(i)}(s,a) \right] \end{align}
$s$ : 時刻tにおける状態。$s(t)$と同値。
$a$ : 時刻tにおける行動。$a(t)$と同値。
$r$ : 時刻tの行動で得られた利得。$r(t+1)$と同値。
$Q(s, a)$ : 状態$s$における行動aに対する行動価値関数。上付き添字($i$)は学習回数を表す。
$\gamma$ : 割引率($0< \gamma \le 1$)
$\eta$ : 学習率($0< \eta \le 1$)
$s'=s(t+1)$
今回の設定
行動時間間隔:0.05(20Hz)を基準(0.05秒ごとに行動を選択・実行する)
学習回数(episode):10000
割引率($\gamma$): 1.0
貪欲性($\epsilon$):学習回数0回から500回まで0.5から1.0まで徐々に上げる。それ以降1.0のまま
学習率($eta$):学習回数0回から500回まで0.1、それ以降0.01のまま。
学習結果
学習回数に対する成功率(100回学習ごとの平均)のグラフを示します。 同じ条件で10回の学習し、①最も成績が良い結果(青色)、②最も成績が悪い結果(橙色)、③10回の平均(茶色)の3つを表示します。
行動時間間隔:0.05[s](20[Hz])
100個すべての機械で成功率100%となりました。以下は、行動時間間隔を長くして、成功率の変化をみておきます。
行動時間間隔:0.1[s](10[Hz])
行動時間間隔:0.2[s](5[Hz])
行動時間間隔:0.5[s](2[Hz])
当たり前ですが、成功率は行動時間間隔を長くなるほど下がることがわかります。 反対に行動時間間隔を短くした結果も示しておきます。
行動時間間隔:0.02[s](50[Hz])
行動時間間隔:0.01[s](100[Hz])
水平自由単振子運動の軌跡(滑車とおもり)
今回、滑車の位置に関しては制限していないため、ランダムに与えられるおもりの初期速度に合わせて、滑車も平行移動させることが成功率100%の秘訣(学習解)であることがわかります。
結果と考察とメモ
物理系を対象としているので、関係する物理量を環境として適切に与えることの重要性がわかった。
【メモ】ランダムな外力を加えて問題の難易度を上げる
【メモ】滑車の位置を原点付近に留まるようにする
プログラムソース(C++)
・http://www.natural-science.or.jp/files/NN/20180621-1.zip
※VisualStudio2017のソルーションファイルです。GCC(MinGW)でも動作確認しています。
参考(物理シミュレーション)
上記シミュレーションは、ルンゲ・クッタ法という常微分方程式を解くアルゴリズムを用いてニュートンの運動方程式を数値的に解いています。本稿で紹介した物理シミュレーションの方法を詳しく解説している書籍です。もしよろしければ「ルンゲ・クッタで行こう!~物理シミュレーションを基礎から学ぶ~(目次)」を参照ください。