【機械学習基礎研究14】
最下点からの強制振動の強化学習（原点付近に留まるような報酬の与え方）

文責：遠藤理平（2018年7月27日）カテゴリ：機械学習(18)

前回に続いて、最下点に置かれた振り子を、できるだけ原点付近に留まるようにして強制振動の強化学習を行います。５秒間で力学的エネルギーが20[N]（振り子が１回転できる量）を超えたら成功とみなします。前回と同様、利得に原点からの距離の２乗に比例する減点項を加えることで意図通りの学習ができることを確認できました。

Q学習のパラメータ

環境と行動と利得の定義（最適行動価値関数の定義）

・おもりの角度の分割数：１１
・おもりの角速度の分割数：７
・滑車の位置の分割数：７
・滑車の速度の分割数：７
→　環境数：１１×７×７×７
・力の分割数（行動数）：５

利得の定義：原点からの距離の２乗に比例する減点項

力学的エネルギー（位置エネルギー＋運動エネルギー）が増大するように、利得として力学的エネルギーをそのまま与えます。一方、滑車ができるだけ原点近傍に留まってほしいので、原点からの距離の２乗に比例する減点項（バネ弾性力のポテンシャルに相当）を考慮します。

\begin{align} r = mgz + \frac{1}{2} m v^2 - \frac{1}{2} k x^2 \end{align}

第１項目：ポテンシャルエネルギー（加点）、第２項目：運動エネルギー（加点）、第３項目：バネ弾性力ポテンシャル（減点）
成功時や失敗時の加点・減点は行っていません。

Q学習の表式とパラメータの値

\begin{align} Q^{(i+1)}(s,a) \leftarrow Q^{(i)}(s,a)+\eta\left[ r+\gamma \max\limits_{a'} Q^{(i)}(s',a') -Q^{(i)}(s,a) \right] \end{align}

$s$ ：時刻tにおける状態。$s(t)$と同値。
$a$ ：時刻tにおける行動。$a(t)$と同値。
$r$ ：時刻tの行動で得られた利得。$r(t+1)$と同値。
$Q(s, a)$ ：状態$s$における行動aに対する行動価値関数。上付き添字（$i$）は学習回数を表す。
$\gamma$ ：割引率（$0< \gamma \le 1$）
$\eta$ ：学習率（$0< \eta \le 1$）
$s'=s(t+1)$

今回の設定

行動時間間隔：0.05（20Hz）（0.05秒ごとに行動を選択・実行する）
学習回数（episode）：9,000回（残りの1,000回は学習なし）
割引率（$\gamma$）: 1.0
貪欲性（$\epsilon$）:学習回数0回から9,000回まで0.5から1.0まで徐々に上げる。それ以降1.0のまま
学習率（$\eta$）：学習回数0回から9,000回まで0.1、それ以降0。
初速度（ $\boldsymbol{v}_{0}$ ）：-1～1[m/s]でランダムに与える
外力（ $\boldsymbol{f}_{\rm ext}$ ）：なし

学習回数に対する成功確率と力学的エネルギー（運動エネルギーと位置エネルギーの和）の時系列グラフ

学習回数に対する成功率（100回学習ごとの平均）のグラフを示します。最後の1,000回は貪欲性１として学習結果を評価しています。同じ条件で１００回学習し、①最も成績が良い結果（青色）、②最も成績が悪い結果（橙色）、③１００回の平均（茶色）の３つを表示します。
また、力学的エネルギーの時系列グラフは振り子の運動エネルギーと位置エネルギーと力学的エネルギーの時間変化、また参考までに振り子の位置（x座標）の時間変化を示しています。

$k=0$（ばね弾性力ポテンシャルなし）の学習回数に対する成功確率

$k=0$（ばね弾性力ポテンシャルなし）の力学的エネルギーと振り子の位置の時系列データ

$k=1$の学習回数に対する成功確率

$k=1$の力学的エネルギーと振り子の位置の時系列データ

$k=2$の学習回数に対する成功確率

$k=2$の力学的エネルギーと振り子の位置の時系列データ

$k=3$の学習回数に対する成功確率

$k=3$の力学的エネルギーと振り子の位置の時系列データ

$k=4$の学習回数に対する成功確率

$k=4$の力学的エネルギーと振り子の位置の時系列データ

$k=5$の学習回数に対する成功確率

$k=5$の力学的エネルギーと振り子の位置の時系列データ

$k=6$の学習回数に対する成功確率

$k=6$の力学的エネルギーと振り子の位置の時系列データ

$k=7$の学習回数に対する成功確率

$k=7$の力学的エネルギーと振り子の位置の時系列データ

$k=8$の学習回数に対する成功確率

$k=8$の力学的エネルギーと振り子の位置の時系列データ

$k=9$の学習回数に対する成功確率

$k=9$の力学的エネルギーと振り子の位置の時系列データ

$k=10$の学習回数に対する成功確率

$k=10$の力学的エネルギーと振り子の位置の時系列データ

結果と考察とメモ

・$k=5$が最も想定通りの学習結果である。
　→　共鳴させる場合、最下点の速度が一番遅く、最上点の速度が一番早いことがわかる（ちょっと意外）。

【メモ】最下点からスタートして倒立させる学習を行う。
【メモ】減点に向かって収束させるにはどのような学習が必要なのか？

プログラムソース（C++）

・http://www.natural-science.or.jp/files/NN/20180727-1.zip
※VisualStudio2017のソルーションファイルです。GCC（MinGW）でも動作確認しています。

参考（物理シミュレーション）

上記シミュレーションは、ルンゲ・クッタ法という常微分方程式を解くアルゴリズムを用いてニュートンの運動方程式を数値的に解いています。本稿で紹介した物理シミュレーションの方法を詳しく解説している書籍です。もしよろしければ「ルンゲ・クッタで行こう！～物理シミュレーションを基礎から学ぶ～（目次）」を参照ください。

	MEMSパークコンソーシアム設立20周年記念シンポジウムにおいて「国際イノベーションコンテスト」世界１位入賞アプリを展示しました 2024.12.29 【大草芳江｜TOPICS】
	【受講生募集】『natural science 科学・技術講座』新講座のご案内 2024.01.09 【大草芳江｜TOPICS】
	サイエンス・デイオブザイヤー2023贈賞式（文部科学大臣賞表彰等）を開催しました 2023.11.07 【大草芳江｜TOPICS】
	■「natural science 科学・技術講座」夏休み短期講座のご案内 2023.07.14 【遠藤理平｜TOPICS】
	「国際イノベーションコンテスト2022世界大会」でnatural science『科学・技術講座』チームが世界3等入賞 2023.07.12 【大草芳江｜TOPICS｜パブリシティ】
	サイエンス・デイ限定『学都「仙台・宮城」サイエンスマップ～光編～』第7版プレゼント申込開始（先着500名）！ 2023.07.08 【遠藤理平｜TOPICS】
	学都「仙台・宮城」サイエンス・デイ2023　7月16日（日）開催！ 2023.07.08 【大草芳江｜TOPICS】
	人材募集のご案内 2022.08.19 【大草芳江｜TOPICS】
	学都「仙台・宮城」サイエンス・デイ2022　7月17日（日）開催！ 2022.07.01 【大草芳江｜TOPICS】
	「第13回国際イノベーションコンテスト2022」国内予選大会　natural science チームが第３位入賞、４年連続通算８回目の世界大会出場へ 2022.05.23 【大草芳江｜TOPICS】
	「キャンパスベンチャーグランプリ2021」東北大会で最優秀賞、全国大会で日刊工業新聞社賞を受賞 2022.03.09 【大草芳江｜TOPICS】
	【プレスリリース】「第12回国際イノベーションコンテスト2021」世界大会　natural science チームが世界３等入賞 2022.01.17 【大草芳江｜TOPICS】
	【第８話】有限の高さの障壁へ照射アニメーション【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.29 【遠藤理平｜仮想物理実験室】
	【第７話】無限に高い障壁に向けた電子パルスの照射アニメーション【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.24 【遠藤理平｜仮想物理実験室】
	【第６話】無限に高い障壁へ照射アニメーション【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.23 【遠藤理平｜仮想物理実験室】
	【第５話】電子パルスの運動アニメーション【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.21 【遠藤理平｜仮想物理実験室】
	【第４話】電子パルスの作り方【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.20 【遠藤理平｜仮想物理実験室】
	【第３話】自由粒子の運動アニメーション【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.19 【遠藤理平｜仮想物理実験室】
	【第２話】自由粒子のスナップショット【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.18 【遠藤理平｜仮想物理実験室】
	【第１話】プログラムの動作確認【Pythonコピペで量子力学完全攻略マニュアル】 2021.09.17 【遠藤理平｜仮想物理実験室】

【機械学習基礎研究14】
最下点からの強制振動の強化学習（原点付近に留まるような報酬の与え方）

Q学習のパラメータ

環境と行動と利得の定義（最適行動価値関数の定義）

利得の定義：原点からの距離の２乗に比例する減点項

Q学習の表式とパラメータの値

今回の設定

学習回数に対する成功確率と力学的エネルギー（運動エネルギーと位置エネルギーの和）の時系列グラフ

$k=0$（ばね弾性力ポテンシャルなし）の学習回数に対する成功確率

$k=0$（ばね弾性力ポテンシャルなし）の力学的エネルギーと振り子の位置の時系列データ

$k=1$の学習回数に対する成功確率

$k=1$の力学的エネルギーと振り子の位置の時系列データ

$k=2$の学習回数に対する成功確率

$k=2$の力学的エネルギーと振り子の位置の時系列データ

$k=3$の学習回数に対する成功確率

$k=3$の力学的エネルギーと振り子の位置の時系列データ

$k=4$の学習回数に対する成功確率

$k=4$の力学的エネルギーと振り子の位置の時系列データ

$k=5$の学習回数に対する成功確率

$k=5$の力学的エネルギーと振り子の位置の時系列データ

$k=6$の学習回数に対する成功確率

$k=6$の力学的エネルギーと振り子の位置の時系列データ

$k=7$の学習回数に対する成功確率

$k=7$の力学的エネルギーと振り子の位置の時系列データ

$k=8$の学習回数に対する成功確率

$k=8$の力学的エネルギーと振り子の位置の時系列データ

$k=9$の学習回数に対する成功確率

$k=9$の力学的エネルギーと振り子の位置の時系列データ

$k=10$の学習回数に対する成功確率

$k=10$の力学的エネルギーと振り子の位置の時系列データ

結果と考察とメモ

プログラムソース（C++）

参考（物理シミュレーション）

関連記事

機械学習

Ranking アクセスランキング

【機械学習基礎研究14】最下点からの強制振動の強化学習（原点付近に留まるような報酬の与え方）

Q学習のパラメータ

環境と行動と利得の定義（最適行動価値関数の定義）

利得の定義：原点からの距離の２乗に比例する減点項

Q学習の表式とパラメータの値

今回の設定

学習回数に対する成功確率と力学的エネルギー（運動エネルギーと位置エネルギーの和）の時系列グラフ

$k=0$（ばね弾性力ポテンシャルなし）の学習回数に対する成功確率

$k=0$（ばね弾性力ポテンシャルなし）の力学的エネルギーと振り子の位置の時系列データ

$k=1$の学習回数に対する成功確率

$k=1$の力学的エネルギーと振り子の位置の時系列データ

$k=2$の学習回数に対する成功確率

$k=2$の力学的エネルギーと振り子の位置の時系列データ

$k=3$の学習回数に対する成功確率

$k=3$の力学的エネルギーと振り子の位置の時系列データ

$k=4$の学習回数に対する成功確率

$k=4$の力学的エネルギーと振り子の位置の時系列データ

$k=5$の学習回数に対する成功確率

$k=5$の力学的エネルギーと振り子の位置の時系列データ

$k=6$の学習回数に対する成功確率

$k=6$の力学的エネルギーと振り子の位置の時系列データ

$k=7$の学習回数に対する成功確率

$k=7$の力学的エネルギーと振り子の位置の時系列データ

$k=8$の学習回数に対する成功確率

$k=8$の力学的エネルギーと振り子の位置の時系列データ

$k=9$の学習回数に対する成功確率

$k=9$の力学的エネルギーと振り子の位置の時系列データ

$k=10$の学習回数に対する成功確率

$k=10$の力学的エネルギーと振り子の位置の時系列データ

結果と考察とメモ

プログラムソース（C++）

参考（物理シミュレーション）

関連記事

機械学習

Ranking アクセスランキング

【機械学習基礎研究14】
最下点からの強制振動の強化学習（原点付近に留まるような報酬の与え方）