第4回　手を動かして強化学習を体験してみよう（自動運転ロボットカーDeepRacer編）：AWS DeepRacer入門（2/3 ページ）

» 2019年08月22日 05時00分公開

[一色政彦，デジタルアドバンテージ]

ステップ11：学習状況の確認

　学習（トレーニング）が開始されると、モデルのページ（例えば図15の［DeepInsiderEngine1］ページ）に遷移する。実際にシミュレーションが開始されるまでの準備処理に、6分程度の時間がかかり、そのあと、学習の様子が［Training］欄に表示されるようになる（図15）。

図15　学習状況の確認

　左側の［Reward graph］（報酬グラフ）では、学習時の累積報酬や完走状況を視覚的に確認できる。また、右側の［Simulation video stream］（シミュレーションのビデオストリーム）では、学習時の走行状況をビデオ映像で確認できる。それぞれ具体的な内容を紹介しよう。

報酬グラフ（報酬額）

　グラフの下部にある［Reward］（報酬）表示設定の、

［Episode］（エピソード）：散布図（点々）表示のオン／オフ
［Average］（平均）：折れ線グラフ表示のオン／オフ

をクリックして、いずれもオンに切り替えてみてほしい（※これらをオンにするときには、見やすさのため、後述の［Progress (percentage track completion)］表示設定はいずれもオフにした方がよい）。これにより、図16のように表示され、エピソード数が増えるに従って（＝学習時間が増えるに従って）、累積報酬の額が大きくなっていっているのが分かる。

図16　報酬グラフ（報酬額）

報酬グラフ（完走状況）

　また、グラフの下部にある［Progress (percentage track completion)］（コースの完走状況、％単位）表示設定の、

［Episode］（エピソード）：散布図（点々）表示のオン／オフ
［Average］（平均）：折れ線グラフ表示のオン／オフ

をクリックして、いずれもオンに切り替えてみてほしい（※これらをオンにするときには、見やすさのため、前述の［Reward］表示設定はいずれもオフにした方がよい）。これにより、図17のように表示され、エピソード数が増えるに従って（＝学習時間が増えるに従って）、コース完走状況のパーセンテージが大きくなっていっているのが分かる。

図17　報酬グラフ（完走状況）

シミュレーションのビデオストリーム（走行映像）

　ビデオストリームには、学習時のシミュレーション映像が表示される。車の運転席の視点で動くので、ずっと見ていられる。

図18　DeepRacer学習時のシミュレーション映像

停止条件：最大時間（経過時間）

　グラフ下部のさらに下には、［Stop condition］（停止条件）で指定した［Maximum time］（最大時間）の表示があり、図19のように経過時刻も表示される。

図19　経過時間／最大時間（停止条件）

ステップ12：学習（トレーニング）の完了

　停止条件の最大時間になると、学習は自動的に停止する（図20）。なお、停止処理にも、開始時の準備処理と同様に、4分ほど時間がかかる。

図20　学習（トレーニング）の完了

　学習中でも、左側の［Reward graph］（報酬グラフ）は確認できたが、あらためて学習結果を確認してみよう（図21）。

図21　学習結果の確認

　図21を見ると、最終的な完走状況は25％弱というところで、つまり基本的にコースの4分の1程度走行したらコースアウトしてしまう。よって、まだまだ改善の余地が大きい走行エンジンとなっている。この場合、報酬関数やハイパーパラメーターをさらに調整して、モデルを再学習した方がよいだろう。

　結果だけではなく、学習時のジョブ内容やログも閲覧できるので（※学習中に閲覧することも可能）、これらも紹介しておこう。

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}