第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編)AWS DeepRacer入門(2/3 ページ)

» 2019年08月22日 05時00分 公開
[一色政彦デジタルアドバンテージ]

ステップ11: 学習状況の確認

 学習(トレーニング)が開始されると、モデルのページ(例えば図15の[DeepInsiderEngine1]ページ)に遷移する。実際にシミュレーションが開始されるまでの準備処理に、6分程度の時間がかかり、そのあと、学習の様子が[Training]欄に表示されるようになる(図15)。

図15 学習状況の確認 図15 学習状況の確認

 左側の[Reward graph](報酬グラフ)では、学習時の累積報酬や完走状況を視覚的に確認できる。また、右側の[Simulation video stream](シミュレーションのビデオストリーム)では、学習時の走行状況をビデオ映像で確認できる。それぞれ具体的な内容を紹介しよう。

報酬グラフ(報酬額)

 グラフの下部にある[Reward](報酬)表示設定の、

  • [Episode](エピソード): 散布図(点々)表示のオン/オフ
  • [Average](平均): 折れ線グラフ表示のオン/オフ

をクリックして、いずれもオンに切り替えてみてほしい(これらをオンにするときには、見やすさのため、後述の[Progress (percentage track completion)]表示設定はいずれもオフにした方がよい)。これにより、図16のように表示され、エピソード数が増えるに従って(=学習時間が増えるに従って)、累積報酬の額が大きくなっていっているのが分かる。

図16 報酬グラフ(報酬額) 図16 報酬グラフ(報酬額)

報酬グラフ(完走状況)

 また、グラフの下部にある[Progress (percentage track completion)](コースの完走状況、%単位)表示設定の、

  • [Episode](エピソード): 散布図(点々)表示のオン/オフ
  • [Average](平均): 折れ線グラフ表示のオン/オフ

をクリックして、いずれもオンに切り替えてみてほしい(これらをオンにするときには、見やすさのため、前述の[Reward]表示設定はいずれもオフにした方がよい)。これにより、図17のように表示され、エピソード数が増えるに従って(=学習時間が増えるに従って)、コース完走状況のパーセンテージが大きくなっていっているのが分かる。

図17 報酬グラフ(完走状況) 図17 報酬グラフ(完走状況)

シミュレーションのビデオストリーム(走行映像)

 ビデオストリームには、学習時のシミュレーション映像が表示される。車の運転席の視点で動くので、ずっと見ていられる。

図18 DeepRacer学習時のシミュレーション映像 図18 DeepRacer学習時のシミュレーション映像

停止条件:最大時間(経過時間)

 グラフ下部のさらに下には、[Stop condition](停止条件)で指定した[Maximum time](最大時間)の表示があり、図19のように経過時刻も表示される。

図19 経過時間/最大時間(停止条件) 図19 経過時間/最大時間(停止条件)

ステップ12: 学習(トレーニング)の完了

 停止条件の最大時間になると、学習は自動的に停止する(図20)。なお、停止処理にも、開始時の準備処理と同様に、4分ほど時間がかかる。

図20 学習(トレーニング)の完了 図20 学習(トレーニング)の完了

 学習中でも、左側の[Reward graph](報酬グラフ)は確認できたが、あらためて学習結果を確認してみよう(図21)。

図21 学習結果の確認 図21 学習結果の確認

 図21を見ると、最終的な完走状況は25%弱というところで、つまり基本的にコースの4分の1程度走行したらコースアウトしてしまう。よって、まだまだ改善の余地が大きい走行エンジンとなっている。この場合、報酬関数やハイパーパラメーターをさらに調整して、モデルを再学習した方がよいだろう。

 結果だけではなく、学習時のジョブ内容やログも閲覧できるので(学習中に閲覧することも可能)、これらも紹介しておこう。

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。