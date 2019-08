def reward_function(params):

'''

ジグザグ走行を緩和するためにステアリングにペナルティを科す報酬関数の例

'''



# 入力パラメーター(車の各種情報)を読み込む

distance_from_center = params['distance_from_center'] # センターラインからの距離

track_width = params['track_width'] # コースの幅

steering = abs(params['steering_angle']) # ステアリング角度の絶対値



# センターラインからの距離を表す、3段階のコース幅のマーカーを計算する

marker_1 = 0.1 * track_width # コース幅の10%の距離

marker_2 = 0.25 * track_width # コース幅の25%の距離

marker_3 = 0.5 * track_width # コース幅の50%の距離



# 車がセンターラインに近ければ近いほど、高い報酬を与える

if distance_from_center <= marker_1:

reward = 1.0 # 10%幅内を走行中の場合は1.0ポイントの報酬

elif distance_from_center <= marker_2:

reward = 0.5 # 25%幅内なら0.5ポイント

elif distance_from_center <= marker_3:

reward = 0.1 # 50%幅内なら0.1ポイント

else:

reward = 1e-3 # それらよりも外なら1e-3(=0.001)ポイント

# クラッシュしたか、コースアウトに近い状態と見なすということ



# ペナルティを課す、ステアリング角度の閾値

ABS_STEERING_THRESHOLD = 15 # 絶対値で15度

# 行動空間の設定に応じて変更する。今回は、0/±15/±30度の3段階なので、

#(±15度より大きい)±30度のステアリングにのみペナルティを科す



# 車のステアリング角度が閾値より大きい場合には、報酬にペナルティを科す

if steering > ABS_STEERING_THRESHOLD:

reward *= 0.8 # ペナルティとして、報酬を20%カット(=80%付与)する



# 計算された報酬は、関数の呼び出し元にfloat値として返却する

return float(reward)