にアドバンテージ関数を設定する。 具体的には、勾配の推定量として b(s) の推定に価値関数 と表される。 このように複数ステップを先読みした収益を用いることが、A3C アルゴリズムの特徴である。 空欄(a)に当てはまる式を選択肢から選べ。