多腕バンディット問題(Multi-Armed Bandit Problem)は、機械学習における強化学習の一分野です。 多腕バンディットとは実際にはスロットマシンのことで、レバー(腕)を引くと、ランダムに生成された確率分布に基づいて報酬が得られます。一つのスロット ...