トップページ -> バンディットタスク -> バンディットタスクで遊ぶ

バンディットタスクで遊ぶ

バンディットタスクで遊べます. グリーディ戦略,ε-グリーディ戦略,ε-グリーディ戦略(減衰),楽観的初期値を用いたグリーディ戦略,UCB1アルゴリズム,ソフトマックス戦略の簡単な性能比較や 実際にバンディットタスクで遊ぶことができます.
性能比較では10000回のプレイを1セットとし100セットの結果の平均をそれぞれ返します.

グリーディ戦略: 今までに何回当たったかを記録しておき,当たる確率が最も高いものを選びます
ε-グリーディ戦略: 今までに何回当たったかを記録しておき,当たる確率が最も高いものを選びます.ただし,確率εでランダムにスロットを選びます.(ε=0.1)
ε-グリーディ戦略(減衰): εを1000回で1から0.1まで減衰させます.
楽観的初期値を用いたグリーディ戦略: 予想当たり確率の初期値を1とし,alpha*(pred-reward)で更新します.
UCB1アルゴリズム: それぞれのスロットをUCB1値を使って評価をします.
ソフトマックス戦略: ソフトマックス関数の出力を各々のスロットを回す確率とします.

それぞれの戦略はこちらでより詳しく解説しています.


A,B,Cのボタンを押すことでスロットを回します

【目次に戻る】