TCG学習モデルと問題点 - Just a Note for Hobby
単純なモデルを構成して、再探索を試みる。
モデル4
更新式
:自分のアド - 相手のアド
:割引率
ネットワークの出力層の活性化関数をLinearにしたため、報酬と割引価値が釣り合ったところで収束するはず。
手法
- DDQN(2回毎に更新)
- Experience Replay (バッファサイズは500)(バッファサイズを半分にして学習させても大きな違いは見られなかった)
結果
1000episode学習させたエージェントをEvaluateしたところ、勝率60%で収束。
補足: Evaluate方法
前提として、どのモデルも同じ対戦相手で学習を行うとする。
学習を行った対戦相手に学習タスクなしで100マッチ行い、その勝率で比較する。
考察
モデル1に見られたようなデッキ切れで敗北というのは見られなかった。
以前は報酬を手札、フィールド、ライフ、デッキ枚数の変化量から算出していたが、今回のモデルではフィールドとライフの変化量から算出したため、よりライフを取るアクションが高く評価されたのと考えられる。
一方で、強力なモンスター1体だけを成立させた後、ただ攻撃することによって勝利を得ていた。そのモンスターが処理された場合、以降何もせずに敗北していた。
#ToDo
敗北するのは、より良いアクションを探索しないからであり、Q値を行動選択の確率として解釈するか、ε-greedy手法を取り入れる必要がある。
学習過程を分析すると、300回ほどで勝率60%の能力に達しており、このモデルではそれ以上の能力が得られないことを示唆している。