TCGエージェント第4モデル - Just a Note for Hobby

単純なモデルを構成して、再探索を試みる。

$Q \leftarrow Reward + \gamma \times Q$

$Reward$ :自分のアド - 相手のアド
$\gamma$ :割引率

$Q$ ネットワークの出力層の活性化関数をLinearにしたため、報酬と割引価値が釣り合ったところで収束するはず。

1000episode学習させたエージェントをEvaluateしたところ、勝率60%で収束。

前提として、どのモデルも同じ対戦相手で学習を行うとする。
学習を行った対戦相手に学習タスクなしで100マッチ行い、その勝率で比較する。

モデル１に見られたようなデッキ切れで敗北というのは見られなかった。
以前は報酬を手札、フィールド、ライフ、デッキ枚数の変化量から算出していたが、今回のモデルではフィールドとライフの変化量から算出したため、よりライフを取るアクションが高く評価されたのと考えられる。

一方で、強力なモンスター1体だけを成立させた後、ただ攻撃することによって勝利を得ていた。そのモンスターが処理された場合、以降何もせずに敗北していた。

#ToDo
敗北するのは、より良いアクションを探索しないからであり、Q値を行動選択の確率として解釈するか、ε-greedy手法を取り入れる必要がある。

学習過程を分析すると、300回ほどで勝率60%の能力に達しており、このモデルではそれ以上の能力が得られないことを示唆している。