差分

ナビゲーションに移動 検索に移動

Q学習

2 バイト除去, 2017年3月29日 (水) 02:06
編集の要約なし
関数qは、ある状況sにおいて、行動aを選択した場合の結果を得点を返す。
このQ(s,a)関数の行動aを変えまくって最高得点が出るパターンを力技で見つけるというものである。
 Q Q(s, a)
行動aの試行回数を多くすれば性能は次第に向上する。
匿名利用者

案内メニュー