差分

ナビゲーションに移動検索に移動

← 古い編集

Q学習

76 バイト追加, 2017年3月29日 (水) 02:34

Q学習で[[ググる]]と小難しい説明が多いようだが、大雑把にいえば、

~~関数qは、ある状況sにおいて、行動aを選択した場合の結果を得点として返す。~~関数qは、ある状況sにおいて、行動aを選択した場合の結果を得点（報酬）として返す。

このQ(s,a)関数の行動aを変えまくって最高得点が出るパターンを力技で見つけるというものである。

「力こそパワー」である。

Q(s, a)

[[category: 機械学習]]

[[category: 人工知能]]

匿名利用者

「https://monobook.org/wiki/特別:携帯機器差分/8656...8658」から取得