差分
ナビゲーションに移動
検索に移動
← 古い編集
新しい編集 →
Q学習
2 バイト除去
,
2017年3月29日 (水) 02:06
編集の要約なし
関数qは、ある状況sにおいて、行動aを選択した場合の結果を得点を返す。
このQ(s,a)関数の行動aを変えまくって最高得点が出るパターンを力技で見つけるというものである。
Q
Q
(s, a)
行動aの試行回数を多くすれば性能は次第に向上する。
匿名利用者
103.22.200.102
案内メニュー
個人用ツール
ログインしていません
トーク
投稿記録
アカウント作成
ログイン
名前空間
ページ
議論
変種
表示
閲覧
編集
ソースを編集
履歴表示
その他
検索
案内
メインページ
最近の更新
未作成ページ
おまかせ表示
ヘルプ
ツール
特別ページ
印刷用バージョン