「Q学習」の版間の差分

2017年3月29日 (水) 02:34時点における最新版

Q学習（英語：q-learning）とは、機械学習の手法のひとつである。

概要[編集 | ソースを編集]

Q学習は古典的な機械学習手法である。

Q学習でググると小難しい説明が多いようだが、大雑把にいえば、関数qは、ある状況sにおいて、行動aを選択した場合の結果を得点（報酬）として返す。このQ(s,a)関数の行動aを変えまくって最高得点が出るパターンを力技で見つけるというものである。「力こそパワー」である。

Q(s, a)

行動aの試行回数を多くすれば性能は次第に向上する。勉強に近道はないということだな。

2015年2月26日にグーグルでAlphaGoを作った人たちが、古典的なQ学習を、流行りのディープラーニングに喰わせた「DQN (Deep Q Network)」という画期的な人工知能を発表し、とくに日本で話題となった^[1]^[2]。

参考文献[編集 | ソースを編集]

	この項目「Q学習」は、まだ書きかけの項目です。加筆、訂正などをして下さる協力者を求めています。
このテンプレートは分野別のスタブテンプレート（Monobook:スタブカテゴリ参照）に変更することが望まれています。

[1] Yahoo！ニュースグーグル開発の人工知能、その名も「DQN」ネットでは「命名事故？」「奇跡的」

[2] Google人工知能「賢いDQN」にネット困惑

[1]

[2]

@@ 5行目: / 5行目: @@
 Q学習で[[ググる]]と小難しい説明が多いようだが、大雑把にいえば、
-関数qは、ある状況sにおいて、行動aを選択した場合の結果を得点として返す。
+関数qは、ある状況sにおいて、行動aを選択した場合の結果を得点（報酬）として返す。
 このQ(s,a)関数の行動aを変えまくって最高得点が出るパターンを力技で見つけるというものである。
+「力こそパワー」である。
   Q(s, a)
@@ 12行目: / 13行目: @@
 勉強に近道はないということだな。
-年2月26日にグーグルが、
+年2月26日にグーグルでAlphaGoを作った人たちが、
-古典的なQ学習を流行りの[[ディープラーニング]]に喰わせた「[[DQN (Deep Q Network)]]」という画期的な人工知能を発表し、とくに日本で話題となった<ref name="yahoo">[http://headlines.yahoo.co.jp/hl?a=20150226-00000001-withnews-sci Yahoo！ニュース グーグル開発の人工知能、その名も「DQN」ネットでは「命名事故？」「奇跡的」]</ref>。なお、[[DQN]]の実装例としては[[Google]]の[[AlphaGo]]が有名であり、かなり賢い模様である。
+古典的なQ学習を、流行りの[[ディープラーニング]]に喰わせた「[[DQN (Deep Q Network)]]」という画期的な人工知能を発表し、とくに日本で話題となった<ref>[https://news.yahoo.co.jp/pickup/6151054 Yahoo！ニュース グーグル開発の人工知能、その名も「DQN」ネットでは「命名事故？」「奇跡的」]</ref><ref>[http://getnews.jp/archives/1481281 Google人工知能「賢いDQN」にネット困惑]</ref>。
 == 関連項目 ==
@@ 24行目: / 25行目: @@
 [[category: 機械学習]]
+[[category: 人工知能]]

2017年3月29日 (水) 02:34時点における最新版

概要[編集 | ソースを編集]

関連項目[編集 | ソースを編集]

参考文献[編集 | ソースを編集]