「AIモデル」の版間の差分

提供:MonoBook
ページの作成:「AIモデルとは、コンピューターに大量のデータを読み込ませて学習させ、特定のパターンやルールを見つけ出させた「学習済みパラメータの集合」のことです。 人間の脳で例えると、勉強を重ねて身につけた「知識」や「判断基準」にあたります。 == 生成AI系モデル == * 大規模言語モデル:ChatGPTで一躍有名になったやつ。昨今のAIといえばこれ…」
 
編集の要約なし
 
1行目: 1行目:
AIモデルとは、コンピューターに大量のデータを読み込ませて学習させ、特定のパターンやルールを見つけ出させた「学習済みパラメータの集合」のことです。
AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。
 
人間の脳で例えると、勉強を重ねて身につけた「知識」や「判断基準」にあたります。


== 生成AI系モデル ==
== 生成AI系モデル ==
* [[大規模言語モデル]]:ChatGPTで一躍有名になったやつ。昨今のAIといえばこれ。
* [[大規模言語モデル]]:ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。
* [[拡散モデル]](Diffusion Models): ノイズから徐々に鮮明な画像を復元していく画像生成モデル。
* [[拡散モデル]](Diffusion Models):ノイズから徐々に画像を復元する生成モデル。
* [[敵対的生成ネットワーク]](GAN): 偽物を作る「生成器」とそれを見破る「識別器」を競わせるモデル。
* [[敵対的生成ネットワーク]](GAN):生成器と識別器を競わせてデータを生成するモデル。
* [[変分オートエンコーダー]](VAE): データを一度圧縮し、そこから新しいデータを復元・生成するモデル。
* [[変分オートエンコーダー]](VAE):データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。
* コード生成モデル: プログラミングコードの自動記述やバグ修正に特化したモデル。
* コード生成モデル:プログラムコードの自動生成・補完・修正に特化したモデル。
* マルチモーダルモデル:画像・音声・テキストなど複数の情報を統合して扱う生成モデル。


== 画像認識系モデル ==
== 画像認識系モデル ==
* ビジョン基盤モデル(CLIP, DINOv2, Segment Anythingなど):巨大な事前学習モデル。「ViTより凄え」と話題
* [[畳み込みニューラルネットワーク]](CNN):画像の特徴抽出に強く、従来の画像認識の中心。
* [[ビジョントランスフォーマー]](ViT): Transformer構造を画像認識に応用し、高い精度を出すモデル。
* [[物体検出モデル]](YOLO, SSDなど):画像内の物体の位置と種類を特定するモデル。
* [[畳み込みニューラルネットワーク]](CNN): 画像の特徴を捉えるのが得意で、画像認識・分類の基本となるモデル。
* [[セマンティックセグメンテーションモデル]](U-Netなど):画像をピクセル単位で分類するモデル。
* [[物体検出モデル]](YOLO, SSDなど): 画像内のどこに何があるかをリアルタイムで特定するモデル。
* [[ビジョントランスフォーマー]](ViT):Transformerを画像に適用し、高精度を実現。
* [[セマンティックセグメンテーションモデル]](U-Netなど): ピクセル単位で画像の領域を塗り分けるモデル。
* [[画像基盤モデル]](CLIP, DINOv2, SAMなど):大規模事前学習により汎用的な画像理解能力を持つモデル。「ViTより凄い」と昨今話題のやつ。


== 音声系モデル ==
== 音声系モデル ==
* 自動音声認識モデル(ASR / Whisperなど): 人間が話した声をテキストに書き起こすモデル。
* 自動音声認識モデル(ASR / Whisperなど):音声をテキストに変換するモデル。
* 音声合成モデル(TTS): テキストを自然なイントネーションで読み上げるモデル。
* 音声合成モデル(TTS):テキストを自然な音声として生成するモデル。
* 音響イベント検出モデル: 異音や特定の環境音を検知するモデル。
* 音響イベント検出モデル:環境音や異音を識別するモデル。
* 音声LLM(AudioLM, VALL-Eなど):音声の理解・生成を統合的に扱うモデル。


== 統計・予測・分類系モデル ==
== 統計・予測・分類系モデル ==
* 回帰モデル: 過去のデータから将来の数値や確率を予測するモデル。
* 回帰モデル:数値予測や確率予測を行うモデル。
* 決定木・アンサンブル学習モデル(XGBoost, LightGBMなど): 表データの分析や予測に非常に強いモデル。
* 決定木・アンサンブル学習モデル(XGBoost, LightGBMなど):表形式データの分析に強いモデル。
* サポートベクターマシン(SVM): データを境界線で分類するモデル。
* サポートベクターマシン(SVM):境界線による分類を行うモデル。
* クラスタリングモデル(k-meansなど): データを傾向ごとに自動でグループ分けするモデル。
* クラスタリングモデル(k-meansなど):データを自動でグループ分けするモデル。
* 時系列予測モデル(ARIMA, Prophetなど): 時間経過とともに変化するデータの予測に特化したモデル。
* 時系列予測モデル(ARIMA, Prophetなど):時間変化を伴うデータの予測に特化したモデル。


== その他の特殊なAIモデル ==
== その他の特殊なAIモデル ==
* レコメンダー(推薦システム): ユーザーの好みに合わせて商品やコンテンツをおすすめするモデル。
* レコメンダー(推薦システム):ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。
* 強化学習モデル: 試行錯誤を通じて最適な行動ルールを自ら学習するモデル。
* 強化学習モデル:試行錯誤を通じて最適な行動方針を学習するモデル。
* グラフニューラルネットワーク(GNN): SNSの人間関係や分子構造などのグラフ構造データを解析するモデル。
* グラフニューラルネットワーク(GNN):グラフ構造データ(SNSの関係、分子構造など)を扱うモデル。
* エージェントモデル:LLMが外部ツールを使いながらタスクを遂行する仕組み(ReAct, Toolformerなど)。


[[category: AIモデル]]
[[Category:AIモデル]]

2026年6月15日 (月) 05:17時点における最新版

AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。

生成AI系モデル[編集 | ソースを編集]

  • 大規模言語モデル:ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。
  • 拡散モデル(Diffusion Models):ノイズから徐々に画像を復元する生成モデル。
  • 敵対的生成ネットワーク(GAN):生成器と識別器を競わせてデータを生成するモデル。
  • 変分オートエンコーダー(VAE):データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。
  • コード生成モデル:プログラムコードの自動生成・補完・修正に特化したモデル。
  • マルチモーダルモデル:画像・音声・テキストなど複数の情報を統合して扱う生成モデル。

画像認識系モデル[編集 | ソースを編集]

音声系モデル[編集 | ソースを編集]

  • 自動音声認識モデル(ASR / Whisperなど):音声をテキストに変換するモデル。
  • 音声合成モデル(TTS):テキストを自然な音声として生成するモデル。
  • 音響イベント検出モデル:環境音や異音を識別するモデル。
  • 音声LLM(AudioLM, VALL-Eなど):音声の理解・生成を統合的に扱うモデル。

統計・予測・分類系モデル[編集 | ソースを編集]

  • 回帰モデル:数値予測や確率予測を行うモデル。
  • 決定木・アンサンブル学習モデル(XGBoost, LightGBMなど):表形式データの分析に強いモデル。
  • サポートベクターマシン(SVM):境界線による分類を行うモデル。
  • クラスタリングモデル(k-meansなど):データを自動でグループ分けするモデル。
  • 時系列予測モデル(ARIMA, Prophetなど):時間変化を伴うデータの予測に特化したモデル。

その他の特殊なAIモデル[編集 | ソースを編集]

  • レコメンダー(推薦システム):ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。
  • 強化学習モデル:試行錯誤を通じて最適な行動方針を学習するモデル。
  • グラフニューラルネットワーク(GNN):グラフ構造データ(SNSの関係、分子構造など)を扱うモデル。
  • エージェントモデル:LLMが外部ツールを使いながらタスクを遂行する仕組み(ReAct, Toolformerなど)。