「AIモデル」の版間の差分

ビジュアルウィキテキスト

2026年6月15日 (月) 05:17時点における最新版

AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。

生成AI系モデル[編集 | ソースを編集]

大規模言語モデル：ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。
拡散モデル（Diffusion Models）：ノイズから徐々に画像を復元する生成モデル。
敵対的生成ネットワーク（GAN）：生成器と識別器を競わせてデータを生成するモデル。
変分オートエンコーダー（VAE）：データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。
コード生成モデル：プログラムコードの自動生成・補完・修正に特化したモデル。
マルチモーダルモデル：画像・音声・テキストなど複数の情報を統合して扱う生成モデル。

画像認識系モデル[編集 | ソースを編集]

畳み込みニューラルネットワーク（CNN）：画像の特徴抽出に強く、従来の画像認識の中心。
物体検出モデル（YOLO, SSDなど）：画像内の物体の位置と種類を特定するモデル。
セマンティックセグメンテーションモデル（U-Netなど）：画像をピクセル単位で分類するモデル。
ビジョントランスフォーマー（ViT）：Transformerを画像に適用し、高精度を実現。
画像基盤モデル（CLIP, DINOv2, SAMなど）：大規模事前学習により汎用的な画像理解能力を持つモデル。「ViTより凄い」と昨今話題のやつ。

音声系モデル[編集 | ソースを編集]

自動音声認識モデル（ASR / Whisperなど）：音声をテキストに変換するモデル。
音声合成モデル（TTS）：テキストを自然な音声として生成するモデル。
音響イベント検出モデル：環境音や異音を識別するモデル。
音声LLM（AudioLM, VALL-Eなど）：音声の理解・生成を統合的に扱うモデル。

統計・予測・分類系モデル[編集 | ソースを編集]

回帰モデル：数値予測や確率予測を行うモデル。
決定木・アンサンブル学習モデル（XGBoost, LightGBMなど）：表形式データの分析に強いモデル。
サポートベクターマシン（SVM）：境界線による分類を行うモデル。
クラスタリングモデル（k-meansなど）：データを自動でグループ分けするモデル。
時系列予測モデル（ARIMA, Prophetなど）：時間変化を伴うデータの予測に特化したモデル。

その他の特殊なAIモデル[編集 | ソースを編集]

レコメンダー（推薦システム）：ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。
強化学習モデル：試行錯誤を通じて最適な行動方針を学習するモデル。
グラフニューラルネットワーク（GNN）：グラフ構造データ（SNSの関係、分子構造など）を扱うモデル。
エージェントモデル：LLMが外部ツールを使いながらタスクを遂行する仕組み（ReAct, Toolformerなど）。

@@ 1行目: / 1行目: @@
-AIモデルとは、コンピューターに大量のデータを読み込ませて学習させ、特定のパターンやルールを見つけ出させた「学習済みパラメータの集合」のことです。
+AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。
-人間の脳で例えると、勉強を重ねて身につけた「知識」や「判断基準」にあたります。
 == 生成AI系モデル ==
-* [[大規模言語モデル]]：ChatGPTで一躍有名になったやつ。昨今のAIといえばこれ。
+* [[大規模言語モデル]]：ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。
-* [[拡散モデル]]（Diffusion Models）: ノイズから徐々に鮮明な画像を復元していく画像生成モデル。
+* [[拡散モデル]]（Diffusion Models）：ノイズから徐々に画像を復元する生成モデル。
-* [[敵対的生成ネットワーク]]（GAN）: 偽物を作る「生成器」とそれを見破る「識別器」を競わせるモデル。
+* [[敵対的生成ネットワーク]]（GAN）：生成器と識別器を競わせてデータを生成するモデル。
-* [[変分オートエンコーダー]]（VAE）: データを一度圧縮し、そこから新しいデータを復元・生成するモデル。
+* [[変分オートエンコーダー]]（VAE）：データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。
-* コード生成モデル: プログラミングコードの自動記述やバグ修正に特化したモデル。
+* コード生成モデル：プログラムコードの自動生成・補完・修正に特化したモデル。
+* マルチモーダルモデル：画像・音声・テキストなど複数の情報を統合して扱う生成モデル。
 == 画像認識系モデル ==
-* ビジョン基盤モデル（CLIP, DINOv2, Segment Anythingなど）：巨大な事前学習モデル。「ViTより凄え」と話題
+* [[畳み込みニューラルネットワーク]]（CNN）：画像の特徴抽出に強く、従来の画像認識の中心。
-* [[ビジョントランスフォーマー]]（ViT）: Transformer構造を画像認識に応用し、高い精度を出すモデル。
+* [[物体検出モデル]]（YOLO, SSDなど）：画像内の物体の位置と種類を特定するモデル。
-* [[畳み込みニューラルネットワーク]]（CNN）: 画像の特徴を捉えるのが得意で、画像認識・分類の基本となるモデル。
+* [[セマンティックセグメンテーションモデル]]（U-Netなど）：画像をピクセル単位で分類するモデル。
-* [[物体検出モデル]]（YOLO, SSDなど）: 画像内のどこに何があるかをリアルタイムで特定するモデル。
+* [[ビジョントランスフォーマー]]（ViT）：Transformerを画像に適用し、高精度を実現。
-* [[セマンティックセグメンテーションモデル]]（U-Netなど）: ピクセル単位で画像の領域を塗り分けるモデル。
+* [[画像基盤モデル]]（CLIP, DINOv2, SAMなど）：大規模事前学習により汎用的な画像理解能力を持つモデル。「ViTより凄い」と昨今話題のやつ。
 == 音声系モデル ==
-* 自動音声認識モデル（ASR / Whisperなど）: 人間が話した声をテキストに書き起こすモデル。
+* 自動音声認識モデル（ASR / Whisperなど）：音声をテキストに変換するモデル。
-* 音声合成モデル（TTS）: テキストを自然なイントネーションで読み上げるモデル。
+* 音声合成モデル（TTS）：テキストを自然な音声として生成するモデル。
-* 音響イベント検出モデル: 異音や特定の環境音を検知するモデル。
+* 音響イベント検出モデル：環境音や異音を識別するモデル。
+* 音声LLM（AudioLM, VALL-Eなど）：音声の理解・生成を統合的に扱うモデル。
 == 統計・予測・分類系モデル ==
-* 回帰モデル: 過去のデータから将来の数値や確率を予測するモデル。
+* 回帰モデル：数値予測や確率予測を行うモデル。
-* 決定木・アンサンブル学習モデル（XGBoost, LightGBMなど）: 表データの分析や予測に非常に強いモデル。
+* 決定木・アンサンブル学習モデル（XGBoost, LightGBMなど）：表形式データの分析に強いモデル。
-* サポートベクターマシン（SVM）: データを境界線で分類するモデル。
+* サポートベクターマシン（SVM）：境界線による分類を行うモデル。
-* クラスタリングモデル（k-meansなど）: データを傾向ごとに自動でグループ分けするモデル。
+* クラスタリングモデル（k-meansなど）：データを自動でグループ分けするモデル。
-* 時系列予測モデル（ARIMA, Prophetなど）: 時間経過とともに変化するデータの予測に特化したモデル。
+* 時系列予測モデル（ARIMA, Prophetなど）：時間変化を伴うデータの予測に特化したモデル。
 == その他の特殊なAIモデル ==
-* レコメンダー（推薦システム）: ユーザーの好みに合わせて商品やコンテンツをおすすめするモデル。
+* レコメンダー（推薦システム）：ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。
-* 強化学習モデル: 試行錯誤を通じて最適な行動ルールを自ら学習するモデル。
+* 強化学習モデル：試行錯誤を通じて最適な行動方針を学習するモデル。
-* グラフニューラルネットワーク（GNN）: SNSの人間関係や分子構造などのグラフ構造データを解析するモデル。
+* グラフニューラルネットワーク（GNN）：グラフ構造データ（SNSの関係、分子構造など）を扱うモデル。
+* エージェントモデル：LLMが外部ツールを使いながらタスクを遂行する仕組み（ReAct, Toolformerなど）。
-[[category: AIモデル]]
+[[Category:AIモデル]]