コンテンツにスキップ

AIモデル

提供：MonoBook

AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。

生成AI系モデル[編集 | ソースを編集]

大規模言語モデル：ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。
拡散モデル（Diffusion Models）：ノイズから徐々に画像を復元する生成モデル。
敵対的生成ネットワーク（GAN）：生成器と識別器を競わせてデータを生成するモデル。
変分オートエンコーダー（VAE）：データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。
コード生成モデル：プログラムコードの自動生成・補完・修正に特化したモデル。
マルチモーダルモデル：画像・音声・テキストなど複数の情報を統合して扱う生成モデル。

画像認識系モデル[編集 | ソースを編集]

畳み込みニューラルネットワーク（CNN）：画像の特徴抽出に強く、従来の画像認識の中心。
物体検出モデル（YOLO, SSDなど）：画像内の物体の位置と種類を特定するモデル。
セマンティックセグメンテーションモデル（U-Netなど）：画像をピクセル単位で分類するモデル。
ビジョントランスフォーマー（ViT）：Transformerを画像に適用し、高精度を実現。
画像基盤モデル（CLIP, DINOv2, SAMなど）：大規模事前学習により汎用的な画像理解能力を持つモデル。「ViTより凄い」と昨今話題のやつ。

音声系モデル[編集 | ソースを編集]

自動音声認識モデル（ASR / Whisperなど）：音声をテキストに変換するモデル。
音声合成モデル（TTS）：テキストを自然な音声として生成するモデル。
音響イベント検出モデル：環境音や異音を識別するモデル。
音声LLM（AudioLM, VALL-Eなど）：音声の理解・生成を統合的に扱うモデル。

統計・予測・分類系モデル[編集 | ソースを編集]

回帰モデル：数値予測や確率予測を行うモデル。
決定木・アンサンブル学習モデル（XGBoost, LightGBMなど）：表形式データの分析に強いモデル。
サポートベクターマシン（SVM）：境界線による分類を行うモデル。
クラスタリングモデル（k-meansなど）：データを自動でグループ分けするモデル。
時系列予測モデル（ARIMA, Prophetなど）：時間変化を伴うデータの予測に特化したモデル。

その他の特殊なAIモデル[編集 | ソースを編集]

レコメンダー（推薦システム）：ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。
強化学習モデル：試行錯誤を通じて最適な行動方針を学習するモデル。
グラフニューラルネットワーク（GNN）：グラフ構造データ（SNSの関係、分子構造など）を扱うモデル。
エージェントモデル：LLMが外部ツールを使いながらタスクを遂行する仕組み（ReAct, Toolformerなど）。

「https://monobook.org/w/index.php?title=AIモデル&oldid=32313」から取得

AIモデル