AIモデル
AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。
生成AI系モデル 編集
- 大規模言語モデル:ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。
- 拡散モデル(Diffusion Models):ノイズから徐々に画像を復元する生成モデル。
- 敵対的生成ネットワーク(GAN):生成器と識別器を競わせてデータを生成するモデル。
- 変分オートエンコーダー(VAE):データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。
- コード生成モデル:プログラムコードの自動生成・補完・修正に特化したモデル。
- マルチモーダルモデル:画像・音声・テキストなど複数の情報を統合して扱う生成モデル。
画像認識系モデル 編集
- 畳み込みニューラルネットワーク(CNN):画像の特徴抽出に強く、従来の画像認識の中心。
- 物体検出モデル(YOLO, SSDなど):画像内の物体の位置と種類を特定するモデル。
- セマンティックセグメンテーションモデル(U-Netなど):画像をピクセル単位で分類するモデル。
- ビジョントランスフォーマー(ViT):Transformerを画像に適用し、高精度を実現。
- 画像基盤モデル(CLIP, DINOv2, SAMなど):大規模事前学習により汎用的な画像理解能力を持つモデル。「ViTより凄い」と昨今話題のやつ。
音声系モデル 編集
- 自動音声認識モデル(ASR / Whisperなど):音声をテキストに変換するモデル。
- 音声合成モデル(TTS):テキストを自然な音声として生成するモデル。
- 音響イベント検出モデル:環境音や異音を識別するモデル。
- 音声LLM(AudioLM, VALL-Eなど):音声の理解・生成を統合的に扱うモデル。
統計・予測・分類系モデル 編集
- 回帰モデル:数値予測や確率予測を行うモデル。
- 決定木・アンサンブル学習モデル(XGBoost, LightGBMなど):表形式データの分析に強いモデル。
- サポートベクターマシン(SVM):境界線による分類を行うモデル。
- クラスタリングモデル(k-meansなど):データを自動でグループ分けするモデル。
- 時系列予測モデル(ARIMA, Prophetなど):時間変化を伴うデータの予測に特化したモデル。
その他の特殊なAIモデル 編集
- レコメンダー(推薦システム):ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。
- 強化学習モデル:試行錯誤を通じて最適な行動方針を学習するモデル。
- グラフニューラルネットワーク(GNN):グラフ構造データ(SNSの関係、分子構造など)を扱うモデル。
- エージェントモデル:LLMが外部ツールを使いながらタスクを遂行する仕組み(ReAct, Toolformerなど)。