「AIモデル」の版間の差分
Administrator (トーク | 投稿記録) ページの作成:「AIモデルとは、コンピューターに大量のデータを読み込ませて学習させ、特定のパターンやルールを見つけ出させた「学習済みパラメータの集合」のことです。 人間の脳で例えると、勉強を重ねて身につけた「知識」や「判断基準」にあたります。 == 生成AI系モデル == * 大規模言語モデル:ChatGPTで一躍有名になったやつ。昨今のAIといえばこれ…」 |
Administrator (トーク | 投稿記録) 編集の要約なし |
||
| 1行目: | 1行目: | ||
AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。 | |||
== 生成AI系モデル == | == 生成AI系モデル == | ||
* [[大規模言語モデル]] | * [[大規模言語モデル]]:ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。 | ||
* [[拡散モデル]](Diffusion | * [[拡散モデル]](Diffusion Models):ノイズから徐々に画像を復元する生成モデル。 | ||
* [[敵対的生成ネットワーク]] | * [[敵対的生成ネットワーク]](GAN):生成器と識別器を競わせてデータを生成するモデル。 | ||
* [[変分オートエンコーダー]] | * [[変分オートエンコーダー]](VAE):データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。 | ||
* | * コード生成モデル:プログラムコードの自動生成・補完・修正に特化したモデル。 | ||
* マルチモーダルモデル:画像・音声・テキストなど複数の情報を統合して扱う生成モデル。 | |||
== 画像認識系モデル == | == 画像認識系モデル == | ||
* | * [[畳み込みニューラルネットワーク]](CNN):画像の特徴抽出に強く、従来の画像認識の中心。 | ||
* [[ | * [[物体検出モデル]](YOLO, SSDなど):画像内の物体の位置と種類を特定するモデル。 | ||
* [[ | * [[セマンティックセグメンテーションモデル]](U-Netなど):画像をピクセル単位で分類するモデル。 | ||
* [[ | * [[ビジョントランスフォーマー]](ViT):Transformerを画像に適用し、高精度を実現。 | ||
* [[ | * [[画像基盤モデル]](CLIP, DINOv2, SAMなど):大規模事前学習により汎用的な画像理解能力を持つモデル。「ViTより凄い」と昨今話題のやつ。 | ||
== 音声系モデル == | == 音声系モデル == | ||
* 自動音声認識モデル(ASR / | * 自動音声認識モデル(ASR / Whisperなど):音声をテキストに変換するモデル。 | ||
* | * 音声合成モデル(TTS):テキストを自然な音声として生成するモデル。 | ||
* | * 音響イベント検出モデル:環境音や異音を識別するモデル。 | ||
* 音声LLM(AudioLM, VALL-Eなど):音声の理解・生成を統合的に扱うモデル。 | |||
== 統計・予測・分類系モデル == | == 統計・予測・分類系モデル == | ||
* | * 回帰モデル:数値予測や確率予測を行うモデル。 | ||
* 決定木・アンサンブル学習モデル(XGBoost, | * 決定木・アンサンブル学習モデル(XGBoost, LightGBMなど):表形式データの分析に強いモデル。 | ||
* | * サポートベクターマシン(SVM):境界線による分類を行うモデル。 | ||
* クラスタリングモデル(k- | * クラスタリングモデル(k-meansなど):データを自動でグループ分けするモデル。 | ||
* 時系列予測モデル(ARIMA, | * 時系列予測モデル(ARIMA, Prophetなど):時間変化を伴うデータの予測に特化したモデル。 | ||
== その他の特殊なAIモデル == | == その他の特殊なAIモデル == | ||
* | * レコメンダー(推薦システム):ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。 | ||
* | * 強化学習モデル:試行錯誤を通じて最適な行動方針を学習するモデル。 | ||
* | * グラフニューラルネットワーク(GNN):グラフ構造データ(SNSの関係、分子構造など)を扱うモデル。 | ||
* エージェントモデル:LLMが外部ツールを使いながらタスクを遂行する仕組み(ReAct, Toolformerなど)。 | |||
[[ | [[Category:AIモデル]] | ||
2026年6月15日 (月) 05:17時点における最新版
AIモデルとは、大量のデータを学習し、パターンや規則性を内部パラメータとして獲得した「推論の仕組み」です。人間に例えると、学習によって身についた「知識」や「判断基準」に相当します。
生成AI系モデル[編集 | ソースを編集]
- 大規模言語モデル:ChatGPTなどに代表されるテキスト生成モデル。Transformer構造を基盤とする。
- 拡散モデル(Diffusion Models):ノイズから徐々に画像を復元する生成モデル。
- 敵対的生成ネットワーク(GAN):生成器と識別器を競わせてデータを生成するモデル。
- 変分オートエンコーダー(VAE):データを潜在空間に圧縮し、そこから新しいデータを生成するモデル。
- コード生成モデル:プログラムコードの自動生成・補完・修正に特化したモデル。
- マルチモーダルモデル:画像・音声・テキストなど複数の情報を統合して扱う生成モデル。
画像認識系モデル[編集 | ソースを編集]
- 畳み込みニューラルネットワーク(CNN):画像の特徴抽出に強く、従来の画像認識の中心。
- 物体検出モデル(YOLO, SSDなど):画像内の物体の位置と種類を特定するモデル。
- セマンティックセグメンテーションモデル(U-Netなど):画像をピクセル単位で分類するモデル。
- ビジョントランスフォーマー(ViT):Transformerを画像に適用し、高精度を実現。
- 画像基盤モデル(CLIP, DINOv2, SAMなど):大規模事前学習により汎用的な画像理解能力を持つモデル。「ViTより凄い」と昨今話題のやつ。
音声系モデル[編集 | ソースを編集]
- 自動音声認識モデル(ASR / Whisperなど):音声をテキストに変換するモデル。
- 音声合成モデル(TTS):テキストを自然な音声として生成するモデル。
- 音響イベント検出モデル:環境音や異音を識別するモデル。
- 音声LLM(AudioLM, VALL-Eなど):音声の理解・生成を統合的に扱うモデル。
統計・予測・分類系モデル[編集 | ソースを編集]
- 回帰モデル:数値予測や確率予測を行うモデル。
- 決定木・アンサンブル学習モデル(XGBoost, LightGBMなど):表形式データの分析に強いモデル。
- サポートベクターマシン(SVM):境界線による分類を行うモデル。
- クラスタリングモデル(k-meansなど):データを自動でグループ分けするモデル。
- 時系列予測モデル(ARIMA, Prophetなど):時間変化を伴うデータの予測に特化したモデル。
その他の特殊なAIモデル[編集 | ソースを編集]
- レコメンダー(推薦システム):ユーザーの嗜好に基づいて商品やコンテンツを推薦するモデル。
- 強化学習モデル:試行錯誤を通じて最適な行動方針を学習するモデル。
- グラフニューラルネットワーク(GNN):グラフ構造データ(SNSの関係、分子構造など)を扱うモデル。
- エージェントモデル:LLMが外部ツールを使いながらタスクを遂行する仕組み(ReAct, Toolformerなど)。