「Wan 2.2」の版間の差分

2025年10月17日 (金) 07:04時点における最新版

Wan2.2とは、中国のアリババが開発し、オープンソースのもとで公開された動画生成AIモデルである。テキストや画像を入力として動画を生成できる多機能なシステムであり、研究者やクリエイターが自由に利用できるように設計されている。特に「映画的な映像美」を強調し、商業的な制作現場でも応用可能な品質を目指している。

特徴[編集 | ソースを編集]

Wan2.2は、先行モデルであるWan2.1を大幅に拡張・改良している。バージョン番号は0.1しか増えていませんが単なるマイナーバージョンアップではなく、内部アーキテクチャやデータセットの規模が刷新されている点が特徴です。

Mixture of Experts（MoE）による効率的な推論[編集 | ソースを編集]

Wan2.2は「Mixture of Experts（MoE）」と呼ばれる「専門家モデル」を切り替える仕組みを持ち、入力の特徴に応じて最適なネットワークを活用する。そのため、実際に推論で使用する計算資源は14B規模でありながら、学習には約270億のパラメータを用いている。この仕組みにより、従来よりも高速かつ高精度な生成が可能となった。

大規模データセットによる表現力向上[編集 | ソースを編集]

学習に用いられた画像と動画の規模は、前バージョンよりも数十％単位で増加している。これによりキャラクターの自然な動きやシネマティックなライティング表現の再現性が高まり、生身のカメラ映像に近い仕上がりが得やすくなっている。

高解像度動画の生成[編集 | ソースを編集]

コンシューマーGPUでも720p・24fpsの動画を安定的に生成できる点は、実用性の大きな進歩である。さらに、十分なVRAMと高性能GPUでは1080p出力も可能とされ、短編映像制作にも利用できる。

制御性と表現の柔軟性[編集 | ソースを編集]

テキストやプロンプトを通じてカメラの構図やライティング条件、色調などをきめ細かく指定できるため、単なる自動生成ではなくクリエイティブな制作支援ツールとしての性格を持っている。

Wan2.1との主な違い[編集 | ソースを編集]

アーキテクチャの刷新（MoE方式による効率化と高精度化）
データセットの大幅拡大（映像美・動きの自然さ改善）
出力解像度・速度の強化（720p24fpsが標準サポート）
制御性・美学表現の拡張（構図や光源のコントロールが容易）

主なモデル[編集 | ソースを編集]


モデル名	推奨VRAM容量	生成可能な動画解像度	備考
Animate-14B	24GB以上	720p程度	モーション生成に強い
S2V-14B	24GB以上	720p程度	スケッチやシーン構成から動画生成
TI2V-5B	10GB以上	512×384程度	軽量版、試験環境向け
I2V-A14B	24GB以上	720p程度	画像から動画生成が可能
T2V-A14B	24GB以上	720p程度	テキストから直接動画生成が可能

I2V-A14BやT2V-A14Bは、市販GPU（例:GeForce RTX 4090）でも動作可能である。ただし24GBのVRAMでは720p出力が限界とされ、1080p動画を扱うにはより多くのVRAMを持つGPUが推奨される。フル機能モデルを本格的に運用する場合は、A100やH100といったデータセンター向けGPUが必要とされる。また、PC向けAIチップであるRyzen AI Max+ 395での検証はまだ少ないが、前バージョンのWan2.1が動作したことから互換性が期待されている。

応用分野[編集 | ソースを編集]

Wan2.2は以下のような分野での活用が想定されている。

映画・映像制作におけるプリビズ（事前映像化）
ゲームやアニメーションでの動的コンテンツ生成
広告・マーケティング映像の短期間制作
研究開発や実験環境での合成映像データ生成

@@ 1行目: / 1行目: @@
-'''Wan2.2'''とは、中国の[[アリババ]]が開発し[[オープンソース]]のもとで公開した[[動画生成AIモデル]]です。
+'''Wan2.2'''とは、中国の[[アリババ]]が開発し、[[オープンソース]]のもとで公開された[[動画生成AIモデル]]である。テキストや画像を入力として動画を生成できる多機能なシステムであり、研究者やクリエイターが自由に利用できるように設計されている。特に「映画的な映像美」を強調し、商業的な制作現場でも応用可能な品質を目指している。
-Wan2.1の後継品です。Mixture-of-Experts（MoE）アーキテクチャを採用していることが特徴で、高い映像表現力と効率性を両立しています。
+== 特徴 ==
+Wan2.2は、先行モデルである[[Wan2.1]]を大幅に拡張・改良している。バージョン番号は0.1しか増えていませんが単なるマイナーバージョンアップではなく、内部アーキテクチャやデータセットの規模が刷新されている点が特徴です。
+=== Mixture of Experts（MoE）による効率的な推論 ===
+Wan2.2は「[[Mixture of Experts]]（MoE）」と呼ばれる「専門家モデル」を切り替える仕組みを持ち、入力の特徴に応じて最適なネットワークを活用する。そのため、実際に推論で使用する計算資源は14B規模でありながら、学習には約270億のパラメータを用いている。この仕組みにより、従来よりも高速かつ高精度な生成が可能となった。
+=== 大規模データセットによる表現力向上 ===
+学習に用いられた画像と動画の規模は、前バージョンよりも数十％単位で増加している。これによりキャラクターの自然な動きやシネマティックなライティング表現の再現性が高まり、生身のカメラ映像に近い仕上がりが得やすくなっている。
+=== 高解像度動画の生成 ===
+コンシューマーGPUでも720p・24fpsの動画を安定的に生成できる点は、実用性の大きな進歩である。さらに、十分なVRAMと高性能GPUでは1080p出力も可能とされ、短編映像制作にも利用できる。
+=== 制御性と表現の柔軟性 ===
+テキストやプロンプトを通じてカメラの構図やライティング条件、色調などをきめ細かく指定できるため、単なる自動生成ではなくクリエイティブな制作支援ツールとしての性格を持っている。
+== Wan2.1との主な違い ==
+* アーキテクチャの刷新（MoE方式による効率化と高精度化）
+* データセットの大幅拡大（映像美・動きの自然さ改善）
+* 出力解像度・速度の強化（720p24fpsが標準サポート）
+* 制御性・美学表現の拡張（構図や光源のコントロールが容易）
 == 主なモデル ==
+{| class="wikitable"
+|+
+!モデル名
+!推奨VRAM容量
+!生成可能な動画解像度
+!備考
+|-
+|Animate-14B
+|24GB以上
+|720p程度
+|モーション生成に強い
+|-
+|S2V-14B
+|24GB以上
+|720p程度
+|スケッチやシーン構成から動画生成
+|-
+|TI2V-5B
+|10GB以上
+|512×384程度
+|軽量版、試験環境向け
+|-
+|I2V-A14B
+|24GB以上
+|720p程度
+|画像から動画生成が可能
+|-
+|T2V-A14B
+|24GB以上
+|720p程度
+|テキストから直接動画生成が可能
+|}
+I2V-A14BやT2V-A14Bは、市販GPU（例:GeForce RTX 4090）でも動作可能である。ただし24GBのVRAMでは720p出力が限界とされ、1080p動画を扱うにはより多くのVRAMを持つGPUが推奨される。フル機能モデルを本格的に運用する場合は、A100やH100といったデータセンター向けGPUが必要とされる。また、PC向けAIチップである[[Ryzen AI Max+ 395]]での検証はまだ少ないが、前バージョンのWan2.1が動作したことから互換性が期待されている。
+== 応用分野 ==
+Wan2.2は以下のような分野での活用が想定されている。
+* 映画・映像制作におけるプリビズ（事前映像化）
+* ゲームやアニメーションでの動的コンテンツ生成
+* 広告・マーケティング映像の短期間制作
+* 研究開発や実験環境での合成映像データ生成
+== 関連項目 ==
+* [[Wan2.1]]
+* [[アリババ]]
+* [[動画生成AI]]
+* [[生成AI]]
+[[カテゴリ:Wan 2.2]]