「Wan 2.2」の版間の差分

2025年10月17日 (金) 07:04時点における最新版

Wan2.2とは、中国のアリババが開発し、オープンソースのもとで公開された動画生成AIモデルである。テキストや画像を入力として動画を生成できる多機能なシステムであり、研究者やクリエイターが自由に利用できるように設計されている。特に「映画的な映像美」を強調し、商業的な制作現場でも応用可能な品質を目指している。

特徴[編集 | ソースを編集]

Wan2.2は、先行モデルであるWan2.1を大幅に拡張・改良している。バージョン番号は0.1しか増えていませんが単なるマイナーバージョンアップではなく、内部アーキテクチャやデータセットの規模が刷新されている点が特徴です。

Mixture of Experts（MoE）による効率的な推論[編集 | ソースを編集]

Wan2.2は「Mixture of Experts（MoE）」と呼ばれる「専門家モデル」を切り替える仕組みを持ち、入力の特徴に応じて最適なネットワークを活用する。そのため、実際に推論で使用する計算資源は14B規模でありながら、学習には約270億のパラメータを用いている。この仕組みにより、従来よりも高速かつ高精度な生成が可能となった。

大規模データセットによる表現力向上[編集 | ソースを編集]

学習に用いられた画像と動画の規模は、前バージョンよりも数十％単位で増加している。これによりキャラクターの自然な動きやシネマティックなライティング表現の再現性が高まり、生身のカメラ映像に近い仕上がりが得やすくなっている。

高解像度動画の生成[編集 | ソースを編集]

コンシューマーGPUでも720p・24fpsの動画を安定的に生成できる点は、実用性の大きな進歩である。さらに、十分なVRAMと高性能GPUでは1080p出力も可能とされ、短編映像制作にも利用できる。

制御性と表現の柔軟性[編集 | ソースを編集]

テキストやプロンプトを通じてカメラの構図やライティング条件、色調などをきめ細かく指定できるため、単なる自動生成ではなくクリエイティブな制作支援ツールとしての性格を持っている。

Wan2.1との主な違い[編集 | ソースを編集]

アーキテクチャの刷新（MoE方式による効率化と高精度化）
データセットの大幅拡大（映像美・動きの自然さ改善）
出力解像度・速度の強化（720p24fpsが標準サポート）
制御性・美学表現の拡張（構図や光源のコントロールが容易）

主なモデル[編集 | ソースを編集]


モデル名	推奨VRAM容量	生成可能な動画解像度	備考
Animate-14B	24GB以上	720p程度	モーション生成に強い
S2V-14B	24GB以上	720p程度	スケッチやシーン構成から動画生成
TI2V-5B	10GB以上	512×384程度	軽量版、試験環境向け
I2V-A14B	24GB以上	720p程度	画像から動画生成が可能
T2V-A14B	24GB以上	720p程度	テキストから直接動画生成が可能

I2V-A14BやT2V-A14Bは、市販GPU（例:GeForce RTX 4090）でも動作可能である。ただし24GBのVRAMでは720p出力が限界とされ、1080p動画を扱うにはより多くのVRAMを持つGPUが推奨される。フル機能モデルを本格的に運用する場合は、A100やH100といったデータセンター向けGPUが必要とされる。また、PC向けAIチップであるRyzen AI Max+ 395での検証はまだ少ないが、前バージョンのWan2.1が動作したことから互換性が期待されている。

応用分野[編集 | ソースを編集]

Wan2.2は以下のような分野での活用が想定されている。

映画・映像制作におけるプリビズ（事前映像化）
ゲームやアニメーションでの動的コンテンツ生成
広告・マーケティング映像の短期間制作
研究開発や実験環境での合成映像データ生成

@@ 1行目: / 1行目: @@
-'''Wan2.2'''とは、中国の[[アリババ]]が開発し[[オープンソース]]のもとで公開した[[動画生成AIモデル]]です。
+'''Wan2.2'''とは、中国の[[アリババ]]が開発し、[[オープンソース]]のもとで公開された[[動画生成AIモデル]]である。テキストや画像を入力として動画を生成できる多機能なシステムであり、研究者やクリエイターが自由に利用できるように設計されている。特に「映画的な映像美」を強調し、商業的な制作現場でも応用可能な品質を目指している。
+== 特徴 ==
+Wan2.2は、先行モデルである[[Wan2.1]]を大幅に拡張・改良している。バージョン番号は0.1しか増えていませんが単なるマイナーバージョンアップではなく、内部アーキテクチャやデータセットの規模が刷新されている点が特徴です。
+=== Mixture of Experts（MoE）による効率的な推論 ===
+Wan2.2は「[[Mixture of Experts]]（MoE）」と呼ばれる「専門家モデル」を切り替える仕組みを持ち、入力の特徴に応じて最適なネットワークを活用する。そのため、実際に推論で使用する計算資源は14B規模でありながら、学習には約270億のパラメータを用いている。この仕組みにより、従来よりも高速かつ高精度な生成が可能となった。
+=== 大規模データセットによる表現力向上 ===
+学習に用いられた画像と動画の規模は、前バージョンよりも数十％単位で増加している。これによりキャラクターの自然な動きやシネマティックなライティング表現の再現性が高まり、生身のカメラ映像に近い仕上がりが得やすくなっている。
+=== 高解像度動画の生成 ===
+コンシューマーGPUでも720p・24fpsの動画を安定的に生成できる点は、実用性の大きな進歩である。さらに、十分なVRAMと高性能GPUでは1080p出力も可能とされ、短編映像制作にも利用できる。
+=== 制御性と表現の柔軟性 ===
+テキストやプロンプトを通じてカメラの構図やライティング条件、色調などをきめ細かく指定できるため、単なる自動生成ではなくクリエイティブな制作支援ツールとしての性格を持っている。
 == Wan2.1との主な違い ==
-Wan2.1の後継品です。バージョンは0.1しか上がっていませんが完全に別物らしいです。
+* アーキテクチャの刷新（MoE方式による効率化と高精度化）
+* データセットの大幅拡大（映像美・動きの自然さ改善）
-* アーキテクチャと性能向上：Wan2.2はMixture-of-Experts（MoE）アーキテクチャを採用し、高ノイズ・低ノイズの段階で異なる専門家（エキスパート）を切り替えることで、より効率的な学習と生成を実現しています。これにより、パラメータは約270億と大規模ながらも、推論時には約14B程度の計算資源で動作可能です。
+* 出力解像度・速度の強化（720p24fpsが標準サポート）
-* 学習データの拡大：学習に用いる画像や動画を65.6％・83.2％増やし、映画的美学や動きの精度を大幅に改善し、より自然で高品質な動画生成が可能になっています。
+* 制御性・美学表現の拡張（構図や光源のコントロールが容易）
-* 生成解像度と速度：720p＠24fpsの高解像度動画生成をサポートし、コンシューマーGPU（例:NVIDIA RTX 4090）でも高速に動作します。
-* 映画的美学と制御性：ライティングや構図の細部表現、色調調整などのコントロールも強化されています。
 == 主なモデル ==
@@ 13行目: / 26行目: @@
 |+
 !モデル名
-!パラメータ数
 !推奨VRAM容量
 !生成可能な動画解像度
-!用途・特徴
+!備考
+|-
+|Animate-14B
+|24GB以上
+|720p程度
+|モーション生成に強い
+|-
+|S2V-14B
+|24GB以上
+|720p程度
+|スケッチやシーン構成から動画生成
 |-
 |TI2V-5B
-|約5億
 |10GB以上
-|低〜中解像度（例：512×384）
+|512×384程度
-|
+|軽量版、試験環境向け
 |-
-|T2V-A14B
+|I2V-A14B
-（テキスト→動画）
-|約140億
 |24GB以上
-|高解像度（720p程度）
+|720p程度
-|複雑なテキストからの高品質動画生成に強み
+|画像から動画生成が可能
 |-
-|I2V-A14B
+|T2V-A14B
-（画像→動画）
-|約140億
 |24GB以上
-|高解像度（720p～1080p）
+|720p程度
-|高精細な画像から動画への変換に適している
+|テキストから直接動画生成が可能
-|-
-|フルモデル（MoE含む）
-|約270億
-|80GB前後
-|最高解像度・高フレームレート対応
-|大規模かつ高品質動画生成。研究用や商用大規模用途に最適
 |}
-I2V-A14BとT2V-A14BであればGeForce RTX 4090があれば動かせます。ただし24GBの場合は720p程度が限界です。
-フルモデルはA100やH100が必須です。[[Ryzen AI Max+ 395]]で動くかはまだ試していませんが、前作の[[Wan2.1]]は動いたのでたぶん動くと思います。
+I2V-A14BやT2V-A14Bは、市販GPU（例:GeForce RTX 4090）でも動作可能である。ただし24GBのVRAMでは720p出力が限界とされ、1080p動画を扱うにはより多くのVRAMを持つGPUが推奨される。フル機能モデルを本格的に運用する場合は、A100やH100といったデータセンター向けGPUが必要とされる。また、PC向けAIチップである[[Ryzen AI Max+ 395]]での検証はまだ少ないが、前バージョンのWan2.1が動作したことから互換性が期待されている。
-[[カテゴリ:動画生成AI]]
+== 応用分野 ==
+Wan2.2は以下のような分野での活用が想定されている。
+* 映画・映像制作におけるプリビズ（事前映像化）
+* ゲームやアニメーションでの動的コンテンツ生成
+* 広告・マーケティング映像の短期間制作
+* 研究開発や実験環境での合成映像データ生成
+== 関連項目 ==
+* [[Wan2.1]]
+* [[アリババ]]
+* [[動画生成AI]]
+* [[生成AI]]
+[[カテゴリ:Wan 2.2]]