Wan 2.2

Wan2.2とは、中国のアリババが開発し、オープンソースのもとで公開された動画生成AIモデルである。テキストや画像を入力として動画を生成できる多機能なシステムであり、研究者やクリエイターが自由に利用できるように設計されている。特に「映画的な映像美」を強調し、商業的な制作現場でも応用可能な品質を目指している。

特徴

Wan2.2は、先行モデルであるWan2.1を大幅に拡張・改良している。単なるマイナーバージョンアップではなく、内部アーキテクチャやデータセットの規模が刷新されている点が特徴である。

Mixture-of-Experts（MoE）による効率的な推論

Wan2.2は「専門家モデル」を切り替える仕組みを持ち、入力の特徴に応じて最適なネットワークを活用する。そのため、実際に推論で使用する計算資源は14B規模でありながら、学習には約270億のパラメータを用いている。この仕組みにより、従来よりも高速かつ高精度な生成が可能となった。

大規模データセットによる表現力向上

学習に用いられた画像と動画の規模は、前バージョンよりも数十％単位で増加している。これによりキャラクターの自然な動きやシネマティックなライティング表現の再現性が高まり、生身のカメラ映像に近い仕上がりが得やすくなっている。

高解像度動画の生成

コンシューマーGPUでも720p・24fpsの動画を安定的に生成できる点は、実用性の大きな進歩である。さらに、十分なVRAMと高性能GPUでは1080p出力も可能とされ、短編映像制作にも利用できる。

制御性と表現の柔軟性

テキストやプロンプトを通じてカメラの構図やライティング条件、色調などをきめ細かく指定できるため、単なる自動生成ではなくクリエイティブな制作支援ツールとしての性格を持っている。

Wan2.1との主な違い

アーキテクチャの刷新（MoE方式による効率化と高精度化）
データセットの大幅拡大（映像美・動きの自然さ改善）
出力解像度・速度の強化（720p24fpsが標準サポート）
制御性・美学表現の拡張（構図や光源のコントロールが容易）

主なモデル


モデル名	推奨VRAM容量	生成可能な動画解像度	備考
Animate-14B	24GB以上	720p程度	モーション生成に強い
S2V-14B	24GB以上	720p程度	スケッチやシーン構成から動画生成
TI2V-5B	10GB以上	512×384程度	軽量版、試験環境向け
I2V-A14B	24GB以上	720p程度	画像から動画生成が可能
T2V-A14B	24GB以上	720p程度	テキストから直接動画生成が可能

I2V-A14BやT2V-A14Bは、市販GPU（例:GeForce RTX 4090）でも動作可能である。ただし24GBのVRAMでは720p出力が限界とされ、1080p動画を扱うにはより多くのVRAMを持つGPUが推奨される。フル機能モデルを本格的に運用する場合は、A100やH100といったデータセンター向けGPUが必要とされる。また、PC向けAIチップであるRyzen AI Max+ 395での検証はまだ少ないが、前バージョンのWan2.1が動作したことから互換性が期待されている。

応用分野

Wan2.2は以下のような分野での活用が想定されている。

映画・映像制作におけるプリビズ（事前映像化）
ゲームやアニメーションでの動的コンテンツ生成
広告・マーケティング映像の短期間制作
研究開発や実験環境での合成映像データ生成