「Wan 2.2」の版間の差分

 
(同じ利用者による、間の5版が非表示)
1行目: 1行目:
'''Wan2.2'''とは、中国の[[アリババ]]が開発し[[オープンソース]]のもとで公開した[[動画生成AIモデル]]です。
'''Wan2.2'''とは、中国の[[アリババ]]が開発し、[[オープンソース]]のもとで公開された[[動画生成AIモデル]]である。テキストや画像を入力として動画を生成できる多機能なシステムであり、研究者やクリエイターが自由に利用できるように設計されている。特に「映画的な映像美」を強調し、商業的な制作現場でも応用可能な品質を目指している。
 
== 特徴 ==
Wan2.2は、先行モデルである[[Wan2.1]]を大幅に拡張・改良している。バージョン番号は0.1しか増えていませんが単なるマイナーバージョンアップではなく、内部アーキテクチャやデータセットの規模が刷新されている点が特徴です。
 
=== Mixture of Experts(MoE)による効率的な推論 ===
Wan2.2は「[[Mixture of Experts]](MoE)」と呼ばれる「専門家モデル」を切り替える仕組みを持ち、入力の特徴に応じて最適なネットワークを活用する。そのため、実際に推論で使用する計算資源は14B規模でありながら、学習には約270億のパラメータを用いている。この仕組みにより、従来よりも高速かつ高精度な生成が可能となった。
 
=== 大規模データセットによる表現力向上 ===
学習に用いられた画像と動画の規模は、前バージョンよりも数十%単位で増加している。これによりキャラクターの自然な動きやシネマティックなライティング表現の再現性が高まり、生身のカメラ映像に近い仕上がりが得やすくなっている。
 
=== 高解像度動画の生成 ===
コンシューマーGPUでも720p・24fpsの動画を安定的に生成できる点は、実用性の大きな進歩である。さらに、十分なVRAMと高性能GPUでは1080p出力も可能とされ、短編映像制作にも利用できる。
 
=== 制御性と表現の柔軟性 ===
テキストやプロンプトを通じてカメラの構図やライティング条件、色調などをきめ細かく指定できるため、単なる自動生成ではなくクリエイティブな制作支援ツールとしての性格を持っている。


== Wan2.1との主な違い ==
== Wan2.1との主な違い ==
Wan2.1の後継品です。バージョンは0.1しか上がっていませんが完全に別物らしいです。
* アーキテクチャの刷新(MoE方式による効率化と高精度化)
 
* データセットの大幅拡大(映像美・動きの自然さ改善)
* アーキテクチャと性能向上:Wan2.2はMixture-of-Experts(MoE)アーキテクチャを採用し、高ノイズ・低ノイズの段階で異なる専門家(エキスパート)を切り替えることで、より効率的な学習と生成を実現しています。これにより、パラメータは約270億と大規模ながらも、推論時には約14B程度の計算資源で動作可能です。
* 出力解像度・速度の強化(720p24fpsが標準サポート)
* 学習データの拡大:学習に用いる画像や動画を65.6%・83.2%増やし、映画的美学や動きの精度を大幅に改善し、より自然で高品質な動画生成が可能になっています。
* 制御性・美学表現の拡張(構図や光源のコントロールが容易)
* 生成解像度と速度:720p@24fpsの高解像度動画生成をサポートし、コンシューマーGPU(例:NVIDIA RTX 4090)でも高速に動作します。
* 映画的美学と制御性:ライティングや構図の細部表現、色調調整などのコントロールも強化されています。


== 主なモデル ==
== 主なモデル ==
15行目: 28行目:
!推奨VRAM容量
!推奨VRAM容量
!生成可能な動画解像度
!生成可能な動画解像度
!
!備考
|-
|-
|Animate-14B
|Animate-14B
|24GB以上
|24GB以上
|720p程度
|720p程度
|
|モーション生成に強い
|-
|-
|S2V-14B
|S2V-14B
|24GB以上
|24GB以上
|720p程度
|720p程度
|
|スケッチやシーン構成から動画生成
|-
|-
|TI2V-5B
|TI2V-5B
|10GB以上
|10GB以上
|512×384くらい
|512×384程度
|
|軽量版、試験環境向け
|-
|-
|I2V-A14B
|I2V-A14B
|24GB以上
|24GB以上
|720p程度
|720p程度
|
|画像から動画生成が可能
|-
|-
|T2V-A14B
|T2V-A14B
|24GB以上
|24GB以上
|720p程度
|720p程度
|
|テキストから直接動画生成が可能
|}
|}
I2V-A14BとT2V-A14BであればGeForce RTX 4090があれば動かせます。ただし24GBの場合は720p程度が限界です。VRAM盛り盛りなら1080pもいけるようです。


生のフルモデルはA100やH100が必須です。[[Ryzen AI Max+ 395]]で動くかはまだ試していませんが、前作の[[Wan2.1]]は動いたのでたぶん動くと思います。
I2V-A14BやT2V-A14Bは、市販GPU(例:GeForce RTX 4090)でも動作可能である。ただし24GBのVRAMでは720p出力が限界とされ、1080p動画を扱うにはより多くのVRAMを持つGPUが推奨される。フル機能モデルを本格的に運用する場合は、A100やH100といったデータセンター向けGPUが必要とされる。また、PC向けAIチップである[[Ryzen AI Max+ 395]]での検証はまだ少ないが、前バージョンのWan2.1が動作したことから互換性が期待されている。
[[カテゴリ:動画生成AI]]
 
== 応用分野 ==
Wan2.2は以下のような分野での活用が想定されている。
* 映画・映像制作におけるプリビズ(事前映像化)
* ゲームやアニメーションでの動的コンテンツ生成
* 広告・マーケティング映像の短期間制作
* 研究開発や実験環境での合成映像データ生成
 
== 関連項目 ==
* [[Wan2.1]]
* [[アリババ]]
* [[動画生成AI]]
* [[生成AI]]
 
[[カテゴリ:Wan 2.2]]