「Wan 2.2」の版間の差分
Administrator (トーク | 投稿記録) ページの作成:「'''Wan2.2'''とは、中国のアリババが開発しオープンソースのもとで公開した動画生成AIモデルです。 Wan2.1の後継品です。Mixture-of-Experts(MoE)アーキテクチャを採用していることが特徴で、高い映像表現力と効率性を両立しています。 == 主なモデル ==」 |
Administrator (トーク | 投稿記録) 編集の要約なし |
||
| 1行目: | 1行目: | ||
'''Wan2.2'''とは、中国の[[アリババ]]が開発し[[オープンソース]]のもとで公開した[[動画生成AIモデル]]です。 | '''Wan2.2'''とは、中国の[[アリババ]]が開発し[[オープンソース]]のもとで公開した[[動画生成AIモデル]]です。 | ||
Wan2. | == Wan2.1との主な違い == | ||
Wan2.1の後継品です。バージョンは0.1しか上がっていませんが完全に別物らしいです。 | |||
* アーキテクチャと性能向上:Wan2.2はMixture-of-Experts(MoE)アーキテクチャを採用し、高ノイズ・低ノイズの段階で異なる専門家(エキスパート)を切り替えることで、より効率的な学習と生成を実現しています。これにより、パラメータは約270億と大規模ながらも、推論時には約14B程度の計算資源で動作可能です。 | |||
* 学習データの拡大:学習に用いる画像や動画を65.6%・83.2%増やし、映画的美学や動きの精度を大幅に改善し、より自然で高品質な動画生成が可能になっています。 | |||
* 生成解像度と速度:720p@24fpsの高解像度動画生成をサポートし、コンシューマーGPU(例:NVIDIA RTX 4090)でも高速に動作します。 | |||
* 映画的美学と制御性:ライティングや構図の細部表現、色調調整などのコントロールも強化されています。 | |||
== 主なモデル == | == 主なモデル == | ||
{| class="wikitable" | |||
|+ | |||
!モデル名 | |||
!パラメータ数 | |||
!推奨VRAM容量 | |||
!生成可能な動画解像度 | |||
!用途・特徴 | |||
|- | |||
|TI2V-5B | |||
|約5億 | |||
|10GB以上 | |||
|低〜中解像度(例:512×384) | |||
| | |||
|- | |||
|T2V-A14B | |||
(テキスト→動画) | |||
|約140億 | |||
|24GB以上 | |||
|高解像度(720p程度) | |||
|複雑なテキストからの高品質動画生成に強み | |||
|- | |||
|I2V-A14B | |||
(画像→動画) | |||
|約140億 | |||
|24GB以上 | |||
|高解像度(720p~1080p) | |||
|高精細な画像から動画への変換に適している | |||
|- | |||
|フルモデル(MoE含む) | |||
|約270億 | |||
|80GB前後 | |||
|最高解像度・高フレームレート対応 | |||
|大規模かつ高品質動画生成。研究用や商用大規模用途に最適 | |||
|} | |||
I2V-A14BとT2V-A14BであればGeForce RTX 4090があれば動かせます。ただし24GBの場合は720p程度が限界です。 | |||
フルモデルはA100やH100が必須です。[[Ryzen AI Max+ 395]]で動くかはまだ試していませんが、前作の[[Wan2.1]]は動いたのでたぶん動くと思います。 | |||
[[カテゴリ:動画生成AI]] | |||