HunyuanVideo

HunyuanVideoとは、中国のテンセント（Tencent）が開発し公開したオープンソースのAI動画生成モデルです。

テキストプロンプトから高品質でリアルな動画を生成することができ、多数のパラメータをもちながら物理法則を考慮した自然な動きや表情を再現する。

3D VAEやマルチモーダルLLM（大規模多モーダル言語モデル）を活用し、画像と動画の統合型アーキテクチャによって映像の質と意味の整合性を高めている。

特徴

テキストプロンプトを大規模言語モデルでエンコードし、その条件を使って潜在空間で時空間的特徴を学習・生成。これにより、意味的にも視覚的にも優れた動画を作成する。

動画とテキストの情報をデュアルストリームで別々に処理後、シングルストリームで融合するハイブリッドTransformer設計により、映像と言語の複雑な相互作用を効果的に扱う。

CausalConv3Dを用いた3D変分オートエンコーダで動画データを潜在空間に圧縮し、高解像度・高フレームレートを維持しながら効率的な学習と生成を実現。

映像の質は非常に高く、動きの一貫性や表情の自然さが優れている。シーン遷移やカメラワークもシームレスで、観る者に違和感を与えにくい。

オープンソースでありながら商用利用も許可されており、マーケティング動画や広告などの分野での活用も期待されている。

HunyuanVideoは大規模なAIモデルであり、そのモデルサイズに応じたGPUとVRAM容量が必要となる。


モデル名	パラメータ数	推奨VRAM容量	生成可能な動画解像度	備考
HunyuanVideo 13B	約130億	24GB以上	720p程度	高品質なリアル動画生成に対応。汎用性が高い。
HunyuanVideo 5B（軽量版）	約50億	10GB以上	512×384程度	軽量版、低スペック環境での利用に適する。

現状、720p動画生成などには高性能なGPUと豊富なVRAM（24GB以上）が推奨される。軽量版モデルは、より限られたリソースでも動画生成が可能だが解像度や品質が制限される。