「AudioCraft」の版間の差分

提供:MonoBook
編集の要約なし
編集の要約なし
 
(同じ利用者による、間の3版が非表示)
2行目: 2行目:
[[PyTorch]]の上に構築されています。
[[PyTorch]]の上に構築されています。


AudioCraftには学習と推論のサンプルコードが含まれています。とくに推論については高品質な音楽を生成できるAudioGenとMusicGenという2つの推論モデルが同梱されています。
AudioCraftには学習と[[推論]]のサンプルコードが含まれています。とくに推論については高品質な音楽を生成できるAudioGenとMusicGenという2つの推論モデルが同梱されています。


== ライセンス ==
== ライセンス ==
24行目: 24行目:


軽く試した感じでは時間30秒に設定した mediumモデルでVRAM使用量は11GB前後となっています。やはりVRAM12GBのビデオカードではかなり厳しいと思われます。
軽く試した感じでは時間30秒に設定した mediumモデルでVRAM使用量は11GB前後となっています。やはりVRAM12GBのビデオカードではかなり厳しいと思われます。
速度を求めないなら[[メインメモリ]]が多めの[[Ryzen APU]]か[[Mac]] ([[Apple Silicon]])を使用するのが手軽かと思います。


== 外部リンク ==
== 外部リンク ==

2024年7月31日 (水) 03:01時点における最新版

AudioCraftとは、2023年6月にMetafacebook)がオープンソースの下で公開した人工知能による音声に特化したPython向けのライブラリです。 PyTorchの上に構築されています。

AudioCraftには学習と推論のサンプルコードが含まれています。とくに推論については高品質な音楽を生成できるAudioGenとMusicGenという2つの推論モデルが同梱されています。

ライセンス[編集 | ソースを編集]

AudioGenやMusicGenで生成した音楽は非商用に限りYouTubeなどでも使用できます。 本モデルを使用していることを説明欄に明記し、かつ収益化してはならない(≒広告を入れてはならない)という点に注意してください。

動作環境[編集 | ソースを編集]

Python 3.9

Python 3.10では動かないようです。 Python 3.9にダウングレードしたら動きました。

VRAM 16GB の GPU

まずビデオカードの敷居が高い。AudioCraftで中規模の推論モデルを実行するためには少なくとも16GBのVRAMを持つGPUを必要とします。

軽く試した感じでは時間30秒に設定した mediumモデルでVRAM使用量は11GB前後となっています。やはりVRAM12GBのビデオカードではかなり厳しいと思われます。

速度を求めないならメインメモリが多めのRyzen APUMac (Apple Silicon)を使用するのが手軽かと思います。

外部リンク[編集 | ソースを編集]