「AudioCraft」の版間の差分

2023年8月21日 (月) 23:18時点における最新版

AudioCraftとは、2023年6月にMeta（facebook）がオープンソースの下で公開した人工知能による音声に特化したPython向けのライブラリです。 PyTorchの上に構築されています。

AudioCraftには学習と推論のサンプルコードが含まれています。とくに推論については高品質な音楽を生成できるAudioGenとMusicGenという2つの推論モデルが同梱されています。

ライセンス[編集 | ソースを編集]

ソースコードはMITライセンス
付属の推論モデルはCC-BY-NC 4.0
https://creativecommons.org/licenses/by-nc/4.0/deed.ja

AudioGenやMusicGenで生成した音楽は非商用に限りYouTubeなどでも使用できます。本モデルを使用していることを説明欄に明記し、かつ収益化してはならない（≒広告を入れてはならない）という点に注意してください。

個々の動画で広告表示を無効にする方法
https://support.google.com/youtube/answer/6332943?hl=ja

動作環境[編集 | ソースを編集]

Python 3.9

Python 3.10では動かないようです。 Python 3.9にダウングレードしたら動きました。

VRAM 16GB の GPU

まずビデオカードの敷居が高い。AudioCraftで中規模の推論モデルを実行するためには少なくとも16GBのVRAMを持つGPUを必要とします。

軽く試した感じでは時間30秒に設定した mediumモデルでVRAM使用量は11GB前後となっています。やはりVRAM12GBのビデオカードではかなり厳しいと思われます。

速度を求めないならメインメモリが多めのRyzen APUかMac (Apple Silicon)を使用するのが手軽かと思います。

外部リンク[編集 | ソースを編集]

https://github.com/facebookresearch/audiocraft

@@ 2行目: / 2行目: @@
 [[PyTorch]]の上に構築されています。
-学習と推論のサンプルコードが含まれています。
+AudioCraftには学習と推論のサンプルコードが含まれています。とくに推論については高品質な音楽を生成できるAudioGenとMusicGenという2つの推論モデルが同梱されています。
-とくに推論については高品質な音楽を生成できるAudioGenとMusicGenという2つの推論モデルが同梱されています。
 == ライセンス ==
@@ 17行目: / 16行目: @@
 == 動作環境 ==
-* 16GBのGPU
+; Python 3.9
-*: AudioCraftで中規模の推論モデルを実行するためには少なくとも16GBの[[VRAM]]を持つ[[GPU]]を必要とします。
+Python 3.10では動かないようです。
+Python 3.9にダウングレードしたら動きました。
-まず[[ビデオカード]]の敷居が高い。
+; VRAM 16GB の GPU
+まず[[ビデオカード]]の敷居が高い。AudioCraftで中規模の推論モデルを実行するためには少なくとも16GBの[[VRAM]]を持つ[[GPU]]を必要とします。
+軽く試した感じでは時間30秒に設定した mediumモデルでVRAM使用量は11GB前後となっています。やはりVRAM12GBのビデオカードではかなり厳しいと思われます。
+速度を求めないなら[[メインメモリ]]が多めの[[Ryzen APU]]か[[Mac]] ([[Apple Silicon]])を使用するのが手軽かと思います。
 == 外部リンク ==

「AudioCraft」の版間の差分

2023年8月21日 (月) 23:18時点における最新版

ライセンス[編集 | ソースを編集]

動作環境[編集 | ソースを編集]

外部リンク[編集 | ソースを編集]

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ツール