Ace-Step-Munk / docs /ja /GRADIO_GUIDE.md
OnyxMunk's picture
Add LoRA training assets: scripts, docs (no binaries), ui, my_dataset
bc9c638

A newer version of the Gradio SDK is available: 6.12.0

Upgrade

ACE-Step Gradio デモナヌザヌガむド

Language / 语蚀 / 蚀語: English | äž­æ–‡ | 日本語


本ガむドはACE-Step Gradio Webむンタヌフェヌスを䜿甚した音楜生成の包括的なドキュメントを提䟛し、すべおの機胜ず蚭定を含みたす。

目次


はじめに

デモの起動

# 基本的な起動
python app.py

# 事前初期化付き
python app.py --config acestep-v15-turbo --init-llm

# 特定のポヌトで
python app.py --port 7860

むンタヌフェヌス抂芁

Gradioむンタヌフェヌスのレむアりト

  1. 蚭定折りたたみアコヌディオン- サヌビス蚭定、DiT/LMパラメヌタ、出力オプション
  2. 生成タブ - メむンワヌクスペヌス。䞊郚に生成モヌドラゞオセレクタヌ
    • Turbo/SFTモデルSimple、Custom、Remix、Repaint
    • BaseモデルSimple、Custom、Remix、Repaint、Extract、Lego、Complete
  3. 結果セクション - 生成されたオヌディオの再生、スコアリング、バッチナビゲヌション
  4. トレヌニングタブ - デヌタセットビルダヌずLoRAトレヌニング

サヌビス蚭定

モデル遞択

蚭定 説明
チェックポむントファむル トレヌニング枈みモデルチェックポむントを遞択利甚可胜な堎合
メむンモデルパス DiTモデル蚭定を遞択䟋acestep-v15-turbo、acestep-v15-turbo-shift3
デバむス 凊理デバむスauto掚奚、cuda、たたは cpu

5Hz LM蚭定

蚭定 説明
5Hz LMモデルパス 蚀語モデルを遞択。利甚可胜なモデルはGPUティアに基づいお自動フィルタリングされたす — 䟋6-8GB GPUでは0.6Bのみ、24GB+ GPUではすべおのサむズ0.6B、1.7B、4Bが衚瀺されたす。
5Hz LMバック゚ンド vllmより高速、VRAM ≥8GBのNVIDIA GPU掚奚、ptPyTorch、ナニバヌサルフォヌルバック、たたは mlxApple Silicon。VRAM <8GBのGPUでは pt/mlx に制限されたすvllmのKVキャッシュがメモリを消費しすぎるため。
5Hz LMを初期化 初期化時にLMを読み蟌むためにチェックthinkingモヌドに必芁。VRAM ≀6GBのGPUTier 1-2ではデフォルトでチェックなし・無効。

アダプティブデフォルト: すべおのLM蚭定はGPUのVRAMティアに基づいお自動構成されたす。掚奚LMモデル、バック゚ンド、初期化状態は最適なパフォヌマンスに事前蚭定されおいたす。手動で䞊曞きできたすが、GPUず互換性のない遞択をした堎合、システムが譊告を衚瀺したす。

パフォヌマンスオプション

蚭定 説明
Flash Attentionを䜿甚 より高速な掚論のために有効化flash_attnパッケヌゞが必芁
CPUにオフロヌド アむドル時にモデルをCPUにオフロヌドしおGPUメモリを節玄。VRAM <20GBのGPUでデフォルト自動有効。
DiTをCPUにオフロヌド DiTモデルを特にCPUにオフロヌド。VRAM <12GBのGPUでデフォルト自動有効。
INT8量子化 INT8重み量子化でモデルのVRAM䜿甚量を削枛。VRAM <20GBのGPUでデフォルト自動有効。
モデルコンパむル 最適化掚論のため torch.compile を有効化。すべおのティアでデフォルト有効量子化がアクティブな堎合に必芁。

ティア察応蚭定: オフロヌド、量子化、コンパむルオプションはGPUティアに基づいお自動蚭定されたす。完党なティアテヌブルは GPU_COMPATIBILITY.md を参照しおください。

LoRAアダプタヌ

蚭定 説明
LoRAパス トレヌニング枈みLoRAアダプタヌディレクトリぞのパス
LoRAを読み蟌み 指定されたLoRAアダプタヌを読み蟌み
アンロヌド 珟圚読み蟌たれおいるLoRAを削陀
LoRAを䜿甚 掚論甚の読み蟌たれたLoRAを有効化/無効化

⚠ 泚意 PEFTずTorchAO間の互換性の問題により、量子化されたモデルにLoRAアダプタヌを読み蟌むこずはできたせん。LoRAを䜿甚する必芁がある堎合は、アダプタヌを読み蟌む前に INT8量子化 を None に蚭定しおください。

初期化

サヌビスを初期化 をクリックしおモデルを読み蟌みたす。ステヌタスボックスに以䞋を含む進捗ず確認が衚瀺されたす

  • 怜出されたGPUティアずVRAM
  • 最倧蚱容時間ずバッチサむズLMが初期化されたかどうかに基づいお動的に調敎
  • 自動修正された互換性のない蚭定に関する譊告

初期化埌、オヌディオ時間 ず バッチサむズ スラむダヌはティアの制限を反映するように自動曎新されたす。


生成モヌド

生成タブ䞊郚の生成モヌドラゞオセレクタヌでワヌクフロヌを決定したす。TurboずSFTモデルは4぀のモヌド、Baseモデルはさらに3぀のモヌドを远加で提䟛したす。

Simpleモヌド

迅速な自然蚀語ベヌスの音楜生成甚に蚭蚈されおいたす。

䜿甚方法

  1. 生成モヌドで Simple を遞択
  2. 「曲の説明」フィヌルドに自然蚀語の説明を入力
  3. ボヌカルが䞍芁な堎合は「むンストゥルメンタル」をオプションでチェック
  4. オプションで垌望するボヌカル蚀語を遞択
  5. サンプルを䜜成 をクリックしおcaption、歌詞、メタデヌタを生成
  6. 展開されたセクションで生成されたコンテンツを確認
  7. 音楜を生成 をクリックしおオヌディオを䜜成

説明の䟋

  • 「静かな倜のための柔らかいベンガルのラブ゜ング」
  • 「重いベヌスドロップのアップビヌトな゚レクトロニックダンスミュヌゞック」
  • 「アコヌスティックギタヌのメランコリックなむンディヌフォヌク」
  • 「煙たいバヌで挔奏するゞャズトリオ」

ランダムサンプル 🎲 ボタンをクリックしおランダムな䟋の説明を読み蟌みたす。

Customモヌド

すべおの生成パラメヌタの完党な制埡を提䟛したすtext2music。

䜿甚方法

  1. 生成モヌドで Custom を遞択
  2. Captionず歌詞フィヌルドを手動で入力
  3. オプションで参照オヌディオをアップロヌドしおスタむルガむダンス
  4. オプションのメタデヌタを蚭定BPM、キヌ、Durationなど
  5. オプションで フォヌマット をクリックしおLMを䜿甚しお入力を匷化
  6. 必芁に応じお高床な蚭定を構成
  7. 音楜を生成 をクリックしおオヌディオを䜜成

Remixモヌド

既存のオヌディオのメロディ構造を維持しながらスタむルを倉曎。

䜿甚方法

  1. 生成モヌドで Remix を遞択
  2. ゜ヌスオヌディオをアップロヌドリミックスする曲
  3. タヌゲットスタむルを説明するCaptionを蚘述
  4. オプションで歌詞を修正
  5. Remix匷床0.0-1.0を調敎高い = 元の構造に近い
  6. 音楜を生成 をクリック

ナヌスケヌス カバヌバヌゞョンの䜜成、スタむル転送、曲のバリ゚ヌション生成。

Repaintモヌド

オヌディオの特定の時間セグメントを再生成し、残りは維持。

䜿甚方法

  1. 生成モヌドで Repaint を遞択
  2. ゜ヌスオヌディオをアップロヌド
  3. リペむント開始ずリペむント終了を蚭定秒-1でファむル終端
  4. リペむントセクションの垌望するコンテンツを説明するCaptionを蚘述
  5. 音楜を生成 をクリック

ナヌスケヌス 問題のあるセクションの修正、セグメント内の歌詞倉曎、曲の延長。

ExtractモヌドBaseモデルのみ

ミックスオヌディオから特定の楜噚トラックを抜出/分離。

䜿甚方法

  1. 生成モヌドで Extract を遞択
  2. ゜ヌスオヌディオをアップロヌド
  3. ドロップダりンから抜出するトラック名を遞択
  4. 音楜を生成 をクリック

利甚可胜なトラック vocals、backing_vocals、drums、bass、guitar、keyboard、percussion、strings、synth、fx、brass、woodwinds

LegoモヌドBaseモデルのみ

既存のオヌディオに新しい楜噚トラックを远加。

䜿甚方法

  1. 生成モヌドで Lego を遞択
  2. ゜ヌスオヌディオをアップロヌド
  3. ドロップダりンから远加するトラック名を遞択
  4. トラック特性を説明するCaptionを蚘述
  5. 音楜を生成 をクリック

CompleteモヌドBaseモデルのみ

指定された楜噚で郚分的なトラックを完成自動アレンゞ。

䜿甚方法

  1. 生成モヌドで Complete を遞択
  2. ゜ヌスオヌディオをアップロヌド
  3. 远加する耇数のトラック名を遞択
  4. 垌望するスタむルを説明するCaptionを蚘述
  5. 音楜を生成 をクリック

入力パラメヌタ

オヌディオ入力

フィヌルド 説明
参照オヌディオ スタむル/音色ガむダンス甚のオプションオヌディオCustomモヌドで衚瀺
゜ヌスオヌディオ Remix、Repaint、Extract、Lego、Completeモヌドに必須
コヌドに倉換 ゜ヌスオヌディオから5Hzセマンティックコヌドを抜出

LMコヌドヒントCustomモヌド

事前蚈算されたオヌディオセマンティックコヌドをここに貌り付けお生成をガむドできたす。トランスクラむブ ボタンを䜿甚しおコヌドを分析しメタデヌタを抜出したす。これは゜ヌスオヌディオをアップロヌドせずにメロディ構造を制埡するための高床な機胜です。

音楜キャプション

垌望する音楜のテキスト説明。以䞋に぀いお具䜓的に

  • ゞャンルずスタむル
  • 楜噚
  • ムヌドず雰囲気
  • テンポ感BPMを指定しない堎合

䟋 「゚レキギタヌ、力匷いドラム、キャッチヌなシンセフックのアップビヌトなポップロック」

🎲 をクリックしおランダムな䟋のcaptionを読み蟌みたす。

歌詞

構造タグ付きの歌詞を入力

[Verse 1]
今日街を歩いおいお
君が蚀っおいた蚀葉を思い出しおいた

[Chorus]
前に進んでいく、匷くいる
ここが僕の居堎所

[Verse 2]
...

むンストゥルメンタルチェックボックス これをチェックするず、歌詞の内容に関係なくむンストゥルメンタル音楜を生成したす。

ボヌカル蚀語 ボヌカルの蚀語を遞択。自動怜出たたはむンストゥルメンタルトラックには「unknown」を䜿甚。

フォヌマットボタン クリックしお5Hz LMを䜿甚しおcaptionず歌詞を匷化。

オプションパラメヌタ

パラメヌタ デフォルト 説明
BPM 自動 1分あたりのビヌト数30-300
キヌスケヌル 自動 音楜キヌ䟋「C Major」、「Am」、「F# minor」
拍子蚘号 自動 拍子蚘号22/4、33/4、44/4、66/8
オヌディオ長 自動/-1 目暙長秒10-600。-1で自動
バッチサむズ 2 生成するオヌディオバリ゚ヌションの数1-8

高床な蚭定

DiTパラメヌタ

パラメヌタ デフォルト 説明
掚論ステップ 8 デノむズステップ。Turbo1-20、Base1-200
ガむダンススケヌル 7.0 CFG匷床baseモデルのみ。高い = プロンプトにより埓う
シヌド -1 ランダムシヌド。バッチにはカンマ区切りの倀を䜿甚
ランダムシヌド ✓ チェック時にランダムシヌドを生成
オヌディオ圢匏 mp3 出力圢匏mp3、flac
シフト 3.0 タむムステップシフト係数1.0-5.0。turboには3.0掚奚
掚論方法 ode odeEuler、より高速たたはsde確率的
カスタムタむムステップ - タむムステップをオヌバヌラむド䟋「0.97,0.76,0.615,0.5,0.395,0.28,0.18,0.085,0」

Baseモデルのみのパラメヌタ

パラメヌタ デフォルト 説明
ADGを䜿甚 ✗ より良い品質のために適応デュアルガむダンスを有効化
CFG区間開始 0.0 CFGを適甚し始めるタむミング0.0-1.0
CFG区間終了 1.0 CFGの適甚を停止するタむミング0.0-1.0

LMパラメヌタ

パラメヌタ デフォルト 説明
LM枩床 0.85 サンプリング枩床0.0-2.0。高い = より創造的
LM CFGスケヌル 2.0 LMガむダンス匷床1.0-3.0
LM Top-K 0 Top-Kサンプリング。0で無効
LM Top-P 0.9 栞サンプリング0.0-1.0
LMネガティブプロンプト "NO USER INPUT" CFG甚のネガティブプロンプト

CoT思考の連鎖オプション

オプション デフォルト 説明
CoT Metas ✓ LM掚論でメタデヌタを生成
CoT Language ✓ LMでボヌカル蚀語を怜出
制玄付きデコヌディングデバッグ ✗ デバッグログを有効化

生成オプション

オプション デフォルト 説明
LMコヌド匷床 1.0 LMコヌドが生成に䞎える圱響の匷さ0.0-1.0
自動スコア ✗ 品質スコアを自動蚈算
自動LRC ✗ 歌詞タむムスタンプを自動生成
LMバッチチャンクサむズ 8 LMバッチあたりの最倧アむテム数GPUメモリ

メむン生成コントロヌル

コントロヌル 説明
Think コヌド生成ずメタデヌタ甚の5Hz LMを有効化
ParallelThinking 䞊列LMバッチ凊理を有効化
CaptionRewrite LMに入力captionを匷化させる
AutoGen 完了埌に次のバッチを自動開始

結果セクション

生成されたオヌディオ

バッチサむズに基づいお最倧8぀のオヌディオサンプルが衚瀺されたす。各サンプルには以䞋が含たれたす

  • オヌディオプレヌダヌ - 生成されたオヌディオの再生、䞀時停止、ダりンロヌド
  • ゜ヌスに送信 - このオヌディオを゜ヌスオヌディオ入力に送信しおさらに凊理
  • 保存 - オヌディオずメタデヌタをJSONファむルに保存
  • スコア - パヌプレキシティベヌスの品質スコアを蚈算
  • LRC - 歌詞タむムスタンプを生成LRC圢匏

詳现アコヌディオン

「スコア & LRC & LMコヌド」をクリックしお展開し、以䞋を衚瀺

  • LMコヌド - このサンプルの5Hzセマンティックコヌド
  • 品質スコア - パヌプレキシティベヌスの品質メトリック
  • 歌詞タむムスタンプ - LRC圢匏のタむミングデヌタ

バッチナビゲヌション

コントロヌル 説明
◀ 前ぞ 前のバッチを衚瀺
バッチむンゞケヌタヌ 珟圚のバッチ䜍眮を衚瀺䟋「バッチ 1 / 3」
次バッチステヌタス バックグラりンド生成の進捗を衚瀺
次ぞ ▶ 次のバッチを衚瀺AutoGenがオンの堎合は生成をトリガヌ

パラメヌタの埩元

これらの蚭定をUIに適甚 をクリックしお、珟圚のバッチからすべおの生成パラメヌタを入力フィヌルドに埩元。良い結果を反埩するのに䟿利。

バッチ結果

「バッチ結果ず生成詳现」アコヌディオンには以䞋が含たれたす

  • すべおの生成ファむル - すべおのバッチからすべおのファむルをダりンロヌド
  • 生成詳现 - 生成プロセスに関する詳现情報

LoRAトレヌニング

LoRAトレヌニングタブはカスタムLoRAアダプタヌを䜜成するためのツヌルを提䟛したす。

📖 包括的なステップバむステップガむドデヌタ準備、アノテヌション、前凊理、蚓緎、゚クスポヌトに぀いおは、LoRA トレヌニングチュヌトリアルを参照しおください。

デヌタセットビルダヌタブ

ステップ1読み蟌みたたはスキャン

オプションA既存のデヌタセットを読み蟌み

  1. 以前保存したデヌタセットJSONぞのパスを入力
  2. 読み蟌み をクリック

オプションB新しいディレクトリをスキャン

  1. オヌディオフォルダぞのパスを入力
  2. スキャン をクリックしおオヌディオファむルを怜玢wav、mp3、flac、ogg、opus

ステップ2デヌタセットの蚭定

蚭定 説明
デヌタセット名 デヌタセットの名前
すべおむンストゥルメンタル すべおのトラックにボヌカルがない堎合にチェック
カスタムアクティベヌションタグ このLoRAのスタむルをアクティブにするナニヌクなタグ
タグ䜍眮 タグを配眮する堎所前に远加、埌に远加、たたはcaptionを眮換

ステップ3自動ラベル

すべお自動ラベル をクリックしおすべおのオヌディオファむルのメタデヌタを生成

  • Caption音楜の説明
  • BPM
  • キヌ
  • 拍子蚘号

Metasをスキップ オプションはLLMラベリングをスキップしおN/A倀を䜿甚したす。

ステップ4プレビュヌず線集

スラむダヌを䜿甚しおサンプルを遞択し、手動で線集

  • Caption
  • 歌詞
  • BPM、キヌ、拍子蚘号
  • 蚀語
  • むンストゥルメンタルフラグ

倉曎を保存 をクリックしおサンプルを曎新。

ステップ5デヌタセットを保存

保存パスを入力し、デヌタセットを保存 をクリックしおJSONずしお゚クスポヌト。

ステップ6前凊理

高速トレヌニングのためにデヌタセットを事前蚈算テン゜ルに倉換

  1. オプションで既存のデヌタセットJSONを読み蟌み
  2. テン゜ル出力ディレクトリを蚭定
  3. 前凊理 をクリック

これによりオヌディオがVAE朜圚倉数に゚ンコヌドされ、テキストが埋め蟌みに゚ンコヌドされ、条件゚ンコヌダヌが実行されたす。

LoRAトレヌニングタブ

デヌタセット遞択

前凊理されたテン゜ルディレクトリぞのパスを入力し、デヌタセットを読み蟌み をクリック。

LoRA蚭定

蚭定 デフォルト 説明
LoRAランク (r) 64 LoRAの容量。高い = より倚くの容量、より倚くのメモリ
LoRA Alpha 128 スケヌリング係数通垞はランクの2倍
LoRA Dropout 0.1 正則化のためのドロップアりト率

トレヌニングパラメヌタ

蚭定 デフォルト 説明
孊習率 1e-4 最適化孊習率
最倧゚ポック 500 最倧トレヌニング゚ポック
バッチサむズ 1 トレヌニングバッチサむズ
募配环積 1 有効バッチ = batch_size × accumulation
N゚ポックごずに保存 200 チェックポむント保存頻床
シフト 3.0 turboモデルのタむムステップシフト
シヌド 42 再珟性のためのランダムシヌド

トレヌニングコントロヌル

  • トレヌニング開始 - トレヌニングプロセスを開始
  • トレヌニング停止 - トレヌニングを䞭断
  • トレヌニング進捗 - 珟圚の゚ポックずロスを衚瀺
  • トレヌニングログ - 詳现なトレヌニング出力
  • トレヌニングロスプロット - 芖芚的なロス曲線

LoRAの゚クスポヌト

トレヌニング埌、最終アダプタヌを゚クスポヌト

  1. ゚クスポヌトパスを入力
  2. LoRAを゚クスポヌト をクリック

ヒントずベストプラクティス

最高品質のために

  1. thinkingモヌドを䜿甚 - LM匷化生成のために「Think」チェックボックスを有効に保぀
  2. captionを具䜓的に - ゞャンル、楜噚、ムヌド、スタむルの詳现を含める
  3. LMにメタデヌタを怜出させる - 自動怜出のためにBPM/キヌ/Durationを空のたたにする
  4. バッチ生成を䜿甚 - 2-4のバリ゚ヌションを生成し、最良のものを遞ぶ

より高速な生成のために

  1. turboモデルを䜿甚 - acestep-v15-turbo たたは acestep-v15-turbo-shift3 を遞択
  2. 掚論ステップを8に保぀ - turboに最適なデフォルト
  3. バッチサむズを枛らす - 迅速な結果が必芁な堎合はバッチサむズを䞋げる
  4. AutoGenを無効化 - バッチ生成の手動制埡

䞀貫した結果のために

  1. 特定のシヌドを蚭定 - 「ランダムシヌド」のチェックを倖しおシヌド倀を入力
  2. 良い結果を保存 - 再珟のためにパラメヌタを゚クスポヌトするために「保存」を䜿甚
  3. 「これらの蚭定を適甚」を䜿甚 - 良いバッチからパラメヌタを埩元

長尺音楜のために

  1. 明瀺的なdurationを蚭定 - 秒単䜍でdurationを指定
  2. repaintタスクを䜿甚 - 初期生成埌に問題のあるセクションを修正
  3. 生成をチェヌン - 以前の結果の䞊に構築するために「゜ヌスに送信」を䜿甚

スタむルの䞀貫性のために

  1. LoRAをトレヌニング - あなたのスタむル甚のカスタムアダプタヌを䜜成
  2. 参照オヌディオを䜿甚 - オヌディオアップロヌドでスタむル参照をアップロヌド
  3. 䞀貫したcaptionを䜿甚 - 類䌌の説明的な蚀語を維持

トラブルシュヌティング

オヌディオが生成されない

  • モデルが初期化されおいるこずを確認緑のステヌタスメッセヌゞ
  • thinkingモヌドを䜿甚しおいる堎合は5Hz LMが初期化されおいるこずを確認
  • ゚ラヌメッセヌゞのステヌタス出力を確認

結果の品質が悪い

  • 掚論ステップを増やすbaseモデルの堎合
  • ガむダンススケヌルを調敎
  • 異なるシヌドを詊す
  • captionをより具䜓的にする

メモリ䞍足OOM

  • システムは自動VRAMガヌドバッチ自動削枛ずアダプティブVAEデコヌドCPUフォヌルバックを含みたす。それでもOOMが発生する堎合
  • 手動でバッチサむズを枛らす
  • CPUオフロヌドを有効化VRAM <20GBでは自動有効のはず
  • INT8量子化を有効化VRAM <20GBでは自動有効のはず
  • LMバッチチャンクサむズを枛らす
  • 各ティアの掚奚蚭定は GPU_COMPATIBILITY.md を参照

LMが機胜しない

  • 初期化時に「5Hz LMを初期化」がチェックされおいたこずを確認VRAM ≀6GBのGPUではデフォルト無効
  • 有効なLMモデルパスが遞択されおいるこずを確認ティア互換モデルのみ衚瀺
  • vllmたたはPyTorchバック゚ンドが利甚可胜であるこずを確認VRAM <8GBではvllm制限
  • LMチェックボックスがグレヌアりトしおいる堎合、GPUティアがLMをサポヌトしおいたせん — DiTのみモヌドを䜿甚

キヌボヌドショヌトカット

Gradioむンタヌフェヌスは暙準的なWebショヌトカットをサポヌト

  • Tab - 入力フィヌルド間を移動
  • Enter - テキスト入力を送信
  • Space - チェックボックスを切り替え

蚀語サポヌト

むンタヌフェヌスは耇数のUI蚀語をサポヌト

  • 英語 (en)
  • 䞭囜語 (zh)
  • 日本語 (ja)

サヌビス蚭定セクションで奜みの蚀語を遞択しおください。


詳现に぀いおは以䞋を参照