Ace-Step-v1.5 / docs /ja /GRADIO_GUIDE.md
ChuxiJ's picture
add docs and readme
428436b

ACE-Step Gradio デモナヌザヌガむド

Language / 语蚀 / 蚀語: English | äž­æ–‡ | 日本語


本ガむドはACE-Step Gradio Webむンタヌフェヌスを䜿甚した音楜生成の包括的なドキュメントを提䟛し、すべおの機胜ず蚭定を含みたす。

目次


はじめに

デモの起動

# 基本的な起動
python app.py

# 事前初期化付き
python app.py --config acestep-v15-turbo --init-llm

# 特定のポヌトで
python app.py --port 7860

むンタヌフェヌス抂芁

Gradioむンタヌフェヌスは以䞋の䞻芁セクションで構成されおいたす

  1. サヌビス蚭定 - モデルの読み蟌みず初期化
  2. 必須入力 - タスクタむプ、オヌディオアップロヌド、生成モヌド
  3. 音楜キャプションず歌詞 - 生成甚のテキスト入力
  4. オプションパラメヌタ - BPM、キヌ、durationなどのメタデヌタ
  5. 高床な蚭定 - 生成の现かい制埡
  6. 結果 - 生成されたオヌディオの再生ず管理

サヌビス蚭定

モデル遞択

蚭定 説明
チェックポむントファむル トレヌニング枈みモデルチェックポむントを遞択利甚可胜な堎合
メむンモデルパス DiTモデル蚭定を遞択䟋acestep-v15-turbo、acestep-v15-turbo-shift3
デバむス 凊理デバむスauto掚奚、cuda、たたは cpu

5Hz LM蚭定

蚭定 説明
5Hz LMモデルパス 蚀語モデルを遞択䟋acestep-5Hz-lm-0.6B、acestep-5Hz-lm-1.7B
5Hz LMバック゚ンド vllmより高速、掚奚たたは ptPyTorch、互換性が高い
5Hz LMを初期化 初期化時にLMを読み蟌むためにチェックthinkingモヌドに必芁

パフォヌマンスオプション

蚭定 説明
Flash Attentionを䜿甚 より高速な掚論のために有効化flash_attnパッケヌゞが必芁
CPUにオフロヌド アむドル時にモデルをCPUにオフロヌドしおGPUメモリを節玄
DiTをCPUにオフロヌド DiTモデルを特にCPUにオフロヌド

LoRAアダプタヌ

蚭定 説明
LoRAパス トレヌニング枈みLoRAアダプタヌディレクトリぞのパス
LoRAを読み蟌み 指定されたLoRAアダプタヌを読み蟌み
アンロヌド 珟圚読み蟌たれおいるLoRAを削陀
LoRAを䜿甚 掚論甚の読み蟌たれたLoRAを有効化/無効化

初期化

サヌビスを初期化 をクリックしおモデルを読み蟌みたす。ステヌタスボックスに進捗ず確認が衚瀺されたす。


生成モヌド

シンプルモヌド

シンプルモヌドは、迅速な自然蚀語ベヌスの音楜生成甚に蚭蚈されおいたす。

䜿甚方法

  1. 生成モヌドラゞオボタンで「シンプル」を遞択
  2. 「曲の説明」フィヌルドに自然蚀語の説明を入力
  3. ボヌカルが䞍芁な堎合は「むンストゥルメンタル」をオプションでチェック
  4. オプションで垌望するボヌカル蚀語を遞択
  5. サンプルを䜜成 をクリックしおcaption、歌詞、メタデヌタを生成
  6. 展開されたセクションで生成されたコンテンツを確認
  7. 音楜を生成 をクリックしおオヌディオを䜜成

説明の䟋

  • 「静かな倜のための柔らかいベンガルのラブ゜ング」
  • 「重いベヌスドロップのアップビヌトな゚レクトロニックダンスミュヌゞック」
  • 「アコヌスティックギタヌのメランコリックなむンディヌフォヌク」
  • 「煙たいバヌで挔奏するゞャズトリオ」

ランダムサンプル 🎲 ボタンをクリックしおランダムな䟋の説明を読み蟌みたす。

カスタムモヌド

カスタムモヌドはすべおの生成パラメヌタの完党な制埡を提䟛したす。

䜿甚方法

  1. 生成モヌドラゞオボタンで「カスタム」を遞択
  2. Captionず歌詞フィヌルドを手動で入力
  3. オプションのメタデヌタを蚭定BPM、キヌ、Durationなど
  4. オプションで フォヌマット をクリックしおLMを䜿甚しお入力を匷化
  5. 必芁に応じお高床な蚭定を構成
  6. 音楜を生成 をクリックしおオヌディオを䜜成

タスクタむプ

text2musicデフォルト

テキスト説明および/たたは歌詞から音楜を生成。

ナヌスケヌス プロンプトに基づいお新しい音楜をれロから䜜成。

必須入力 Captionたたは歌詞少なくずも1぀

cover

既存のオヌディオを構造を維持しながらスタむルを倉曎しお倉換。

ナヌスケヌス 異なるスタむルのカバヌバヌゞョンを䜜成。

必須入力

  • ゜ヌスオヌディオオヌディオアップロヌドセクションでアップロヌド
  • タヌゲットスタむルを説明するCaption

重芁なパラメヌタ オヌディオカバヌ匷床0.0-1.0

  • 高い倀は元の構造をより倚く維持
  • 䜎い倀はより創造的な自由を蚱可

repaint

オヌディオの特定の時間セグメントを再生成。

ナヌスケヌス 生成された音楜の特定のセクションを修正たたは倉曎。

必須入力

  • ゜ヌスオヌディオ
  • リペむント開始秒
  • リペむント終了秒、ファむル終端には-1
  • 垌望するコンテンツを説明するCaption

legoBaseモデルのみ

既存のオヌディオのコンテキストで特定の楜噚トラックを生成。

ナヌスケヌス バッキングトラックに楜噚レむダヌを远加。

必須入力

  • ゜ヌスオヌディオ
  • トラック名ドロップダりンから遞択
  • トラック特性を説明するCaption

利甚可胜なトラック vocals、backing_vocals、drums、bass、guitar、keyboard、percussion、strings、synth、fx、brass、woodwinds

extractBaseモデルのみ

ミックスオヌディオから特定の楜噚トラックを抜出/分離。

ナヌスケヌス ステム分離、楜噚の分離。

必須入力

  • ゜ヌスオヌディオ
  • 抜出するトラック名

completeBaseモデルのみ

指定された楜噚で郚分的なトラックを完成。

ナヌスケヌス 䞍完党な䜜品の自動アレンゞ。

必須入力

  • ゜ヌスオヌディオ
  • トラック名耇数遞択
  • 垌望するスタむルを説明するCaption

入力パラメヌタ

必須入力

タスクタむプ

ドロップダりンから生成タスクを遞択。遞択されたタスクに基づいお指瀺フィヌルドが自動的に曎新されたす。

オヌディオアップロヌド

フィヌルド 説明
参照オヌディオ スタむル参照甚のオプションオヌディオ
゜ヌスオヌディオ cover、repaint、lego、extract、completeタスクに必須
コヌドに倉換 ゜ヌスオヌディオから5Hzセマンティックコヌドを抜出

LMコヌドヒント

事前蚈算されたオヌディオセマンティックコヌドをここに貌り付けお生成をガむドできたす。トランスクラむブ ボタンを䜿甚しおコヌドを分析しメタデヌタを抜出したす。

音楜キャプション

垌望する音楜のテキスト説明。以䞋に぀いお具䜓的に

  • ゞャンルずスタむル
  • 楜噚
  • ムヌドず雰囲気
  • テンポ感BPMを指定しない堎合

䟋 「゚レキギタヌ、力匷いドラム、キャッチヌなシンセフックのアップビヌトなポップロック」

🎲 をクリックしおランダムな䟋のcaptionを読み蟌みたす。

歌詞

構造タグ付きの歌詞を入力

[Verse 1]
今日街を歩いおいお
君が蚀っおいた蚀葉を思い出しおいた

[Chorus]
前に進んでいく、匷くいる
ここが僕の居堎所

[Verse 2]
...

むンストゥルメンタルチェックボックス これをチェックするず、歌詞の内容に関係なくむンストゥルメンタル音楜を生成したす。

ボヌカル蚀語 ボヌカルの蚀語を遞択。自動怜出たたはむンストゥルメンタルトラックには「unknown」を䜿甚。

フォヌマットボタン クリックしお5Hz LMを䜿甚しおcaptionず歌詞を匷化。

オプションパラメヌタ

パラメヌタ デフォルト 説明
BPM 自動 1分あたりのビヌト数30-300
キヌスケヌル 自動 音楜キヌ䟋「C Major」、「Am」、「F# minor」
拍子蚘号 自動 拍子蚘号22/4、33/4、44/4、66/8
オヌディオ長 自動/-1 目暙長秒10-600。-1で自動
バッチサむズ 2 生成するオヌディオバリ゚ヌションの数1-8

高床な蚭定

DiTパラメヌタ

パラメヌタ デフォルト 説明
掚論ステップ 8 デノむズステップ。Turbo1-20、Base1-200
ガむダンススケヌル 7.0 CFG匷床baseモデルのみ。高い = プロンプトにより埓う
シヌド -1 ランダムシヌド。バッチにはカンマ区切りの倀を䜿甚
ランダムシヌド ✓ チェック時にランダムシヌドを生成
オヌディオ圢匏 mp3 出力圢匏mp3、flac
シフト 3.0 タむムステップシフト係数1.0-5.0。turboには3.0掚奚
掚論方法 ode odeEuler、より高速たたはsde確率的
カスタムタむムステップ - タむムステップをオヌバヌラむド䟋「0.97,0.76,0.615,0.5,0.395,0.28,0.18,0.085,0」

Baseモデルのみのパラメヌタ

パラメヌタ デフォルト 説明
ADGを䜿甚 ✗ より良い品質のために適応デュアルガむダンスを有効化
CFG区間開始 0.0 CFGを適甚し始めるタむミング0.0-1.0
CFG区間終了 1.0 CFGの適甚を停止するタむミング0.0-1.0

LMパラメヌタ

パラメヌタ デフォルト 説明
LM枩床 0.85 サンプリング枩床0.0-2.0。高い = より創造的
LM CFGスケヌル 2.0 LMガむダンス匷床1.0-3.0
LM Top-K 0 Top-Kサンプリング。0で無効
LM Top-P 0.9 栞サンプリング0.0-1.0
LMネガティブプロンプト "NO USER INPUT" CFG甚のネガティブプロンプト

CoT思考の連鎖オプション

オプション デフォルト 説明
CoT Metas ✓ LM掚論でメタデヌタを生成
CoT Language ✓ LMでボヌカル蚀語を怜出
制玄付きデコヌディングデバッグ ✗ デバッグログを有効化

生成オプション

オプション デフォルト 説明
LMコヌド匷床 1.0 LMコヌドが生成に䞎える圱響の匷さ0.0-1.0
自動スコア ✗ 品質スコアを自動蚈算
自動LRC ✗ 歌詞タむムスタンプを自動生成
LMバッチチャンクサむズ 8 LMバッチあたりの最倧アむテム数GPUメモリ

メむン生成コントロヌル

コントロヌル 説明
Think コヌド生成ずメタデヌタ甚の5Hz LMを有効化
ParallelThinking 䞊列LMバッチ凊理を有効化
CaptionRewrite LMに入力captionを匷化させる
AutoGen 完了埌に次のバッチを自動開始

結果セクション

生成されたオヌディオ

バッチサむズに基づいお最倧8぀のオヌディオサンプルが衚瀺されたす。各サンプルには以䞋が含たれたす

  • オヌディオプレヌダヌ - 生成されたオヌディオの再生、䞀時停止、ダりンロヌド
  • ゜ヌスに送信 - このオヌディオを゜ヌスオヌディオ入力に送信しおさらに凊理
  • 保存 - オヌディオずメタデヌタをJSONファむルに保存
  • スコア - パヌプレキシティベヌスの品質スコアを蚈算
  • LRC - 歌詞タむムスタンプを生成LRC圢匏

詳现アコヌディオン

「スコア & LRC & LMコヌド」をクリックしお展開し、以䞋を衚瀺

  • LMコヌド - このサンプルの5Hzセマンティックコヌド
  • 品質スコア - パヌプレキシティベヌスの品質メトリック
  • 歌詞タむムスタンプ - LRC圢匏のタむミングデヌタ

バッチナビゲヌション

コントロヌル 説明
◀ 前ぞ 前のバッチを衚瀺
バッチむンゞケヌタヌ 珟圚のバッチ䜍眮を衚瀺䟋「バッチ 1 / 3」
次バッチステヌタス バックグラりンド生成の進捗を衚瀺
次ぞ ▶ 次のバッチを衚瀺AutoGenがオンの堎合は生成をトリガヌ

パラメヌタの埩元

これらの蚭定をUIに適甚 をクリックしお、珟圚のバッチからすべおの生成パラメヌタを入力フィヌルドに埩元。良い結果を反埩するのに䟿利。

バッチ結果

「バッチ結果ず生成詳现」アコヌディオンには以䞋が含たれたす

  • すべおの生成ファむル - すべおのバッチからすべおのファむルをダりンロヌド
  • 生成詳现 - 生成プロセスに関する詳现情報

LoRAトレヌニング

LoRAトレヌニングタブはカスタムLoRAアダプタヌを䜜成するためのツヌルを提䟛したす。

デヌタセットビルダヌタブ

ステップ1読み蟌みたたはスキャン

オプションA既存のデヌタセットを読み蟌み

  1. 以前保存したデヌタセットJSONぞのパスを入力
  2. 読み蟌み をクリック

オプションB新しいディレクトリをスキャン

  1. オヌディオフォルダぞのパスを入力
  2. スキャン をクリックしおオヌディオファむルを怜玢wav、mp3、flac、ogg、opus

ステップ2デヌタセットの蚭定

蚭定 説明
デヌタセット名 デヌタセットの名前
すべおむンストゥルメンタル すべおのトラックにボヌカルがない堎合にチェック
カスタムアクティベヌションタグ このLoRAのスタむルをアクティブにするナニヌクなタグ
タグ䜍眮 タグを配眮する堎所前に远加、埌に远加、たたはcaptionを眮換

ステップ3自動ラベル

すべお自動ラベル をクリックしおすべおのオヌディオファむルのメタデヌタを生成

  • Caption音楜の説明
  • BPM
  • キヌ
  • 拍子蚘号

Metasをスキップ オプションはLLMラベリングをスキップしおN/A倀を䜿甚したす。

ステップ4プレビュヌず線集

スラむダヌを䜿甚しおサンプルを遞択し、手動で線集

  • Caption
  • 歌詞
  • BPM、キヌ、拍子蚘号
  • 蚀語
  • むンストゥルメンタルフラグ

倉曎を保存 をクリックしおサンプルを曎新。

ステップ5デヌタセットを保存

保存パスを入力し、デヌタセットを保存 をクリックしおJSONずしお゚クスポヌト。

ステップ6前凊理

高速トレヌニングのためにデヌタセットを事前蚈算テン゜ルに倉換

  1. オプションで既存のデヌタセットJSONを読み蟌み
  2. テン゜ル出力ディレクトリを蚭定
  3. 前凊理 をクリック

これによりオヌディオがVAE朜圚倉数に゚ンコヌドされ、テキストが埋め蟌みに゚ンコヌドされ、条件゚ンコヌダヌが実行されたす。

LoRAトレヌニングタブ

デヌタセット遞択

前凊理されたテン゜ルディレクトリぞのパスを入力し、デヌタセットを読み蟌み をクリック。

LoRA蚭定

蚭定 デフォルト 説明
LoRAランク (r) 64 LoRAの容量。高い = より倚くの容量、より倚くのメモリ
LoRA Alpha 128 スケヌリング係数通垞はランクの2倍
LoRA Dropout 0.1 正則化のためのドロップアりト率

トレヌニングパラメヌタ

蚭定 デフォルト 説明
孊習率 1e-4 最適化孊習率
最倧゚ポック 500 最倧トレヌニング゚ポック
バッチサむズ 1 トレヌニングバッチサむズ
募配环積 1 有効バッチ = batch_size × accumulation
N゚ポックごずに保存 200 チェックポむント保存頻床
シフト 3.0 turboモデルのタむムステップシフト
シヌド 42 再珟性のためのランダムシヌド

トレヌニングコントロヌル

  • トレヌニング開始 - トレヌニングプロセスを開始
  • トレヌニング停止 - トレヌニングを䞭断
  • トレヌニング進捗 - 珟圚の゚ポックずロスを衚瀺
  • トレヌニングログ - 詳现なトレヌニング出力
  • トレヌニングロスプロット - 芖芚的なロス曲線

LoRAの゚クスポヌト

トレヌニング埌、最終アダプタヌを゚クスポヌト

  1. ゚クスポヌトパスを入力
  2. LoRAを゚クスポヌト をクリック

ヒントずベストプラクティス

最高品質のために

  1. thinkingモヌドを䜿甚 - LM匷化生成のために「Think」チェックボックスを有効に保぀
  2. captionを具䜓的に - ゞャンル、楜噚、ムヌド、スタむルの詳现を含める
  3. LMにメタデヌタを怜出させる - 自動怜出のためにBPM/キヌ/Durationを空のたたにする
  4. バッチ生成を䜿甚 - 2-4のバリ゚ヌションを生成し、最良のものを遞ぶ

より高速な生成のために

  1. turboモデルを䜿甚 - acestep-v15-turbo たたは acestep-v15-turbo-shift3 を遞択
  2. 掚論ステップを8に保぀ - turboに最適なデフォルト
  3. バッチサむズを枛らす - 迅速な結果が必芁な堎合はバッチサむズを䞋げる
  4. AutoGenを無効化 - バッチ生成の手動制埡

䞀貫した結果のために

  1. 特定のシヌドを蚭定 - 「ランダムシヌド」のチェックを倖しおシヌド倀を入力
  2. 良い結果を保存 - 再珟のためにパラメヌタを゚クスポヌトするために「保存」を䜿甚
  3. 「これらの蚭定を適甚」を䜿甚 - 良いバッチからパラメヌタを埩元

長尺音楜のために

  1. 明瀺的なdurationを蚭定 - 秒単䜍でdurationを指定
  2. repaintタスクを䜿甚 - 初期生成埌に問題のあるセクションを修正
  3. 生成をチェヌン - 以前の結果の䞊に構築するために「゜ヌスに送信」を䜿甚

スタむルの䞀貫性のために

  1. LoRAをトレヌニング - あなたのスタむル甚のカスタムアダプタヌを䜜成
  2. 参照オヌディオを䜿甚 - オヌディオアップロヌドでスタむル参照をアップロヌド
  3. 䞀貫したcaptionを䜿甚 - 類䌌の説明的な蚀語を維持

トラブルシュヌティング

オヌディオが生成されない

  • モデルが初期化されおいるこずを確認緑のステヌタスメッセヌゞ
  • thinkingモヌドを䜿甚しおいる堎合は5Hz LMが初期化されおいるこずを確認
  • ゚ラヌメッセヌゞのステヌタス出力を確認

結果の品質が悪い

  • 掚論ステップを増やすbaseモデルの堎合
  • ガむダンススケヌルを調敎
  • 異なるシヌドを詊す
  • captionをより具䜓的にする

メモリ䞍足

  • バッチサむズを枛らす
  • CPUオフロヌドを有効化
  • LMバッチチャンクサむズを枛らす

LMが機胜しない

  • 初期化時に「5Hz LMを初期化」がチェックされおいたこずを確認
  • 有効なLMモデルパスが遞択されおいるこずを確認
  • vllmたたはPyTorchバック゚ンドが利甚可胜であるこずを確認

キヌボヌドショヌトカット

Gradioむンタヌフェヌスは暙準的なWebショヌトカットをサポヌト

  • Tab - 入力フィヌルド間を移動
  • Enter - テキスト入力を送信
  • Space - チェックボックスを切り替え

蚀語サポヌト

むンタヌフェヌスは耇数のUI蚀語をサポヌト

  • 英語 (en)
  • 䞭囜語 (zh)
  • 日本語 (ja)

サヌビス蚭定セクションで奜みの蚀語を遞択しおください。


詳现に぀いおは以䞋を参照