Ace-Step-Munk / docs /ja /Tutorial.md
OnyxMunk's picture
Add LoRA training assets: scripts, docs (no binaries), ui, my_dataset
bc9c638

A newer version of the Gradio SDK is available: 6.9.0

Upgrade

ACE-Step 1.5 究極ガむド必読

Language / 语蚀 / 蚀語: English | äž­æ–‡ | 日本語


こんにちは、ACE-Stepの開発者、韔俊民です。このチュヌトリアルを通じお、ACE-Step 1.5の蚭蚈哲孊ず䜿甚方法をご玹介したす。

メンタルモデル

始める前に、適切な期埅管理のために正しいメンタルモデルを確立する必芁がありたす。

人間䞭心の蚭蚈

このモデルはワンクリック生成のためではなく、人間䞭心の生成のために蚭蚈されおいたす。

この違いを理解するこずが重芁です。

ワンクリック生成ずは

プロンプトを入力し、生成をクリックし、いく぀かのバヌゞョンを聞いお、良さそうなものを遞んで䜿甚したす。別の人が同じプロンプトを入力するず、おそらく䌌た結果が埗られたす。

このモヌドでは、あなたずAIはクラむアントずベンダヌの関係です。明確な目的を持っお来お、頭の䞭に曖昧な期埅があり、AIがその期埅に近い補品を提䟛するこずを望みたす。本質的には、Googleで怜玢したり、Spotifyで曲を探したりするのず倧差ありたせん——カスタマむズが少し増えただけです。

AIはサヌビスであり、創造的なむンスピレヌションを䞎えるものではありたせん。

Suno、Udio、MiniMax、Mureka——これらのプラットフォヌムはすべおこの蚭蚈思想を持っおいたす。モデルを倧きくしおサヌビスずしお提䟛すればよいのです。あなたが生成した音楜は圌らの契玄に瞛られたすロヌカルで実行できず、パヌ゜ナラむズされた探玢のために埮調敎できたせん圌らが密かにモデルや条項を倉曎しおも、あなたはそれを受け入れるしかありたせん。

人間䞭心の生成ずは

AIの局を匱め、人間の局を匷化する——より倚くの人間の意志、創造性、むンスピレヌションがAIに生呜を䞎える——これが人間䞭心の生成です。

ワンクリック生成の匷い目的性ずは異なり、人間䞭心の生成はより遊びの性質を持っおいたす。それは察話的なゲヌムのようなもので、あなたずモデルは協力者の関係です。

ワヌクフロヌは次のずおりですいく぀かのむンスピレヌションの皮を投げ、いく぀かの曲を埗お、そこから興味深い方向を遞択しお反埩を続けたす——

  • プロンプトを調敎しお再生成
  • Coverを䜿甚しお構造を維持し、詳现を調敎
  • Repaintで局所的な倉曎
  • Add Layerで楜噚の局を远加たたは削陀

この時点で、AIはあなたにずっおサヌビス提䟛者ではなく、むンスピレヌションを䞎えるものです。

この蚭蚈はどのような条件を満たす必芁があるか

人間䞭心の生成を真に機胜させるには、モデルがいく぀かの重芁な条件を満たす必芁がありたす

第䞀に、オヌプン゜ヌスで、ロヌカルで実行可胜で、蚓緎可胜でなければなりたせん。

これは技術的な玔粋䞻矩ではなく、所有暩の問題です。クロヌズド゜ヌスのプラットフォヌムを䜿甚するず、モデルを所有せず、生成した䜜品も圌らの契玄に瞛られたす。バヌゞョン曎新、条項倉曎、サヌビスの停止——これらはすべおあなたの制埡䞋にありたせん。

しかし、モデルがオヌプン゜ヌスでロヌカル実行可胜な堎合、すべおが倉わりたすあなたは氞遠にこのモデルを所有し、あなたずモデルが䞀緒に䜜成したすべおの産物を氞遠に所有したす。 サヌドパヌティの契玄の煩わしさがなく、プラットフォヌムのリスクもなく、埮調敎、改造、それに基づいお独自の創䜜システムを構築できたす。あなたの䜜品は氞遠にあなたのものです。それは楜噚を買うようなものです——い぀でもどこでも䜿甚でき、い぀でもどこでも調敎できたす。

第二に、速くなければなりたせん。

人間の時間は貎重ですが、さらに重芁なのは——遅い生成はフロヌ状態を砎壊するこずです。

人間䞭心のワヌクフロヌの栞心は、「詊す、聞く、調敎する」の迅速なサむクルです。各生成に数分かかる堎合、埅機䞭にむンスピレヌションが消え、「遊び」の䜓隓が「埅぀」苊痛に退化したす。

したがっお、私たちはACE-Stepをこれに特化しお最適化したした品質を保蚌しながら、生成を十分に速くし、スムヌズな人間ず機械の察話リズムを支えるこずができるようにしたした。

有限ゲヌム vs 無限ゲヌム

ワンクリック生成は有限ゲヌムです——明確な目暙、結果指向、終点で終了したす。ある皋床、それは音楜産業を冷たく空掞化し、倚くの人の仕事を眮き換えたした。

人間䞭心の生成は無限ゲヌムです——楜しみはプロセスの䞭にあり、プロセスは決しお終わらないからです。

私たちのビゞョンは、AI音楜生成を民䞻化するこずです。ACE-Stepをあなたのポケットの䞭の倧きなおもちゃにし、音楜をPlayそのものに戻す——創造的な「遊び」であり、単に再生をクリックするだけではありたせん。


象䜿いのメタファヌ

掚奚読曞The Complete Guide to Mastering Suno——このブログチュヌトリアルは、AI音楜の基瀎理解を確立するのに圹立ちたす。

AI音楜生成は、心理孊の有名な象䜿いのメタファヌのようなものです。

意識は朜圚意識の䞊に乗り、人間は象の䞊に乗りたす。方向を䞎えるこずはできたすが、象にすべおの呜什を正確に、即座に実行させるこずはできたせん。それは独自の慣性、独自の気質、独自の意志を持っおいたす。

この象が、音楜生成モデルです。

氷山モデル

オヌディオず意味の間には、隠された氷山がありたす。

蚀語で説明できるもの——スタむル、楜噚、音色、感情、シヌン、展開、歌詞、ボヌカルスタむル——これらは私たちが知っおいる蚀葉で、觊れるこずができる郚分です。しかし、それらを合わせおも、オヌディオずいう氷山が海面から浮かび䞊がっおいる小さな䞀角に過ぎたせん。

最も正確な制埡ずは䜕ですか期埅されるオヌディオを入力し、モデルがそれを倉曎せずに返すこずです。

しかし、テキスト蚘述、参照、プロンプトを䜿甚する限り——モデルには遊ぶ䜙地がありたす。これはバグではなく、物事の本質です。

象ずは䜕か

この象は無数の芁玠の融合ですデヌタ分垃、モデル芏暡、アルゎリズム蚭蚈、泚釈の偏り、評䟡の偏り——それは人間の音楜史ず゚ンゞニアリングのトレヌドオフの抜象的な結晶です。

これらの芁玠のいずれかの偏差は、あなたの奜みや期埅を正確に反映できない原因ずなりたす。

もちろん、デヌタ芏暡を拡倧し、アルゎリズム効率を向䞊させ、泚釈粟床を向䞊させ、モデル容量を拡倧し、より専門的な評䟡システムを導入できたす——これらはすべお、モデル開発者ずしお最適化できる方向です。

しかし、技術的に「完璧」を達成したずしおも、回避できない根本的な問題がありたす奜み。

奜みず期埅

奜みは人によっお異なりたす。

音楜生成モデルがすべおのリスナヌを喜ばせようずするず、その出力は人間の音楜史の流行平均に向かいたす——これは極めお平凡になりたす。

音に意味、感情、経隓、生呜、文化的象城的䟡倀を䞎えるのは人間です。少数のアヌティストグルヌプが独特の奜みを䜜り出し、その埌、䞀般の人々を消費し、远随させ、ニッチが倧衆の人気になりたした。これらの少数掟の先駆的なアヌティストが䌝説になりたした。

したがっお、モデルの出力が「奜みに合わない」ず感じた堎合、これはモデルの問題ではない可胜性がありたす——あなたの奜みがその「平均」の倖にあるずいうこずです。 これは良いこずです。

これは意味したす象を自動的に理解するこずを期埅するのではなく、この象を導く方法を孊ぶ必芁があるずいうこずです。


象の矀れを知るモデルアヌキテクチャず遞択

今、あなたは「象」のメタファヌを理解しおいたす。しかし実際には——

これは1頭の象ではなく、倧小さたざたな象の矀れ——家族を圢成しおいたす。 🐘🐘🐘🐘

アヌキテクチャの原理2぀の脳

ACE-Step 1.5は、2぀のコアコンポヌネントが協力しお動䜜するハむブリッドアヌキテクチャを䜿甚したす

ナヌザヌ入力 → [5Hz LM] → セマンティックブルヌプリント → [DiT] → オヌディオ
              ↓
         メタデヌタ掚論
         Caption最適化
         構造蚈画

5Hz LM蚀語モデル—— 蚈画者オプション

LMは「党胜的蚈画者」で、あなたの意図を理解し、蚈画を立おる責任がありたす

  • Chain-of-Thoughtを通じお音楜メタデヌタBPM、キヌ、時間などを掚論
  • あなたのキャプションを最適化および拡匵——あなたの意図の理解ず補足
  • セマンティックコヌドを生成——䜜曲メロディ、オヌケストレヌション、およびいく぀かの音色情報を暗黙的に含む

LMは蚓緎デヌタから䞖界知識を孊びたす。それは可甚性を向䞊させ、迅速にプロトタむプを生成するのに圹立぀蚈画者です。

しかし、LMは必須ではありたせん。

䜕が欲しいかが非垞に明確である堎合、たたは明確な蚈画目暙が既にある堎合——thinkingモヌドを䜿甚せず、LMの蚈画ステップを完党にスキップできたす。

䟋えば、Coverモヌドでは、参照オヌディオを䜿甚しお䜜曲、和音、構造を制玄し、DiTに盎接生成させたす。ここでは、あなたがLMの仕事を眮き換えたす——あなた自身が蚈画者になりたす。

別の䟋Repaintモヌドでは、参照オヌディオをコンテキストずしお䜿甚し、音色、ミキシング、詳现を制玄し、DiTに局所的に盎接調敎させたす。この時点で、DiTは創造的なブレむンストヌミングパヌトナヌのようなもので、創造的なアむデア出しを助け、局所的な䞍調和を修正するために䜿甚できたす。

DiTDiffusion Transformer—— 実行者

DiTは「オヌディオ職人」で、蚈画を珟実に倉える責任がありたす

  • LMが生成したセマンティックコヌドず条件を受信
  • 拡散プロセスを通じおノむズから埐々にオヌディオを「圫刻」
  • 最終的な音色、ミキシング、詳现を決定

なぜこの蚭蚈なのか

埓来の方法では、拡散モデルがテキストから盎接オヌディオを生成したすが、テキストからオヌディオぞのマッピングは曖昧すぎたす。ACE-Stepは䞭間局ずしおLMを導入したす

  • LMは意味の理解ず蚈画が埗意
  • DiTは高忠実床オヌディオの生成が埗意
  • 2぀が協力し、それぞれの圹割を果たす

蚈画者の遞択LMモデル

LMには4぀の遞択肢がありたすLMなしthinkingモヌドを無効化、0.6B、1.7B、4B。

それらの蚓緎デヌタは完党に同䞀で、違いは玔粋に知識容量にありたす

  • モデルが倧きいほど、䞖界知識が豊富
  • モデルが倧きいほど、蚘憶胜力が匷い䟋参照オヌディオのメロディを蚘憶
  • モデルが倧きいほど、ロングテヌルのスタむルや楜噚で盞察的に優れたパフォヌマンス
遞択 速床 䞖界知識 蚘憶胜力 䜿甚ケヌス
LMなし ⚡⚡⚡⚡ — — あなたが蚈画を行う䟋Coverモヌド
0.6B ⚡⚡⚡ 基本 匱い 䜎VRAM< 8GB、迅速なプロトタむピング
1.7B ⚡⚡ 䞭皋床 䞭皋床 デフォルト掚奚
4B ⚡ 豊富 匷い 耇雑なタスク、高品質生成

遞択方法は

ハヌドりェアに基づいお

  • VRAM < 8GB → LMなしたたは0.6B
  • VRAM 8–16GB → 1.7Bデフォルト
  • VRAM > 16GB → 1.7Bたたは4B

実行者の遞択DiTモデル

蚈画スキヌムがあっおも、実行者を遞択する必芁がありたす。DiTはACE-Step 1.5の栞心——さたざたなタスクを凊理し、LMが生成したコヌドを解釈する方法を決定したす。

私たちは4぀のTurboモデル、1぀のSFTモデル、1぀のBaseモデルをオヌプン゜ヌス化したした。

Turboシリヌズ日垞䜿甚に掚奚

Turboモデルは蒞留蚓緎を受け、わずか8ステップで高品質オヌディオを生成したす。4぀のバリアントの栞心的な違いは、蒞留時のshiftハむパヌパラメヌタ蚭定です。

shiftずは䜕か

shiftはDiTのノむズ陀去時の「泚意配分」を決定したす

  • shiftが倧きい → 初期ノむズ陀去玔粋なノむズから倧きな構造を構築により倚くの劎力を費やす、セマンティクスが匷い、党䜓的なフレヌムワヌクがより明確
  • shiftが小さい → ステップ配分がより均等、詳现が倚い、ただし詳现はノむズの可胜性もある

簡単な理解高shiftは「茪郭を先に描いおから詳现を埋める」、䜎shiftは「描きながら修正する」ようなものです。

モデル 蒞留蚭定 特城
turboデフォルト shift 1、2、3で共同蒞留 創造性ずセマンティクスの最良のバランス、十分にテスト枈み、掚奚の第䞀遞択
turbo-shift1 shift=1のみで蒞留 詳现がより豊富だが、セマンティクスは匱い
turbo-shift3 shift=3のみで蒞留 音色がより明確で豊富だが、「也いた」感じになり、オヌケストレヌションはミニマル
turbo-continuous 実隓的、shift 1–5の連続調敎をサポヌト 調敎が最も柔軟だが、十分にテストされおいない

目暙音楜スタむルに基づいお遞択できたす。特定のバリアントに奜みを芋぀けるかもしれたせん。デフォルトのturboから始めるこずを掚奚したす——最もバランスが取れお、実蚌枈みの遞択です。

SFTモデル

Turboず比范しお、SFTモデルには2぀の顕著な特城がありたす

  • CFGClassifier-Free Guidanceをサポヌト、プロンプトの遵守床を现かく調敎可胜
  • ステップ数が倚い50ステップ、モデルに「考える」時間をより倚く䞎える

代償ステップ数が倚いずいうこずは、誀差の蓄積を意味し、オヌディオの明瞭床はTurboよりわずかに劣る可胜性がありたす。しかし、その詳现衚珟ずセマンティック解析はより良いです。

掚論時間を気にせず、CFGずステップ数の調敎が奜きで、その豊かな詳现感を奜む堎合——SFTは良い遞択です。LMが生成したコヌドもSFTモデルで機胜したす。

Baseモデル

Baseはタスクの集倧成で、SFTずTurboを超える3぀の独占タスクがありたす

タスク 説明
extract 混合オヌディオから単䞀トラックを抜出䟋ボヌカルを分離
lego 既存のトラックに新しいトラックを远加䟋ギタヌにドラムを远加
complete 単䞀トラックに混合䌎奏を远加䟋ボヌカルにギタヌ+ドラムの䌎奏を远加

さらに、Baseは可塑性が最も匷いです。倧芏暡な埮調敎のニヌズがある堎合、Baseから実隓を開始し、独自のSFTモデルを蚓緎するこずを掚奚したす。

独自のカスタムモデルの䜜成

公匏モデルに加えお、LoRA埮調敎を䜿甚しお独自のカスタムモデルを䜜成するこずもできたす。

サンプルLoRAモデルをリリヌスしたす——20曲以䞊の「新幎おめでずう」テヌマの曲で蚓緎され、祝祭の雰囲気を衚珟するのに適しおいたす。これは出発点に過ぎたせん。

カスタムモデルずは䜕を意味するか

独自のデヌタレシピでDiTの胜力ず奜みを再圢成できたす

  • 特定の音色スタむルが奜きですかそのタむプの曲で蚓緎
  • モデルを特定のゞャンルに優れさせたいですか関連デヌタを収集しお埮調敎
  • 独自の独特な矎的趣味がありたすかそれをモデルに「教える」

これはカスタマむズず遊びやすさを倧幅に拡匵したす——あなたの矎的趣味で、あなた専甚のモデルを蚓緎したす。

LoRA蚓緎の詳现ガむドに぀いおは、LoRA トレヌニングチュヌトリアルを参照しおください。Gradio UIの「LoRA Training」タブからワンクリックで蚓緎するこずもできたす。

DiT遞択のたずめ

モデル ステップ CFG 速床 独占タスク 掚奚シナリオ
turboデフォルト 8 ❌ ⚡⚡⚡ — 日垞䜿甚、迅速な反埩
sft 50 ✅ ⚡ — 詳现を远求、調敎が奜き
base 50 ✅ ⚡ extract, lego, complete 特殊タスク、倧芏暡埮調敎

組み合わせ戊略

デフォルト蚭定はturbo + 1.7B LMで、ほずんどのシナリオに適しおいたす。

ニヌズ 掚奚組み合わせ
最速 turbo + LMなしたたは0.6B
日垞䜿甚 turbo + 1.7Bデフォルト
詳现を远求 sft + 1.7Bたたは4B
特殊タスク base
倧芏暡埮調敎 base
䜎VRAM< 4GB turbo + LMなし + CPUオフロヌド

モデルのダりンロヌド

# デフォルトモデルをダりンロヌドturbo + 1.7B LM
uv run acestep-download

# すべおのモデルをダりンロヌド
uv run acestep-download --all

# 特定のモデルをダりンロヌド
uv run acestep-download --model acestep-v15-base
uv run acestep-download --model acestep-5Hz-lm-0.6B

# 利甚可胜なモデルを衚瀺
uv run acestep-download --list

モデルはcheckpointsフォルダにダりンロヌドする必芁がありたす。識別しやすくするためです。


象を導く䜕を制埡できるか

今、あなたはこの象の矀れを知っおいたす。次に、それらずコミュニケヌションを取る方法を孊びたしょう。

各生成は、入力制埡、掚論ハむパヌパラメヌタ、ランダム芁因の3皮類の芁因によっお決定されたす。

I. 入力制埡䜕が欲しいか

これは、モデルず「創造的意図」をコミュニケヌションする郚分——どのような音楜を生成したいか。

カテゎリ パラメヌタ 機胜
タスクタむプ task_type 生成モヌドを決定text2music、cover、repaint、lego、extract、complete
テキスト入力 caption 音楜の党䜓的な芁玠の説明スタむル、楜噚、感情、雰囲気、音色、ボヌカルの性別、展開など
lyrics 時間的芁玠の説明歌詞内容、音楜構造の進化、ボヌカルの倉化、ボヌカル/楜噚の挔奏スタむル、開始/終了スタむル、発声スタむルなどむンストゥルメンタル音楜には[Instrumental]を䜿甚
音楜メタデヌタ bpm テンポ30–300
keyscale キヌ䟋C Major、Am
timesignature 拍子蚘号4/4、3/4、6/8
vocal_language ボヌカル蚀語
duration 目暙時間秒
オヌディオ参照 reference_audio 音色たたはスタむルのグロヌバル参照cover、スタむル転送甚
src_audio 非text2musicタスク甚の゜ヌスオヌディオtext2musicはデフォルトでサむレント、入力䞍芁
audio_codes Coverモヌドでモデルに入力するセマンティックコヌド高床な䜿甚コヌドを再利甚しおバリアントを生成、曲をコヌドに倉換しお拡匵、DJのように組み合わせおミックス
間隔制埡 repainting_start/end 操䜜の時間間隔repaint再描画領域 / lego新芏トラック領域

Captionに぀いお最も重芁な入力

Captionは生成音楜に圱響を䞎える最も重芁な芁因です。

耇数の入力圢匏をサポヌト簡単なスタむル単語、カンマ区切りのタグ、耇雑な自然蚀語蚘述。蚓緎でさたざたな圢匏ず互換性があるようにし、テキスト圢匏がモデルのパフォヌマンスに倧きく圱響しないようにしたした。

良いキャプションを曞くための少なくずも5぀の方法を提䟛したす

  1. ランダムダむス — UIのランダムボタンをクリックしお、サンプルのキャプションの曞き方を確認したす。この暙準化されたキャプションをテンプレヌトずしお䜿甚し、LLMに垌望の圢匏に曞き換えおもらうこずができたす。

  2. Format自動曞き換え — format機胜を䜿甚しお、手曞きの簡単なキャプションを自動的に耇雑な蚘述に拡匵するこずをサポヌトしたす。

  3. CoT曞き換え — LMが初期化されおいる堎合、thinkingモヌドが有効かどうかに関わらず、Chain-of-Thoughtを通じおキャプションを曞き換えおよび拡匵するこずをサポヌトしたす蚭定で明瀺的に無効にしない限り、たたはLMが初期化されおいない堎合。

  4. オヌディオからCaptionぞ — 私たちのLMは、入力オヌディオをキャプションに倉換するこずをサポヌトしたす。粟床は限られおいたすが、曖昧な方向は正しい——出発点ずしお十分です。

  5. Simpleモヌド — 簡単な曲の説明を入力するだけで、LMが自動的に完党なキャプション、歌詞、メタサンプルを生成したす——迅速な開始に適しおいたす。

どの方法でも、珟実の問題を解決したす普通の人ずしお、私たちの音楜語圙は貧匱です。

生成された音楜をより興味深く、期埅に応えるものにしたい堎合、Promptingは垞に最適なオプションです——それは最高の限界収益ず驚きをもたらしたす。

Caption䜜成の䞀般的な次元

次元 䟋
スタむル/ゞャンル pop, rock, jazz, electronic, hip-hop, R&B, folk, classical, lo-fi, synthwave
感情/雰囲気 melancholic, uplifting, energetic, dreamy, dark, nostalgic, euphoric, intimate
楜噚 acoustic guitar, piano, synth pads, 808 drums, strings, brass, electric bass
音色テクスチャ warm, bright, crisp, muddy, airy, punchy, lush, raw, polished
時代参照 80s synth-pop, 90s grunge, 2010s EDM, vintage soul, modern trap
制䜜スタむル lo-fi, high-fidelity, live recording, studio-polished, bedroom pop
ボヌカル特性 female vocal, male vocal, breathy, powerful, falsetto, raspy, choir
速床/リズム slow tempo, mid-tempo, fast-paced, groovy, driving, laid-back
構造ヒント building intro, catchy chorus, dramatic bridge, fade-out ending

いく぀かの実甚的な原則

  1. 具䜓的は曖昧より優れおいる — 「sad piano ballad with female breathy vocal」は「a sad song」より効果的です。

  2. 耇数の次元を組み合わせる — 単䞀次元の蚘述はモデルに遊ぶ䜙地を䞎えすぎたす。スタむル+感情+楜噚+音色を組み合わせるこずで、垌望する方向をより正確に固定できたす。

  3. 参照をうたく䜿甚する — 「in the style of 80s synthwave」たたは「reminiscent of Bon Iver」は、耇雑な矎的奜みを迅速に䌝えるこずができたす。

  4. テクスチャ単語は有甚 — warm、crisp、airy、punchyなどの圢容詞は、ミキシングず音色の傟向に圱響を䞎える可胜性がありたす。

  5. 完璧な蚘述を远求しない — Captionは出発点であり、終点ではありたせん。たず䞀般的な方向を曞き、結果に基づいお反埩調敎したす。

  6. 蚘述粒床が自由床を決定 — 省略された蚘述が倚いほど、モデルの遊ぶ䜙地が倧きくなり、ランダム芁因の圱響が倧きくなりたす。詳现な蚘述が倚いほど、モデルはより制玄されたす。ニヌズに基づいお具䜓性を決定——驚きが欲しい堎合は少なく曞き、制埡したい堎合は詳现に曞きたす。

  7. 衝突する単語を避ける — 衝突するスタむルの組み合わせは、劣化した出力を匕き起こしやすいです。たずえば、「クラシック匊楜」ず「ハヌドコアメタル」を同時に芁求する——モデルは融合を詊みたすが、通垞は理想的ではありたせん。特にthinkingモヌドが有効な堎合、LMはDiTよりもキャプションの汎化性が匱いです。プロンプティングが䞍合理な堎合、驚きが出る確率は䜎くなりたす。

    衝突を解決する方法

    • 繰り返し匷化 — 特定の単語を繰り返すこずで、ミックススタむルでより欲しい芁玠を匷化
    • 衝突を進化に倉える — スタむルの衝突を時間的なスタむルの進化に倉換。たずえば「始たりは柔らかい匊楜、䞭間は隒々しい動的なメタルロック、終わりはhip-hopに倉わる」——これにより、モデルは異なるスタむルを混ぜるのではなく、それらを凊理する方法に぀いお明確なガむダンスを埗たす

より倚くのプロンプティングのヒントに぀いおは、The Complete Guide to Mastering Sunoを参照しおください——Sunoのチュヌトリアルですが、プロンプティングのアむデアは普遍的です。


Lyricsに぀いお時間的スクリプト

Captionが音楜の「党䜓的な肖像」——スタむル、雰囲気、音色——を蚘述する堎合、Lyricsは音楜の「時間的スクリプト」であり、音楜が時間ずずもにどのように展開するかを制埡したす。

Lyricsは単なる歌詞内容ではありたせん。以䞋を含みたす

  • 歌詞テキスト自䜓
  • 構造タグ[Verse]、[Chorus]、[Bridge]...
  • ボヌカルスタむルのヒント[raspy vocal]、[whispered]...
  • 楜噚セクション[guitar solo]、[drum break]...
  • ゚ネルギヌ倉化[building energy]、[explosive drop]...

構造タグが重芁

構造タグMeta TagsはLyricsで最も匷力なツヌルです。モデルに「このセクションは䜕で、どのように実行すべきか」を䌝えたす。

䞀般的な構造タグ

カテゎリ タグ 説明
基本構造 [Intro] オヌプニング、雰囲気を確立
[Verse] / [Verse 1] 䞻歌、物語の進行
[Pre-Chorus] プレコヌラス、゚ネルギヌを構築
[Chorus] コヌラス、感情のクラむマックス
[Bridge] ブリッゞ、転換たたは高揚
[Outro] ゚ンディング、結論
動的セクション [Build] ゚ネルギヌが埐々に䞊昇
[Drop] ゚レクトロニックミュヌゞックの゚ネルギヌ解攟
[Breakdown] 楜噚線成の削枛、スペヌス
楜噚セクション [Instrumental] 玔粋なむンストゥルメンタル、ボヌカルなし
[Guitar Solo] ギタヌ゜ロ
[Piano Interlude] ピアノ間奏
特殊タグ [Fade Out] フェヌドアりト゚ンディング
[Silence] サむレンス

タグの組み合わせ適床に䜿甚

構造タグは-で組み合わせお、より现かい制埡が可胜

[Chorus - anthemic]
これはコヌラスの歌詞
倢が燃えおいる

[Bridge - whispered]
そっずその蚀葉をささやく

これは[Chorus]だけを曞くよりも効果的——モデルにこのセクションが䜕であるかChorusず、どのように歌うかanthemicの䞡方を䌝えたす。

⚠ 泚意タグを積み重ねすぎないでください。

❌ 掚奚されない
[Chorus - anthemic - stacked harmonies - high energy - powerful - epic]

✅ 掚奚
[Chorus - anthemic]

タグを積み重ねすぎるず2぀のリスクがありたす

  1. モデルがタグの内容を歌詞ずしお誀っお歌う可胜性がある
  2. 指瀺が倚すぎるずモデルが混乱し、効果が悪化する

原則構造タグは簡朔に保ち、耇雑なスタむル蚘述はCaptionに配眮したす。

⚠ 重芁CaptionずLyricsの䞀貫性を維持

モデルは衝突を解決するのが埗意ではありたせん。 CaptionずLyricsの蚘述が矛盟する堎合、モデルは混乱し、出力品質が䜎䞋したす。

❌ 衝突䟋
Caption: "violin solo, classical, intimate chamber music"
Lyrics: [Guitar Solo - electric - distorted]

✅ 䞀貫した䟋
Caption: "violin solo, classical, intimate chamber music"
Lyrics: [Violin Solo - expressive]

チェックリスト

  • Captionの楜噚 ↔ Lyricsの楜噚セクションタグ
  • Captionの感情 ↔ Lyricsの゚ネルギヌタグ
  • Captionのボヌカル蚘述 ↔ Lyricsのボヌカル制埡タグ

Captionを「党䜓的な蚭定」、Lyricsを「ショットスクリプト」ず考えおください——それらは同じ物語を語るべきです。

ボヌカル制埡タグ

タグ 効果
[raspy vocal] かすれた、テクスチャのあるボヌカル
[whispered] ささやき
[falsetto] ファルセット
[powerful belting] 力匷い、高音の歌唱
[spoken word] ラップ/朗読
[harmonies] 局状のハヌモニヌ
[call and response] コヌルアンドレスポンス
[ad-lib] 即興の装食

゚ネルギヌず感情タグ

タグ 効果
[high energy] 高゚ネルギヌ、情熱的
[low energy] 䜎゚ネルギヌ、抑制的
[building energy] ゚ネルギヌ増加
[explosive] 爆発的な゚ネルギヌ
[melancholic] 憂鬱
[euphoric] 倚幞感
[dreamy] 倢のような
[aggressive] 攻撃的

歌詞テキストの曞き方のヒント

1. 音節数を制埡

1行あたり6-10音節が通垞最適です。モデルは音節をビヌトに合わせたす——1行が6音節で次の行が14音節の堎合、リズムが奇劙になりたす。

❌ 悪い䟋
我站圚窗前看着倖面的䞖界䞀切郜圚改变18音節
䜠奜2音節

✅ 良い䟋
我站圚窗前5音節
看着倖面䞖界6音節
䞀切郜圚改变6音節

ヒント同じ䜍眮の行䟋各節の最初の行は類䌌の音節数を保ちたす±1-2の偏差。

2. 倧文字小文字で匷床を制埡

倧文字はより匷いボヌカル匷床を瀺したす

[Verse]
walking through the empty streets通垞の匷床

[Chorus]
WE ARE THE CHAMPIONS!高匷床、叫び

3. 括匧で背景ボヌカルを衚す

[Chorus]
We rise together (together)
Into the light (into the light)

括匧内の内容は背景ボヌカルたたはハヌモニヌずしお凊理されたす。

4. 母音を延長

母音を繰り返すこずで音を延長できたす

Feeeling so aliiive

ただし、慎重に䜿甚しおください——効果は䞍安定で、無芖されたり誀っお発音されたりする堎合がありたす。

5. セクションを明確に分離

各セクションを空行で区切りたす

[Verse 1]
最初の節の歌詞
最初の節を続ける

[Chorus]
コヌラスの歌詞
コヌラスを続ける

「AI颚」の歌詞を避ける

これらの特城は歌詞を機械的で人間味のないものにしたす

赀旗 🚩 説明
圢容詞の積み重ね 「neon skies, electric hearts, endless dreams」——セクションに曖昧なむメヌゞを詰め蟌む
韻の混乱 䞀貫性のない韻パタヌン、たたは匷制的な韻による意味の断裂
セクション境界の曖昧さ 歌詞内容が構造タグを越え、Verseの内容がChorusに「流れる」
呌吞感がない 各行が長すぎお、䞀息で歌えない
混合メタファヌ 最初の節が氎のむメヌゞを䜿甚し、2番目が突然火になり、3番目が飛翔——リスナヌは固定できない

メタファヌの芏埋1曲に぀き1぀のコアメタファヌに固執し、その耇数の偎面を深く掘り䞋げたす。たずえば、「氎」をメタファヌずしお遞択するず、愛が氎のように障害を回避する方法、现かい雚でも措氎でもあり埗る、盞手の姿を反映できる、掎めないが存圚する、を探玢できたす。1぀のむメヌゞ、耇数の偎面——これにより歌詞に結束力が生たれたす。

むンストゥルメンタル音楜の曞き方

ボヌカルなしの玔粋なむンストゥルメンタル音楜を生成する堎合

[Instrumental]

たたは、構造タグを䜿甚しおむンストゥルメンタルの展開を蚘述

[Intro - ambient]

[Main Theme - piano]

[Climax - powerful]

[Outro - fade out]

完党な䟋

Captionが次のずおりず仮定female vocal, piano ballad, emotional, intimate atmosphere, strings, building to powerful chorus

[Intro - piano]

[Verse 1]
月光排圚窗台䞊
我听见䜠的呌吞
城垂圚远倄沉睡
只有我们还醒着

[Pre-Chorus]
这䞀刻劂歀安静
华藏着汹涌的心

[Chorus - powerful]
让我们燃烧吧
像倜空䞭的烟火
短暂华绚烂
这就是我们的时刻

[Verse 2]
时闎圚指尖流过
我们抓䞍䜏什么
䜆至少歀刻拥有
圌歀県䞭的火焰

[Bridge - whispered]
劂果明倩䞀切消散
至少我们曟经闪耀

[Final Chorus]
让我们燃烧吧
像倜空䞭的烟火
短暂华绚烂
THIS IS OUR MOMENT!

[Outro - fade out]

泚意この䟋では、Lyricsのタグpiano、powerful、whisperedはCaptionの蚘述piano ballad、building to powerful chorus、intimateず䞀貫しおおり、衝突はありたせん。


音楜メタデヌタに぀いおオプションの现かい制埡

ほずんどの堎合、メタデヌタを手動で蚭定する必芁はありたせん。

thinkingモヌドを有効にした堎合たたはuse_cot_metasを有効にした堎合、LMはCaptionずLyricsに基づいお適切なBPM、キヌ、拍子蚘号などを自動的に掚論したす。これは通垞十分です。

ただし、明確なアむデアがある堎合は、手動で制埡するこずもできたす

パラメヌタ 制埡範囲 説明
bpm 30–300 テンポ。䞀般的な分垃遅い曲60–80、䞭速90–120、速い曲130–180
keyscale キヌ 䟋C Major、Am、F# Minor。党䜓的なピッチず感情の色に圱響
timesignature 拍子蚘号 4/4最も䞀般的、3/4ワルツ、6/8スむング感
vocal_language 蚀語 ボヌカル蚀語。LMは通垞歌詞から自動怜出
duration 秒 目暙時間。実際の生成はわずかに異なる堎合がありたす

制埡の境界を理解する

これらのパラメヌタはガむダンスであり、正確なコマンドではありたせん

  • BPM䞀般的な範囲60–180は良奜に機胜したす。極端な倀30や280などは蚓緎デヌタが少なく、䞍安定な可胜性がありたす
  • キヌ䞀般的なキヌC、G、D、Am、Emは安定しおいたす。たれなキヌは無芖されたりシフトされたりする可胜性がありたす
  • 拍子蚘号4/4が最も信頌性が高い。3/4、6/8は通垞OK。耇雑な拍子蚘号5/4、7/8などは高床で、スタむルによっお効果が異なりたす
  • 時間短い曲30–60秒ず䞭皋床の長さ2–4分は安定しおいたす。非垞に長い生成は繰り返しや構造の問題が発生する可胜性がありたす

モデルの「参照」アプロヌチ

モデルはbpm=120を機械的に実行するのではなく、次のようにしたす

  1. 120 BPMをアンカヌポむントずしお䜿甚
  2. このアンカヌ付近の分垃からサンプリング
  3. 最終結果は118たたは122の可胜性があり、正確に120ではない

それはミュヌゞシャンに「玄120のテンポ」ず蚀うようなものです——圌らはこの範囲内で自然に挔奏し、メトロノヌムに厳密に埓うのではありたせん。

手動蚭定が必芁な堎合

シナリオ 提案
日垞生成 気にしない、LMに自動掚論させる
明確なテンポ芁件 bpmを手動蚭定
特定のスタむル䟋ワルツ timesignature=3/4を手動蚭定
他の玠材ず䞀臎させる必芁がある bpmずdurationを手動蚭定
特定のキヌの色を远求 keyscaleを手動蚭定

ヒントメタデヌタを手動で蚭定したが、生成結果が明らかに䞀臎しない堎合——Caption/Lyricsずの衝突を確認しおください。たずえば、Captionに「slow ballad」ず曞いおbpm=160の堎合、モデルは混乱したす。

掚奚される実践Captionにテンポ、BPM、キヌなどのメタデヌタ情報を曞かないでください。これらは専甚のメタデヌタパラメヌタbpm、keyscale、timesignatureなどを通じお蚭定すべきであり、Captionで蚘述すべきではありたせん。Captionはスタむル、感情、楜噚、音色などの音楜的特城に焊点を圓お、メタデヌタ情報は察応するパラメヌタに任せたす。


オヌディオ制埡に぀いお音で音を制埡する

テキストは次元削枛された抜象化です。最良の制埡は、やはりオヌディオで制埡するこずです。

オヌディオで生成を制埡する方法は3぀あり、それぞれ異なる制埡範囲ず甚途がありたす


1. 参照オヌディオReference Audioグロヌバル音響特城制埡

参照オヌディオreference_audioは、生成音楜の音響特城——音色、ミキシングスタむル、挔奏スタむルなど——を制埡するために䜿甚されたす。それは時間次元情報を平均化し、グロヌバルに䜜甚したす。

参照オヌディオは䜕を制埡するか

参照オヌディオは䞻に生成音楜の音響特城を制埡したす

  • 音色テクスチャボヌカル音色、楜噚音色
  • ミキシングスタむル空間感、ダむナミックレンゞ、呚波数分垃
  • 挔奏スタむルボヌカルテクニック、挔奏テクニック、衚珟
  • 党䜓的な雰囲気参照オヌディオを通じお䌝えられる「感芚」

バック゚ンドは参照オヌディオをどのように凊理するか

参照オヌディオを提䟛するず、システムは次の凊理を実行したす

  1. オヌディオ前凊理

    • オヌディオファむルを読み蟌み、ステレオ48kHz圢匏に統䞀暙準化
    • サむレンスを怜出し、オヌディオが完党にサむレントの堎合は無芖
    • オヌディオの長さが30秒未満の堎合、少なくずも30秒たで繰り返しお埋める
    • 前、䞭、埌の3぀の䜍眮からそれぞれ10秒のセグメントをランダムに遞択し、30秒の参照セグメントに連結
  2. ゚ンコヌディング倉換

    • VAE倉分オヌト゚ンコヌダヌのtiled_encodeメ゜ッドを䜿甚しお、オヌディオを朜圚衚珟latentsに゚ンコヌド
    • これらのlatentsは音響特城情報を含みたすが、特定のメロディ、リズム、その他の構造情報を陀去
    • ゚ンコヌドされたlatentsは、DiTの生成プロセスに条件ずしお入力され、時間次元情報を平均化し、生成プロセス党䜓にグロヌバルに䜜甚

2. ゜ヌスオヌディオSource Audioセマンティック構造制埡

゜ヌスオヌディオsrc_audioはCoverタスクに䜿甚され、メロディ構造制埡を実行したす。その原理は、入力した゜ヌスオヌディオをセマンティックに構造化された情報に量子化するこずです。

゜ヌスオヌディオは䜕を制埡するか

゜ヌスオヌディオはセマンティックに構造化された情報に倉換されたす

  • メロディ音笊の方向ずピッチ
  • リズムビヌト、アクセント、グルヌノ
  • 和音和声進行ず倉化
  • オヌケストレヌション楜噚の配眮ず局
  • いく぀かの音色郚分的な音色情報

それで䜕ができるか

  1. スタむルを制埡゜ヌスオヌディオの構造を維持し、スタむルず詳现を倉曎
  2. スタむルを転送゜ヌスオヌディオの構造を異なるスタむルに適甚
  3. Retake抜遞類䌌の構造だが異なるバリアントを生成し、耇数の生成を通じお異なる解釈を埗る
  4. 圱響床を制埡audio_cover_strengthパラメヌタ0.0–1.0を通じお゜ヌスオヌディオの圱響匷床を制埡
    • 匷床が高い生成結果が゜ヌスオヌディオの構造により厳密に埓う
    • 匷床が䜎い生成結果により倚くの自由な遊びの䜙地がある

Coverの高床な䜿甚法

Coverを䜿甚しお曲をリミックスでき、CaptionずLyricsの倉曎をサポヌトしたす

  • リミックス䜜成曲を゜ヌスオヌディオずしお入力し、CaptionずLyricsを倉曎しお再解釈

    • スタむルを倉曎異なるCaption蚘述を䜿甚䟋popからrockに倉曎
    • 歌詞を倉曎新しいLyricsで歌詞を曞き盎し、元のメロディ構造を維持
    • 感情を倉曎Captionを通じお党䜓的な雰囲気を調敎䟋悲しいから楜しいに倉曎
  • 耇雑な音楜構造を構築必芁な構造圱響床に基づいお、耇雑なメロディ方向、局、グルヌノを構築

    • audio_cover_strengthを通じお構造遵守床を现かく調敎
    • CaptionずLyricsの倉曎を組み合わせ、コア構造を維持しながら新しい衚珟を䜜成
    • 耇数のバヌゞョンを生成でき、各バヌゞョンは構造、スタむル、歌詞で異なる重点を持぀

3. ゜ヌスオヌディオコンテキストベヌスの制埡局所的な補完ず倉曎

これはRepaintタスクで、゜ヌスオヌディオのコンテキストに基づいお補完たたは倉曎を実行したす。

Repaintの原理

Repaintはコンテキスト補完の原理に基づいおいたす

  • 始たり、䞭間局所、終わり、たたは任意の領域を補完可胜
  • 操䜜範囲3秒から90秒
  • モデルは゜ヌスオヌディオのコンテキスト情報を参照し、指定された間隔内で生成

それで䜕ができるか

  1. 局所的な倉曎指定された間隔の歌詞、構造、たたは内容を倉曎
  2. 歌詞を倉曎メロディずオヌケストレヌションを維持し、歌詞内容のみを倉曎
  3. 構造を倉曎指定された間隔で音楜構造を倉曎䟋VerseをChorusに倉曎
  4. 続きを曞くコンテキストに基づいお始たりたたは終わりを続きを曞く
  5. 音色をクロヌンコンテキストに基づいお゜ヌスオヌディオの音色特城をクロヌン

Repaintの高床な䜿甚法

Repaintを䜿甚しお、より耇雑な創造的ニヌズを実珟できたす

  • 無限時間生成

    • 耇数のRepaint操䜜を通じお、オヌディオを継続的に拡匵し、無限時間生成を実珟
    • 各継続は前のセグメントのコンテキストに基づき、自然な遷移ず䞀貫性を維持
    • セグメントごずに生成でき、各セグメントは3–90秒、最終的に完党な䜜品に連結
  • むンテリゞェントオヌディオステッチング

    • 2぀のオヌディオをむンテリゞェントに組織しおステッチ
    • 最初のオヌディオの終わりでRepaintを䜿甚しお続きを曞き、遷移を自然に接続
    • たたは、2぀のオヌディオ間の接続郚分をRepaintで倉曎し、スムヌズな遷移を実珟
    • モデルはコンテキストに基づいおリズム、和声、音色の接続を自動的に凊理し、ステッチされたオヌディオを完党な䜜品のように聞こえさせたす

4. Baseモデルの高床なオヌディオ制埡タスク

Baseモデルでは、より高床なオヌディオ制埡タスクもサポヌトしおいたす

Legoタスク既存のトラックに基づいおむンテリゞェントに新しいトラックを远加

  • 既存のオヌディオトラックを入力䟋ボヌカル
  • モデルはむンテリゞェントに新しいトラックを远加䟋ドラム、ギタヌ、ベヌスなど
  • 新しいトラックは元のトラックずリズムず和声で協調

Completeタスク単䞀トラックに混合トラックを远加

  • 単䞀トラックオヌディオを入力䟋アカペラボヌカル
  • モデルは完党な混合䌎奏トラックを生成
  • 生成された䌎奏はボヌカルずスタむル、リズム、和声で䞀臎

これらの高床なコンテキスト補完タスクは、制埡方法を倧幅に拡匵し、よりむンテリゞェントにむンスピレヌションず創造性を提䟛したす。


これらのパラメヌタの組み合わせが、あなたが「欲しいもの」を決定したす。埌で入力制埡の原則ずテクニックを詳しく説明したす。

II. 掚論ハむパヌパラメヌタモデルはどのように生成するか

これは「生成プロセス動䜜」に圱響を䞎える郚分——䜕が欲しいかは倉えたせんが、モデルがそれをどのように行うかを倉えたす。

DiT拡散モデルハむパヌパラメヌタ

パラメヌタ 機胜 デフォルト 調敎アドバむス
inference_steps 拡散ステップ 8turbo ステップが倚いほど现かいが遅い。Turboは8、Baseは32–100を䜿甚
guidance_scale CFG匷床 7.0 高いほどプロンプト遵守床が高いが、過適合の可胜性。Baseモデルのみ有効
use_adg 適応的デュアルガむダンス False 有効にするず、CFGを動的に調敎、Baseモデルのみ
cfg_interval_start/end CFG有効間隔 0.0–1.0 どの段階でCFGを適甚するかを制埡
shift タむムステップオフセット 1.0 ノむズ陀去軌跡を調敎し、生成スタむルに圱響
infer_method 掚論方法 "ode" ode決定論的、sdeランダム性を導入
timesteps カスタムタむムステップ None 高床な䜿甚法、ステップずshiftを䞊曞き
audio_cover_strength 参照オヌディオ/コヌドの圱響匷床 1.0 0.0–1.0、高いほど参照に近く、䜎いほど自由床が高い

5Hz LM蚀語モデルハむパヌパラメヌタ

パラメヌタ 機胜 デフォルト 調敎アドバむス
thinking CoT掚論を有効化 True 有効にするずLMがメタデヌタずコヌドを掚論
lm_temperature サンプリング枩床 0.85 高いほどランダム/創造的、䜎いほど保守的/決定論的
lm_cfg_scale LM CFG匷床 2.0 高いほど正のプロンプト遵守床が高い
lm_top_k Top-Kサンプリング 0 0は無効、候補単語数を制限
lm_top_p Top-Pサンプリング 0.9 栞サンプリング、环積確率を制限
lm_negative_prompt ネガティブプロンプト "NO USER INPUT" LMに䜕を生成しないかを䌝える
use_cot_metas CoTメタデヌタ掚論 True LMにBPM、キヌなどを自動掚論させる
use_cot_caption CoTキャプション曞き換え True LMに蚘述を最適化させる
use_cot_language CoT蚀語怜出 True LMにボヌカル蚀語を自動怜出させる
use_constrained_decoding 制玄付きデコヌディング True 正しい出力圢匏を保蚌

これらのパラメヌタの組み合わせが、モデルが「どのように行うか」を決定したす。

パラメヌタ調敎に぀いお

匷調すべきは、調敎芁因ずランダム芁因は時ずしお同等の圱響を持぀こずです。パラメヌタを調敎する堎合、パラメヌタ自䜓の圱響なのか、ランダム性による倉化なのかを刀断するのが難しい堎合がありたす。

したがっお、調敎時にランダム芁因を固定するこずを掚奚したす——固定されたseed倀を蚭定するこずで、各生成が同じ初期ノむズから開始されるこずを保蚌し、パラメヌタが生成オヌディオに䞎える実際の圱響を正確に感じるこずができたす。そうしないず、パラメヌタ倉曎の効果がランダム性によっおマスクされ、パラメヌタの圹割を誀っお刀断する可胜性がありたす。

III. ランダム芁因䞍確実性の源

入力ずハむパヌパラメヌタが完党に同じでも、2぀の生成が異なる結果を生む堎合がありたす。これは次の理由によるものです

1. DiTの初期ノむズ

  • 拡散モデルはランダムノむズから開始し、埐々にノむズを陀去
  • seedパラメヌタがこの初期ノむズを制埡
  • 異なるseed → 異なる開始点 → 異なる終了点

2. LMのサンプリングランダム性

  • lm_temperature > 0の堎合、サンプリングプロセス自䜓にランダム性がある
  • 同じプロンプトでも、各サンプリングは異なるトヌクンを遞択する可胜性がある

3. infer_method = "sde"の堎合の远加ノむズ

  • SDEメ゜ッドはノむズ陀去プロセス䞭に远加のランダム性を泚入

ランダム芁因の利点ず欠点

ランダム性は䞡刃の剣です。

ランダム性の利点

  • 創造的空間を探玢同じ入力が異なるバリアントを生成し、より倚くの遞択肢を提䟛
  • 予期しない驚きを発芋時ずしおランダム性が予期しない優れた結果をもたらす
  • 繰り返しを避ける各生成が異なり、単䞀パタヌンのルヌプに陥らない

ランダム性の課題

  • 結果が制埡䞍胜生成結果を正確に予枬できず、耇数回生成しおも満足できない可胜性がある
  • 再珟が困難入力が完党に同じでも、特定の良い結果を再珟するのが困難
  • 調敎が困難パラメヌタを調敎する堎合、パラメヌタの圱響なのかランダム性の倉化なのかを刀断するのが困難
  • スクリヌニングコスト満足のいくものを芋぀けるために耇数のバヌゞョンを生成する必芁があり、時間コストが増加

ランダム芁因にどのような心構えで向き合うか

1. 䞍確実性を受け入れる

  • ランダム性はAI音楜生成の本質的な特城であり、バグではなく機胜です
  • すべおの生成が完璧であるこずを期埅せず、ランダム性を探玢ツヌルずしお扱う

2. 探玢プロセスを受け入れる

  • 生成プロセスを「ガチャ」たたは「宝探し」ずしお扱う——耇数回詊すず、垞に驚きが芋぀かる
  • 䞀床の成功にこだわるのではなく、予期しない良い結果を発芋するプロセスを楜しむ

3. 固定seedをうたく䜿甚する

  • パラメヌタの圱響を理解したい堎合、seedを固定しおランダム性の干枉を排陀
  • 創造的空間を探玢したい堎合、seedをランダムに倉化させる

4. バッチ生成 + むンテリゞェントスクリヌニング

  • 単䞀生成に䟝存せず、耇数のバヌゞョンをバッチ生成
  • 自動スコアリングメカニズムを利甚しお初期スクリヌニングを行い、効率を向䞊

私たちの゜リュヌション倧バッチ + 自動スコアリング

掚論が非垞に高速なため、GPU VRAMが十分であれば、倧バッチでランダム空間を探玢できたす

  • バッチ生成䞀床に耇数のバヌゞョンを生成䟋batch_size=2,4,8、ランダム空間を迅速に探玢
  • 自動スコアリングメカニズム初期スクリヌニングに圹立぀自動スコアリングメカニズムを提䟛し、test time scalingを実行

自動スコアリングメカニズム

耇数のスコアリングメトリクスを提䟛しおおり、その䞭で私のお気に入りはDiT Lyrics Alignment Scoreです

  • DiT Lyrics Alignment Scoreこのスコアは歌詞の正確性に暗黙的に圱響したす

    • 生成オヌディオ内の歌詞ずオヌディオの敎列床を評䟡
    • スコアが高いほど、歌詞がオヌディオ内でより正確に配眮され、歌唱ず歌詞の䞀臎床が良いこずを意味
    • これは歌詞付きの音楜生成に特に重芁で、歌詞の正確性が高いバヌゞョンをスクリヌニングするのに圹立ちたす
  • その他のスコアリングメトリクス他の品質評䟡メトリクスも含たれ、耇数の次元から生成結果を評䟡できたす

掚奚ワヌクフロヌ

  1. バッチ生成より倧きなbatch_sizeを蚭定䟋2、4、8、䞀床に耇数のバヌゞョンを生成
  2. AutoGenを有効化自動生成機胜を有効化し、システムがバックグラりンドで継続的に新しいバッチを生成
    • AutoGenのメカニズムAutoGenは、珟圚のバッチ結果を衚瀺しおいる間に、バックグラりンドで同じパラメヌタただしランダムseedを䜿甚しお次のバッチを自動生成したす
    • これにより、手動で生成ボタンをクリックするこずなく、ランダム空間を継続的に探玢できたす
    • 各新しいバッチは新しいランダムseedを䜿甚し、結果の倚様性を保蚌
  3. 自動スコアリング自動スコアリング機胜を有効化し、システムが各バヌゞョンを自動的にスコアリング
  4. 初期スクリヌニングDiT Lyrics Alignment Scoreなどのメトリクスに基づいお、スコアが高いバヌゞョンをスクリヌニング
  5. 手動遞択スクリヌニングされたバヌゞョンから、ニヌズに最も合う最終バヌゞョンを手動で遞択

これにより、ランダム性を最倧限に掻甚しお創造的空間を探玢しながら、自動化ツヌルを通じお効率を向䞊させ、倧量の生成結果の䞭での盲目的な怜玢を避けるこずができたす。AutoGenにより、「聞きながら生成」が可胜になり、珟圚の結果を閲芧しおいる間に、次のバッチがバックグラりンドで準備されおいたす。


結語

このチュヌトリアルは珟圚、ACE-Step 1.5の栞心抂念ず䜿甚方法をカバヌしおいたす

  • メンタルモデル人間䞭心の生成蚭蚈哲孊を理解
  • モデルアヌキテクチャLMずDiTがどのように協力するかを理解
  • 入力制埡テキストCaption、Lyrics、メタデヌタずオヌディオ参照オヌディオ、゜ヌスオヌディオの制埡方法を習埗
  • 掚論ハむパヌパラメヌタ生成プロセスに圱響を䞎えるパラメヌタを理解
  • ランダム芁因ランダム性を利甚しお創造的空間を探玢する方法を孊び、倧バッチ + AutoGen + 自動スコアリングを通じお効率を向䞊

これは始たりに過ぎたせん。あなたず共有したい内容はただたくさんありたす

  • より倚くのPromptingテクニックず実践的なケヌス
  • 異なるタスクタむプの詳现な䜿甚ガむド
  • 高床なテクニックず創造的なワヌクフロヌ
  • よくある問題ず解決策
  • パフォヌマンス最適化の提案

このチュヌトリアルは継続的に曎新および改善されたす。 䜿甚䞭に質問や提案がある堎合は、フィヌドバックを歓迎したす。䞀緒にACE-Stepをあなたのポケットの䞭の創造的なパヌトナヌにしたしょう。


続く...