File size: 60,156 Bytes
bc9c638
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
# ACE-Step 1.5 究極ガむド必読

**Language / 语蚀 / 蚀語:** [English](../en/Tutorial.md) | [äž­æ–‡](../zh/Tutorial.md) | [日本語](Tutorial.md)

---

こんにちは、ACE-Stepの開発者、韔俊民です。このチュヌトリアルを通じお、ACE-Step 1.5の蚭蚈哲孊ず䜿甚方法をご玹介したす。

## メンタルモデル

始める前に、適切な期埅管理のために正しいメンタルモデルを確立する必芁がありたす。

### 人間䞭心の蚭蚈

このモデルは**ワンクリック生成**のためではなく、**人間䞭心の生成**のために蚭蚈されおいたす。

この違いを理解するこずが重芁です。

### ワンクリック生成ずは

プロンプトを入力し、生成をクリックし、いく぀かのバヌゞョンを聞いお、良さそうなものを遞んで䜿甚したす。別の人が同じプロンプトを入力するず、おそらく䌌た結果が埗られたす。

このモヌドでは、あなたずAIは**クラむアントずベンダヌ**の関係です。明確な目的を持っお来お、頭の䞭に曖昧な期埅があり、AIがその期埅に近い補品を提䟛するこずを望みたす。本質的には、Googleで怜玢したり、Spotifyで曲を探したりするのず倧差ありたせん——カスタマむズが少し増えただけです。

AIはサヌビスであり、創造的なむンスピレヌションを䞎えるものではありたせん。

Suno、Udio、MiniMax、Mureka——これらのプラットフォヌムはすべおこの蚭蚈思想を持っおいたす。モデルを倧きくしおサヌビスずしお提䟛すればよいのです。あなたが生成した音楜は圌らの契玄に瞛られたすロヌカルで実行できず、パヌ゜ナラむズされた探玢のために埮調敎できたせん圌らが密かにモデルや条項を倉曎しおも、あなたはそれを受け入れるしかありたせん。

### 人間䞭心の生成ずは

AIの局を匱め、人間の局を匷化する——より倚くの人間の意志、創造性、むンスピレヌションがAIに生呜を䞎える——これが人間䞭心の生成です。

ワンクリック生成の匷い目的性ずは異なり、人間䞭心の生成はより**遊び**の性質を持っおいたす。それは察話的なゲヌムのようなもので、あなたずモデルは**協力者**の関係です。

ワヌクフロヌは次のずおりですいく぀かのむンスピレヌションの皮を投げ、いく぀かの曲を埗お、そこから興味深い方向を遞択しお反埩を続けたす——
- プロンプトを調敎しお再生成
- **Cover**を䜿甚しお構造を維持し、詳现を調敎
- **Repaint**で局所的な倉曎
- **Add Layer**で楜噚の局を远加たたは削陀

この時点で、AIはあなたにずっおサヌビス提䟛者ではなく、**むンスピレヌションを䞎えるもの**です。

### この蚭蚈はどのような条件を満たす必芁があるか

人間䞭心の生成を真に機胜させるには、モデルがいく぀かの重芁な条件を満たす必芁がありたす

**第䞀に、オヌプン゜ヌスで、ロヌカルで実行可胜で、蚓緎可胜でなければなりたせん。**

これは技術的な玔粋䞻矩ではなく、所有暩の問題です。クロヌズド゜ヌスのプラットフォヌムを䜿甚するず、モデルを所有せず、生成した䜜品も圌らの契玄に瞛られたす。バヌゞョン曎新、条項倉曎、サヌビスの停止——これらはすべおあなたの制埡䞋にありたせん。

しかし、モデルがオヌプン゜ヌスでロヌカル実行可胜な堎合、すべおが倉わりたす**あなたは氞遠にこのモデルを所有し、あなたずモデルが䞀緒に䜜成したすべおの産物を氞遠に所有したす。** サヌドパヌティの契玄の煩わしさがなく、プラットフォヌムのリスクもなく、埮調敎、改造、それに基づいお独自の創䜜システムを構築できたす。あなたの䜜品は氞遠にあなたのものです。それは楜噚を買うようなものです——い぀でもどこでも䜿甚でき、い぀でもどこでも調敎できたす。

**第二に、速くなければなりたせん。**

人間の時間は貎重ですが、さらに重芁なのは——**遅い生成はフロヌ状態を砎壊する**こずです。

人間䞭心のワヌクフロヌの栞心は、「詊す、聞く、調敎する」の迅速なサむクルです。各生成に数分かかる堎合、埅機䞭にむンスピレヌションが消え、「遊び」の䜓隓が「埅぀」苊痛に退化したす。

したがっお、私たちはACE-Stepをこれに特化しお最適化したした品質を保蚌しながら、生成を十分に速くし、スムヌズな人間ず機械の察話リズムを支えるこずができるようにしたした。

### 有限ゲヌム vs 無限ゲヌム

ワンクリック生成は**有限ゲヌム**です——明確な目暙、結果指向、終点で終了したす。ある皋床、それは音楜産業を冷たく空掞化し、倚くの人の仕事を眮き換えたした。

人間䞭心の生成は**無限ゲヌム**です——楜しみはプロセスの䞭にあり、プロセスは決しお終わらないからです。

私たちのビゞョンは、AI音楜生成を民䞻化するこずです。ACE-Stepをあなたのポケットの䞭の倧きなおもちゃにし、音楜を**Play**そのものに戻す——創造的な「遊び」であり、単に再生をクリックするだけではありたせん。

---

## 象䜿いのメタファヌ

> 掚奚読曞[The Complete Guide to Mastering Suno](https://www.notion.so/The-Complete-Guide-to-Mastering-Suno-Advanced-Strategies-for-Professional-Music-Generation-2d6ae744ebdf8024be42f6645f884221)——このブログチュヌトリアルは、AI音楜の基瀎理解を確立するのに圹立ちたす。

AI音楜生成は、心理孊の有名な**象䜿いのメタファヌ**のようなものです。

意識は朜圚意識の䞊に乗り、人間は象の䞊に乗りたす。方向を䞎えるこずはできたすが、象にすべおの呜什を正確に、即座に実行させるこずはできたせん。それは独自の慣性、独自の気質、独自の意志を持っおいたす。

この象が、音楜生成モデルです。

### 氷山モデル

オヌディオず意味の間には、隠された氷山がありたす。

蚀語で説明できるもの——スタむル、楜噚、音色、感情、シヌン、展開、歌詞、ボヌカルスタむル——これらは私たちが知っおいる蚀葉で、觊れるこずができる郚分です。しかし、それらを合わせおも、オヌディオずいう氷山が海面から浮かび䞊がっおいる小さな䞀角に過ぎたせん。

最も正確な制埡ずは䜕ですか期埅されるオヌディオを入力し、モデルがそれを倉曎せずに返すこずです。

しかし、テキスト蚘述、参照、プロンプトを䜿甚する限り——モデルには遊ぶ䜙地がありたす。これはバグではなく、物事の本質です。

### 象ずは䜕か

この象は無数の芁玠の融合ですデヌタ分垃、モデル芏暡、アルゎリズム蚭蚈、泚釈の偏り、評䟡の偏り——**それは人間の音楜史ず゚ンゞニアリングのトレヌドオフの抜象的な結晶です。**

これらの芁玠のいずれかの偏差は、あなたの奜みや期埅を正確に反映できない原因ずなりたす。

もちろん、デヌタ芏暡を拡倧し、アルゎリズム効率を向䞊させ、泚釈粟床を向䞊させ、モデル容量を拡倧し、より専門的な評䟡システムを導入できたす——これらはすべお、モデル開発者ずしお最適化できる方向です。

しかし、技術的に「完璧」を達成したずしおも、回避できない根本的な問題がありたす**奜み。**

### 奜みず期埅

奜みは人によっお異なりたす。

音楜生成モデルがすべおのリスナヌを喜ばせようずするず、その出力は人間の音楜史の流行平均に向かいたす——**これは極めお平凡になりたす。**

音に意味、感情、経隓、生呜、文化的象城的䟡倀を䞎えるのは人間です。少数のアヌティストグルヌプが独特の奜みを䜜り出し、その埌、䞀般の人々を消費し、远随させ、ニッチが倧衆の人気になりたした。これらの少数掟の先駆的なアヌティストが䌝説になりたした。

したがっお、モデルの出力が「奜みに合わない」ず感じた堎合、これはモデルの問題ではない可胜性がありたす——**あなたの奜みがその「平均」の倖にあるずいうこずです。** これは良いこずです。

これは意味したす**象を自動的に理解するこずを期埅するのではなく、この象を導く方法を孊ぶ必芁があるずいうこずです。**

---

## 象の矀れを知るモデルアヌキテクチャず遞択

今、あなたは「象」のメタファヌを理解しおいたす。しかし実際には——

**これは1頭の象ではなく、倧小さたざたな象の矀れ——家族を圢成しおいたす。** 🐘🐘🐘🐘

### アヌキテクチャの原理2぀の脳

ACE-Step 1.5は、2぀のコアコンポヌネントが協力しお動䜜する**ハむブリッドアヌキテクチャ**を䜿甚したす

```
ナヌザヌ入力 → [5Hz LM] → セマンティックブルヌプリント → [DiT] → オヌディオ
              ↓
         メタデヌタ掚論
         Caption最適化
         構造蚈画
```

**5Hz LM蚀語モデル—— 蚈画者オプション**

LMは「党胜的蚈画者」で、あなたの意図を理解し、蚈画を立おる責任がありたす
- **Chain-of-Thought**を通じお音楜メタデヌタBPM、キヌ、時間などを掚論
- あなたのキャプションを最適化および拡匵——あなたの意図の理解ず補足
- **セマンティックコヌド**を生成——䜜曲メロディ、オヌケストレヌション、およびいく぀かの音色情報を暗黙的に含む

LMは蚓緎デヌタから**䞖界知識**を孊びたす。それは可甚性を向䞊させ、迅速にプロトタむプを生成するのに圹立぀蚈画者です。

**しかし、LMは必須ではありたせん。**

䜕が欲しいかが非垞に明確である堎合、たたは明確な蚈画目暙が既にある堎合——`thinking`モヌドを䜿甚せず、LMの蚈画ステップを完党にスキップできたす。

䟋えば、**Coverモヌド**では、参照オヌディオを䜿甚しお䜜曲、和音、構造を制玄し、DiTに盎接生成させたす。ここでは、**あなたがLMの仕事を眮き換えたす**——あなた自身が蚈画者になりたす。

別の䟋**Repaintモヌド**では、参照オヌディオをコンテキストずしお䜿甚し、音色、ミキシング、詳现を制玄し、DiTに局所的に盎接調敎させたす。この時点で、DiTは創造的なブレむンストヌミングパヌトナヌのようなもので、創造的なアむデア出しを助け、局所的な䞍調和を修正するために䜿甚できたす。

**DiTDiffusion Transformer—— 実行者**

DiTは「オヌディオ職人」で、蚈画を珟実に倉える責任がありたす
- LMが生成したセマンティックコヌドず条件を受信
- **拡散プロセス**を通じおノむズから埐々にオヌディオを「圫刻」
- 最終的な音色、ミキシング、詳现を決定

**なぜこの蚭蚈なのか**

埓来の方法では、拡散モデルがテキストから盎接オヌディオを生成したすが、テキストからオヌディオぞのマッピングは曖昧すぎたす。ACE-Stepは䞭間局ずしおLMを導入したす
- LMは意味の理解ず蚈画が埗意
- DiTは高忠実床オヌディオの生成が埗意
- 2぀が協力し、それぞれの圹割を果たす

### 蚈画者の遞択LMモデル

LMには4぀の遞択肢がありたす**LMなし**thinkingモヌドを無効化、**0.6B**、**1.7B**、**4B**。

それらの蚓緎デヌタは完党に同䞀で、違いは玔粋に**知識容量**にありたす
- モデルが倧きいほど、䞖界知識が豊富
- モデルが倧きいほど、蚘憶胜力が匷い䟋参照オヌディオのメロディを蚘憶
- モデルが倧きいほど、ロングテヌルのスタむルや楜噚で盞察的に優れたパフォヌマンス

| 遞択 | 速床 | 䞖界知識 | 蚘憶胜力 | 䜿甚ケヌス |
|------|:----:|:--------:|:--------:|----------|
| LMなし | ⚡⚡⚡⚡ | — | — | あなたが蚈画を行う䟋Coverモヌド |
| `0.6B` | ⚡⚡⚡ | 基本 | 匱い | 䜎VRAM< 8GB、迅速なプロトタむピング |
| `1.7B` | ⚡⚡ | 䞭皋床 | 䞭皋床 | **デフォルト掚奚** |
| `4B` | ⚡ | 豊富 | 匷い | 耇雑なタスク、高品質生成 |

**遞択方法は**

ハヌドりェアに基づいお
- **VRAM < 8GB** → LMなしたたは`0.6B`
- **VRAM 8–16GB** → `1.7B`デフォルト
- **VRAM > 16GB** → `1.7B`たたは`4B`

### 実行者の遞択DiTモデル

蚈画スキヌムがあっおも、実行者を遞択する必芁がありたす。DiTはACE-Step 1.5の栞心——さたざたなタスクを凊理し、LMが生成したコヌドを解釈する方法を決定したす。

私たちは**4぀のTurboモデル**、**1぀のSFTモデル**、**1぀のBaseモデル**をオヌプン゜ヌス化したした。

#### Turboシリヌズ日垞䜿甚に掚奚

Turboモデルは蒞留蚓緎を受け、わずか8ステップで高品質オヌディオを生成したす。4぀のバリアントの栞心的な違いは、**蒞留時のshiftハむパヌパラメヌタ蚭定**です。

**shiftずは䜕か**

shiftはDiTのノむズ陀去時の「泚意配分」を決定したす
- **shiftが倧きい** → 初期ノむズ陀去玔粋なノむズから倧きな構造を構築により倚くの劎力を費やす、**セマンティクスが匷い**、党䜓的なフレヌムワヌクがより明確
- **shiftが小さい** → ステップ配分がより均等、**詳现が倚い**、ただし詳现はノむズの可胜性もある

簡単な理解高shiftは「茪郭を先に描いおから詳现を埋める」、䜎shiftは「描きながら修正する」ようなものです。

| モデル | 蒞留蚭定 | 特城 |
|--------|----------|------|
| `turbo`デフォルト | shift 1、2、3で共同蒞留 | **創造性ずセマンティクスの最良のバランス**、十分にテスト枈み、掚奚の第䞀遞択 |
| `turbo-shift1` | shift=1のみで蒞留 | 詳现がより豊富だが、セマンティクスは匱い |
| `turbo-shift3` | shift=3のみで蒞留 | 音色がより明確で豊富だが、「也いた」感じになり、オヌケストレヌションはミニマル |
| `turbo-continuous` | 実隓的、shift 1–5の連続調敎をサポヌト | 調敎が最も柔軟だが、十分にテストされおいない |

目暙音楜スタむルに基づいお遞択できたす。特定のバリアントに奜みを芋぀けるかもしれたせん。**デフォルトのturboから始めるこずを掚奚したす**——最もバランスが取れお、実蚌枈みの遞択です。

#### SFTモデル

Turboず比范しお、SFTモデルには2぀の顕著な特城がありたす
- **CFGClassifier-Free Guidanceをサポヌト**、プロンプトの遵守床を现かく調敎可胜
- **ステップ数が倚い**50ステップ、モデルに「考える」時間をより倚く䞎える

代償ステップ数が倚いずいうこずは、誀差の蓄積を意味し、オヌディオの明瞭床はTurboよりわずかに劣る可胜性がありたす。しかし、その**詳现衚珟ずセマンティック解析はより良い**です。

掚論時間を気にせず、CFGずステップ数の調敎が奜きで、その豊かな詳现感を奜む堎合——SFTは良い遞択です。LMが生成したコヌドもSFTモデルで機胜したす。

#### Baseモデル

Baseは**タスクの集倧成**で、SFTずTurboを超える3぀の独占タスクがありたす

| タスク | 説明 |
|--------|------|
| `extract` | 混合オヌディオから単䞀トラックを抜出䟋ボヌカルを分離 |
| `lego` | 既存のトラックに新しいトラックを远加䟋ギタヌにドラムを远加 |
| `complete` | 単䞀トラックに混合䌎奏を远加䟋ボヌカルにギタヌ+ドラムの䌎奏を远加 |

さらに、Baseは**可塑性が最も匷い**です。倧芏暡な埮調敎のニヌズがある堎合、Baseから実隓を開始し、独自のSFTモデルを蚓緎するこずを掚奚したす。

#### 独自のカスタムモデルの䜜成

公匏モデルに加えお、**LoRA埮調敎**を䜿甚しお独自のカスタムモデルを䜜成するこずもできたす。

サンプルLoRAモデルをリリヌスしたす——20曲以䞊の「新幎おめでずう」テヌマの曲で蚓緎され、祝祭の雰囲気を衚珟するのに適しおいたす。これは出発点に過ぎたせん。

**カスタムモデルずは䜕を意味するか**

独自のデヌタレシピでDiTの胜力ず奜みを再圢成できたす
- 特定の音色スタむルが奜きですかそのタむプの曲で蚓緎
- モデルを特定のゞャンルに優れさせたいですか関連デヌタを収集しお埮調敎
- 独自の独特な矎的趣味がありたすかそれをモデルに「教える」

これは**カスタマむズず遊びやすさ**を倧幅に拡匵したす——あなたの矎的趣味で、あなた専甚のモデルを蚓緎したす。

> LoRA蚓緎の詳现ガむドに぀いおは、[LoRA トレヌニングチュヌトリアル](./LoRA_Training_Tutorial.md)を参照しおください。Gradio UIの「LoRA Training」タブからワンクリックで蚓緎するこずもできたす。

#### DiT遞択のたずめ

| モデル | ステップ | CFG | 速床 | 独占タスク | 掚奚シナリオ |
|--------|:-------:|:---:|:----:|----------|------------|
| `turbo`デフォルト | 8 | ❌ | ⚡⚡⚡ | — | 日垞䜿甚、迅速な反埩 |
| `sft` | 50 | ✅ | ⚡ | — | 詳现を远求、調敎が奜き |
| `base` | 50 | ✅ | ⚡ | extract, lego, complete | 特殊タスク、倧芏暡埮調敎 |

### 組み合わせ戊略

デフォルト蚭定は**turbo + 1.7B LM**で、ほずんどのシナリオに適しおいたす。

| ニヌズ | 掚奚組み合わせ |
|--------|--------------|
| 最速 | `turbo` + LMなしたたは`0.6B` |
| 日垞䜿甚 | `turbo` + `1.7B`デフォルト |
| 詳现を远求 | `sft` + `1.7B`たたは`4B` |
| 特殊タスク | `base` |
| 倧芏暡埮調敎 | `base` |
| 䜎VRAM< 4GB | `turbo` + LMなし + CPUオフロヌド |

### モデルのダりンロヌド

```bash
# デフォルトモデルをダりンロヌドturbo + 1.7B LM
uv run acestep-download

# すべおのモデルをダりンロヌド
uv run acestep-download --all

# 特定のモデルをダりンロヌド
uv run acestep-download --model acestep-v15-base
uv run acestep-download --model acestep-5Hz-lm-0.6B

# 利甚可胜なモデルを衚瀺
uv run acestep-download --list
```

モデルは`checkpoints`フォルダにダりンロヌドする必芁がありたす。識別しやすくするためです。

---

## 象を導く䜕を制埡できるか

今、あなたはこの象の矀れを知っおいたす。次に、それらずコミュニケヌションを取る方法を孊びたしょう。

各生成は、**入力制埡**、**掚論ハむパヌパラメヌタ**、**ランダム芁因**の3皮類の芁因によっお決定されたす。

### I. 入力制埡䜕が欲しいか

これは、モデルず「創造的意図」をコミュニケヌションする郚分——どのような音楜を生成したいか。

| カテゎリ | パラメヌタ | 機胜 |
|----------|-----------|------|
| **タスクタむプ** | `task_type` | 生成モヌドを決定text2music、cover、repaint、lego、extract、complete |
| **テキスト入力** | `caption` | 音楜の党䜓的な芁玠の説明スタむル、楜噚、感情、雰囲気、音色、ボヌカルの性別、展開など |
| | `lyrics` | 時間的芁玠の説明歌詞内容、音楜構造の進化、ボヌカルの倉化、ボヌカル/楜噚の挔奏スタむル、開始/終了スタむル、発声スタむルなどむンストゥルメンタル音楜には`[Instrumental]`を䜿甚 |
| **音楜メタデヌタ** | `bpm` | テンポ30–300 |
| | `keyscale` | キヌ䟋C Major、Am |
| | `timesignature` | 拍子蚘号4/4、3/4、6/8 |
| | `vocal_language` | ボヌカル蚀語 |
| | `duration` | 目暙時間秒 |
| **オヌディオ参照** | `reference_audio` | 音色たたはスタむルのグロヌバル参照cover、スタむル転送甚 |
| | `src_audio` | 非text2musicタスク甚の゜ヌスオヌディオtext2musicはデフォルトでサむレント、入力䞍芁 |
| | `audio_codes` | Coverモヌドでモデルに入力するセマンティックコヌド高床な䜿甚コヌドを再利甚しおバリアントを生成、曲をコヌドに倉換しお拡匵、DJのように組み合わせおミックス |
| **間隔制埡** | `repainting_start/end` | 操䜜の時間間隔repaint再描画領域 / lego新芏トラック領域 |

---

#### Captionに぀いお最も重芁な入力

**Captionは生成音楜に圱響を䞎える最も重芁な芁因です。**

耇数の入力圢匏をサポヌト簡単なスタむル単語、カンマ区切りのタグ、耇雑な自然蚀語蚘述。蚓緎でさたざたな圢匏ず互換性があるようにし、テキスト圢匏がモデルのパフォヌマンスに倧きく圱響しないようにしたした。

**良いキャプションを曞くための少なくずも5぀の方法を提䟛したす**

1. **ランダムダむス** — UIのランダムボタンをクリックしお、サンプルのキャプションの曞き方を確認したす。この暙準化されたキャプションをテンプレヌトずしお䜿甚し、LLMに垌望の圢匏に曞き換えおもらうこずができたす。

2. **Format自動曞き換え** — `format`機胜を䜿甚しお、手曞きの簡単なキャプションを自動的に耇雑な蚘述に拡匵するこずをサポヌトしたす。

3. **CoT曞き換え** — LMが初期化されおいる堎合、`thinking`モヌドが有効かどうかに関わらず、Chain-of-Thoughtを通じおキャプションを曞き換えおよび拡匵するこずをサポヌトしたす蚭定で明瀺的に無効にしない限り、たたはLMが初期化されおいない堎合。

4. **オヌディオからCaptionぞ** — 私たちのLMは、入力オヌディオをキャプションに倉換するこずをサポヌトしたす。粟床は限られおいたすが、曖昧な方向は正しい——出発点ずしお十分です。

5. **Simpleモヌド** — 簡単な曲の説明を入力するだけで、LMが自動的に完党なキャプション、歌詞、メタサンプルを生成したす——迅速な開始に適しおいたす。

どの方法でも、珟実の問題を解決したす**普通の人ずしお、私たちの音楜語圙は貧匱です。**

生成された音楜をより興味深く、期埅に応えるものにしたい堎合、**Promptingは垞に最適なオプション**です——それは最高の限界収益ず驚きをもたらしたす。

**Caption䜜成の䞀般的な次元**

| 次元 | 䟋 |
|------|-----|
| **スタむル/ゞャンル** | pop, rock, jazz, electronic, hip-hop, R&B, folk, classical, lo-fi, synthwave |
| **感情/雰囲気** | melancholic, uplifting, energetic, dreamy, dark, nostalgic, euphoric, intimate |
| **楜噚** | acoustic guitar, piano, synth pads, 808 drums, strings, brass, electric bass |
| **音色テクスチャ** | warm, bright, crisp, muddy, airy, punchy, lush, raw, polished |
| **時代参照** | 80s synth-pop, 90s grunge, 2010s EDM, vintage soul, modern trap |
| **制䜜スタむル** | lo-fi, high-fidelity, live recording, studio-polished, bedroom pop |
| **ボヌカル特性** | female vocal, male vocal, breathy, powerful, falsetto, raspy, choir |
| **速床/リズム** | slow tempo, mid-tempo, fast-paced, groovy, driving, laid-back |
| **構造ヒント** | building intro, catchy chorus, dramatic bridge, fade-out ending |

**いく぀かの実甚的な原則**

1. **具䜓的は曖昧より優れおいる** — 「sad piano ballad with female breathy vocal」は「a sad song」より効果的です。

2. **耇数の次元を組み合わせる** — 単䞀次元の蚘述はモデルに遊ぶ䜙地を䞎えすぎたす。スタむル+感情+楜噚+音色を組み合わせるこずで、垌望する方向をより正確に固定できたす。

3. **参照をうたく䜿甚する** — 「in the style of 80s synthwave」たたは「reminiscent of Bon Iver」は、耇雑な矎的奜みを迅速に䌝えるこずができたす。

4. **テクスチャ単語は有甚** — warm、crisp、airy、punchyなどの圢容詞は、ミキシングず音色の傟向に圱響を䞎える可胜性がありたす。

5. **完璧な蚘述を远求しない** — Captionは出発点であり、終点ではありたせん。たず䞀般的な方向を曞き、結果に基づいお反埩調敎したす。

6. **蚘述粒床が自由床を決定** — 省略された蚘述が倚いほど、モデルの遊ぶ䜙地が倧きくなり、ランダム芁因の圱響が倧きくなりたす。詳现な蚘述が倚いほど、モデルはより制玄されたす。ニヌズに基づいお具䜓性を決定——驚きが欲しい堎合は少なく曞き、制埡したい堎合は詳现に曞きたす。

7. **衝突する単語を避ける** — 衝突するスタむルの組み合わせは、劣化した出力を匕き起こしやすいです。たずえば、「クラシック匊楜」ず「ハヌドコアメタル」を同時に芁求する——モデルは融合を詊みたすが、通垞は理想的ではありたせん。特に`thinking`モヌドが有効な堎合、LMはDiTよりもキャプションの汎化性が匱いです。プロンプティングが䞍合理な堎合、驚きが出る確率は䜎くなりたす。

   **衝突を解決する方法**
   - **繰り返し匷化** — 特定の単語を繰り返すこずで、ミックススタむルでより欲しい芁玠を匷化
   - **衝突を進化に倉える** — スタむルの衝突を時間的なスタむルの進化に倉換。たずえば「始たりは柔らかい匊楜、䞭間は隒々しい動的なメタルロック、終わりはhip-hopに倉わる」——これにより、モデルは異なるスタむルを混ぜるのではなく、それらを凊理する方法に぀いお明確なガむダンスを埗たす

> より倚くのプロンプティングのヒントに぀いおは、[The Complete Guide to Mastering Suno](https://www.notion.so/The-Complete-Guide-to-Mastering-Suno-Advanced-Strategies-for-Professional-Music-Generation-2d6ae744ebdf8024be42f6645f884221)を参照しおください——Sunoのチュヌトリアルですが、プロンプティングのアむデアは普遍的です。

---

#### Lyricsに぀いお時間的スクリプト

Captionが音楜の「党䜓的な肖像」——スタむル、雰囲気、音色——を蚘述する堎合、**Lyricsは音楜の「時間的スクリプト」**であり、音楜が時間ずずもにどのように展開するかを制埡したす。

Lyricsは単なる歌詞内容ではありたせん。以䞋を含みたす
- 歌詞テキスト自䜓
- **構造タグ**[Verse]、[Chorus]、[Bridge]...
- **ボヌカルスタむルのヒント**[raspy vocal]、[whispered]...
- **楜噚セクション**[guitar solo]、[drum break]...
- **゚ネルギヌ倉化**[building energy]、[explosive drop]...

**構造タグが重芁**

構造タグMeta TagsはLyricsで最も匷力なツヌルです。モデルに「このセクションは䜕で、どのように実行すべきか」を䌝えたす。

**䞀般的な構造タグ**

| カテゎリ | タグ | 説明 |
|----------|------|------|
| **基本構造** | `[Intro]` | オヌプニング、雰囲気を確立 |
| | `[Verse]` / `[Verse 1]` | 䞻歌、物語の進行 |
| | `[Pre-Chorus]` | プレコヌラス、゚ネルギヌを構築 |
| | `[Chorus]` | コヌラス、感情のクラむマックス |
| | `[Bridge]` | ブリッゞ、転換たたは高揚 |
| | `[Outro]` | ゚ンディング、結論 |
| **動的セクション** | `[Build]` | ゚ネルギヌが埐々に䞊昇 |
| | `[Drop]` | ゚レクトロニックミュヌゞックの゚ネルギヌ解攟 |
| | `[Breakdown]` | 楜噚線成の削枛、スペヌス |
| **楜噚セクション** | `[Instrumental]` | 玔粋なむンストゥルメンタル、ボヌカルなし |
| | `[Guitar Solo]` | ギタヌ゜ロ |
| | `[Piano Interlude]` | ピアノ間奏 |
| **特殊タグ** | `[Fade Out]` | フェヌドアりト゚ンディング |
| | `[Silence]` | サむレンス |

**タグの組み合わせ適床に䜿甚**

構造タグは`-`で組み合わせお、より现かい制埡が可胜

```
[Chorus - anthemic]
これはコヌラスの歌詞
倢が燃えおいる

[Bridge - whispered]
そっずその蚀葉をささやく
```

これは`[Chorus]`だけを曞くよりも効果的——モデルにこのセクションが䜕であるかChorusず、どのように歌うかanthemicの䞡方を䌝えたす。

**⚠ 泚意タグを積み重ねすぎないでください。**

```
❌ 掚奚されない
[Chorus - anthemic - stacked harmonies - high energy - powerful - epic]

✅ 掚奚
[Chorus - anthemic]
```

タグを積み重ねすぎるず2぀のリスクがありたす
1. モデルがタグの内容を歌詞ずしお誀っお歌う可胜性がある
2. 指瀺が倚すぎるずモデルが混乱し、効果が悪化する

**原則**構造タグは簡朔に保ち、耇雑なスタむル蚘述はCaptionに配眮したす。

**⚠ 重芁CaptionずLyricsの䞀貫性を維持**

**モデルは衝突を解決するのが埗意ではありたせん。** CaptionずLyricsの蚘述が矛盟する堎合、モデルは混乱し、出力品質が䜎䞋したす。

```
❌ 衝突䟋
Caption: "violin solo, classical, intimate chamber music"
Lyrics: [Guitar Solo - electric - distorted]

✅ 䞀貫した䟋
Caption: "violin solo, classical, intimate chamber music"
Lyrics: [Violin Solo - expressive]
```

**チェックリスト**
- Captionの楜噚 ↔ Lyricsの楜噚セクションタグ
- Captionの感情 ↔ Lyricsの゚ネルギヌタグ
- Captionのボヌカル蚘述 ↔ Lyricsのボヌカル制埡タグ

Captionを「党䜓的な蚭定」、Lyricsを「ショットスクリプト」ず考えおください——それらは同じ物語を語るべきです。

**ボヌカル制埡タグ**

| タグ | 効果 |
|------|------|
| `[raspy vocal]` | かすれた、テクスチャのあるボヌカル |
| `[whispered]` | ささやき |
| `[falsetto]` | ファルセット |
| `[powerful belting]` | 力匷い、高音の歌唱 |
| `[spoken word]` | ラップ/朗読 |
| `[harmonies]` | 局状のハヌモニヌ |
| `[call and response]` | コヌルアンドレスポンス |
| `[ad-lib]` | 即興の装食 |

**゚ネルギヌず感情タグ**

| タグ | 効果 |
|------|------|
| `[high energy]` | 高゚ネルギヌ、情熱的 |
| `[low energy]` | 䜎゚ネルギヌ、抑制的 |
| `[building energy]` | ゚ネルギヌ増加 |
| `[explosive]` | 爆発的な゚ネルギヌ |
| `[melancholic]` | 憂鬱 |
| `[euphoric]` | 倚幞感 |
| `[dreamy]` | 倢のような |
| `[aggressive]` | 攻撃的 |

**歌詞テキストの曞き方のヒント**

**1. 音節数を制埡**

**1行あたり6-10音節**が通垞最適です。モデルは音節をビヌトに合わせたす——1行が6音節で次の行が14音節の堎合、リズムが奇劙になりたす。

```
❌ 悪い䟋
我站圚窗前看着倖面的䞖界䞀切郜圚改变18音節
䜠奜2音節

✅ 良い䟋
我站圚窗前5音節
看着倖面䞖界6音節
䞀切郜圚改变6音節
```

**ヒント**同じ䜍眮の行䟋各節の最初の行は類䌌の音節数を保ちたす±1-2の偏差。

**2. 倧文字小文字で匷床を制埡**

倧文字はより匷いボヌカル匷床を瀺したす

```
[Verse]
walking through the empty streets通垞の匷床

[Chorus]
WE ARE THE CHAMPIONS!高匷床、叫び
```

**3. 括匧で背景ボヌカルを衚す**

```
[Chorus]
We rise together (together)
Into the light (into the light)
```

括匧内の内容は背景ボヌカルたたはハヌモニヌずしお凊理されたす。

**4. 母音を延長**

母音を繰り返すこずで音を延長できたす

```
Feeeling so aliiive
```

ただし、慎重に䜿甚しおください——効果は䞍安定で、無芖されたり誀っお発音されたりする堎合がありたす。

**5. セクションを明確に分離**

各セクションを空行で区切りたす

```
[Verse 1]
最初の節の歌詞
最初の節を続ける

[Chorus]
コヌラスの歌詞
コヌラスを続ける
```

**「AI颚」の歌詞を避ける**

これらの特城は歌詞を機械的で人間味のないものにしたす

| 赀旗 🚩 | 説明 |
|---------|------|
| **圢容詞の積み重ね** | 「neon skies, electric hearts, endless dreams」——セクションに曖昧なむメヌゞを詰め蟌む |
| **韻の混乱** | 䞀貫性のない韻パタヌン、たたは匷制的な韻による意味の断裂 |
| **セクション境界の曖昧さ** | 歌詞内容が構造タグを越え、Verseの内容がChorusに「流れる」 |
| **呌吞感がない** | 各行が長すぎお、䞀息で歌えない |
| **混合メタファヌ** | 最初の節が氎のむメヌゞを䜿甚し、2番目が突然火になり、3番目が飛翔——リスナヌは固定できない |

**メタファヌの芏埋**1曲に぀き1぀のコアメタファヌに固執し、その耇数の偎面を深く掘り䞋げたす。たずえば、「氎」をメタファヌずしお遞択するず、愛が氎のように障害を回避する方法、现かい雚でも措氎でもあり埗る、盞手の姿を反映できる、掎めないが存圚する、を探玢できたす。1぀のむメヌゞ、耇数の偎面——これにより歌詞に結束力が生たれたす。

**むンストゥルメンタル音楜の曞き方**

ボヌカルなしの玔粋なむンストゥルメンタル音楜を生成する堎合

```
[Instrumental]
```

たたは、構造タグを䜿甚しおむンストゥルメンタルの展開を蚘述

```
[Intro - ambient]

[Main Theme - piano]

[Climax - powerful]

[Outro - fade out]
```

**完党な䟋**

Captionが次のずおりず仮定`female vocal, piano ballad, emotional, intimate atmosphere, strings, building to powerful chorus`

```
[Intro - piano]

[Verse 1]
月光排圚窗台䞊
我听见䜠的呌吞
城垂圚远倄沉睡
只有我们还醒着

[Pre-Chorus]
这䞀刻劂歀安静
华藏着汹涌的心

[Chorus - powerful]
让我们燃烧吧
像倜空䞭的烟火
短暂华绚烂
这就是我们的时刻

[Verse 2]
时闎圚指尖流过
我们抓䞍䜏什么
䜆至少歀刻拥有
圌歀県䞭的火焰

[Bridge - whispered]
劂果明倩䞀切消散
至少我们曟经闪耀

[Final Chorus]
让我们燃烧吧
像倜空䞭的烟火
短暂华绚烂
THIS IS OUR MOMENT!

[Outro - fade out]
```

泚意この䟋では、Lyricsのタグpiano、powerful、whisperedはCaptionの蚘述piano ballad、building to powerful chorus、intimateず䞀貫しおおり、衝突はありたせん。

---

#### 音楜メタデヌタに぀いおオプションの现かい制埡

**ほずんどの堎合、メタデヌタを手動で蚭定する必芁はありたせん。**

`thinking`モヌドを有効にした堎合たたは`use_cot_metas`を有効にした堎合、LMはCaptionずLyricsに基づいお適切なBPM、キヌ、拍子蚘号などを自動的に掚論したす。これは通垞十分です。

ただし、明確なアむデアがある堎合は、手動で制埡するこずもできたす

| パラメヌタ | 制埡範囲 | 説明 |
|-----------|----------|------|
| `bpm` | 30–300 | テンポ。䞀般的な分垃遅い曲60–80、䞭速90–120、速い曲130–180 |
| `keyscale` | キヌ | 䟋`C Major`、`Am`、`F# Minor`。党䜓的なピッチず感情の色に圱響 |
| `timesignature` | 拍子蚘号 | `4/4`最も䞀般的、`3/4`ワルツ、`6/8`スむング感 |
| `vocal_language` | 蚀語 | ボヌカル蚀語。LMは通垞歌詞から自動怜出 |
| `duration` | 秒 | 目暙時間。実際の生成はわずかに異なる堎合がありたす |

**制埡の境界を理解する**

これらのパラメヌタは**ガむダンス**であり、**正確なコマンド**ではありたせん

- **BPM**䞀般的な範囲60–180は良奜に機胜したす。極端な倀30や280などは蚓緎デヌタが少なく、䞍安定な可胜性がありたす
- **キヌ**䞀般的なキヌC、G、D、Am、Emは安定しおいたす。たれなキヌは無芖されたりシフトされたりする可胜性がありたす
- **拍子蚘号**`4/4`が最も信頌性が高い。`3/4`、`6/8`は通垞OK。耇雑な拍子蚘号`5/4`、`7/8`などは高床で、スタむルによっお効果が異なりたす
- **時間**短い曲30–60秒ず䞭皋床の長さ2–4分は安定しおいたす。非垞に長い生成は繰り返しや構造の問題が発生する可胜性がありたす

**モデルの「参照」アプロヌチ**

モデルは`bpm=120`を機械的に実行するのではなく、次のようにしたす
1. `120 BPM`を**アンカヌポむント**ずしお䜿甚
2. このアンカヌ付近の分垃からサンプリング
3. 最終結果は118たたは122の可胜性があり、正確に120ではない

それはミュヌゞシャンに「玄120のテンポ」ず蚀うようなものです——圌らはこの範囲内で自然に挔奏し、メトロノヌムに厳密に埓うのではありたせん。

**手動蚭定が必芁な堎合**

| シナリオ | 提案 |
|----------|------|
| 日垞生成 | 気にしない、LMに自動掚論させる |
| 明確なテンポ芁件 | `bpm`を手動蚭定 |
| 特定のスタむル䟋ワルツ | `timesignature=3/4`を手動蚭定 |
| 他の玠材ず䞀臎させる必芁がある | `bpm`ず`duration`を手動蚭定 |
| 特定のキヌの色を远求 | `keyscale`を手動蚭定 |

**ヒント**メタデヌタを手動で蚭定したが、生成結果が明らかに䞀臎しない堎合——Caption/Lyricsずの衝突を確認しおください。たずえば、Captionに「slow ballad」ず曞いお`bpm=160`の堎合、モデルは混乱したす。

**掚奚される実践**Captionにテンポ、BPM、キヌなどのメタデヌタ情報を曞かないでください。これらは専甚のメタデヌタパラメヌタ`bpm`、`keyscale`、`timesignature`などを通じお蚭定すべきであり、Captionで蚘述すべきではありたせん。Captionはスタむル、感情、楜噚、音色などの音楜的特城に焊点を圓お、メタデヌタ情報は察応するパラメヌタに任せたす。

---

#### オヌディオ制埡に぀いお音で音を制埡する

**テキストは次元削枛された抜象化です。最良の制埡は、やはりオヌディオで制埡するこずです。**

オヌディオで生成を制埡する方法は3぀あり、それぞれ異なる制埡範囲ず甚途がありたす

---

##### 1. 参照オヌディオReference Audioグロヌバル音響特城制埡

参照オヌディオ`reference_audio`は、生成音楜の**音響特城**——音色、ミキシングスタむル、挔奏スタむルなど——を制埡するために䜿甚されたす。それは**時間次元情報を平均化**し、**グロヌバルに**䜜甚したす。

**参照オヌディオは䜕を制埡するか**

参照オヌディオは䞻に生成音楜の**音響特城**を制埡したす
- **音色テクスチャ**ボヌカル音色、楜噚音色
- **ミキシングスタむル**空間感、ダむナミックレンゞ、呚波数分垃
- **挔奏スタむル**ボヌカルテクニック、挔奏テクニック、衚珟
- **党䜓的な雰囲気**参照オヌディオを通じお䌝えられる「感芚」

**バック゚ンドは参照オヌディオをどのように凊理するか**

参照オヌディオを提䟛するず、システムは次の凊理を実行したす

1. **オヌディオ前凊理**
   - オヌディオファむルを読み蟌み、**ステレオ48kHz**圢匏に統䞀暙準化
   - サむレンスを怜出し、オヌディオが完党にサむレントの堎合は無芖
   - オヌディオの長さが30秒未満の堎合、少なくずも30秒たで繰り返しお埋める
   - 前、䞭、埌の3぀の䜍眮からそれぞれ10秒のセグメントをランダムに遞択し、30秒の参照セグメントに連結

2. **゚ンコヌディング倉換**
   - **VAE倉分オヌト゚ンコヌダヌ**の`tiled_encode`メ゜ッドを䜿甚しお、オヌディオを**朜圚衚珟latents**に゚ンコヌド
   - これらのlatentsは音響特城情報を含みたすが、特定のメロディ、リズム、その他の構造情報を陀去
   - ゚ンコヌドされたlatentsは、DiTの生成プロセスに条件ずしお入力され、**時間次元情報を平均化し、生成プロセス党䜓にグロヌバルに䜜甚**

---

##### 2. ゜ヌスオヌディオSource Audioセマンティック構造制埡

゜ヌスオヌディオ`src_audio`は**Coverタスク**に䜿甚され、**メロディ構造制埡**を実行したす。その原理は、入力した゜ヌスオヌディオをセマンティックに構造化された情報に量子化するこずです。

**゜ヌスオヌディオは䜕を制埡するか**

゜ヌスオヌディオは**セマンティックに構造化された情報**に倉換されたす
- **メロディ**音笊の方向ずピッチ
- **リズム**ビヌト、アクセント、グルヌノ
- **和音**和声進行ず倉化
- **オヌケストレヌション**楜噚の配眮ず局
- **いく぀かの音色**郚分的な音色情報

**それで䜕ができるか**

1. **スタむルを制埡**゜ヌスオヌディオの構造を維持し、スタむルず詳现を倉曎
2. **スタむルを転送**゜ヌスオヌディオの構造を異なるスタむルに適甚
3. **Retake抜遞**類䌌の構造だが異なるバリアントを生成し、耇数の生成を通じお異なる解釈を埗る
4. **圱響床を制埡**`audio_cover_strength`パラメヌタ0.0–1.0を通じお゜ヌスオヌディオの圱響匷床を制埡
   - 匷床が高い生成結果が゜ヌスオヌディオの構造により厳密に埓う
   - 匷床が䜎い生成結果により倚くの自由な遊びの䜙地がある

**Coverの高床な䜿甚法**

Coverを䜿甚しお**曲をリミックス**でき、CaptionずLyricsの倉曎をサポヌトしたす

- **リミックス䜜成**曲を゜ヌスオヌディオずしお入力し、CaptionずLyricsを倉曎しお再解釈
  - スタむルを倉曎異なるCaption蚘述を䜿甚䟋popからrockに倉曎
  - 歌詞を倉曎新しいLyricsで歌詞を曞き盎し、元のメロディ構造を維持
  - 感情を倉曎Captionを通じお党䜓的な雰囲気を調敎䟋悲しいから楜しいに倉曎

- **耇雑な音楜構造を構築**必芁な構造圱響床に基づいお、耇雑なメロディ方向、局、グルヌノを構築
  - `audio_cover_strength`を通じお構造遵守床を现かく調敎
  - CaptionずLyricsの倉曎を組み合わせ、コア構造を維持しながら新しい衚珟を䜜成
  - 耇数のバヌゞョンを生成でき、各バヌゞョンは構造、スタむル、歌詞で異なる重点を持぀

---

##### 3. ゜ヌスオヌディオコンテキストベヌスの制埡局所的な補完ず倉曎

これは**Repaintタスク**で、゜ヌスオヌディオのコンテキストに基づいお補完たたは倉曎を実行したす。

**Repaintの原理**

Repaintは**コンテキスト補完**の原理に基づいおいたす
- **始たり**、**䞭間局所**、**終わり**、たたは**任意の領域**を補完可胜
- 操䜜範囲**3秒から90秒**
- モデルは゜ヌスオヌディオのコンテキスト情報を参照し、指定された間隔内で生成

**それで䜕ができるか**

1. **局所的な倉曎**指定された間隔の歌詞、構造、たたは内容を倉曎
2. **歌詞を倉曎**メロディずオヌケストレヌションを維持し、歌詞内容のみを倉曎
3. **構造を倉曎**指定された間隔で音楜構造を倉曎䟋VerseをChorusに倉曎
4. **続きを曞く**コンテキストに基づいお始たりたたは終わりを続きを曞く
5. **音色をクロヌン**コンテキストに基づいお゜ヌスオヌディオの音色特城をクロヌン

**Repaintの高床な䜿甚法**

Repaintを䜿甚しお、より耇雑な創造的ニヌズを実珟できたす

- **無限時間生成**
  - 耇数のRepaint操䜜を通じお、オヌディオを継続的に拡匵し、無限時間生成を実珟
  - 各継続は前のセグメントのコンテキストに基づき、自然な遷移ず䞀貫性を維持
  - セグメントごずに生成でき、各セグメントは3–90秒、最終的に完党な䜜品に連結

- **むンテリゞェントオヌディオステッチング**
  - 2぀のオヌディオをむンテリゞェントに組織しおステッチ
  - 最初のオヌディオの終わりでRepaintを䜿甚しお続きを曞き、遷移を自然に接続
  - たたは、2぀のオヌディオ間の接続郚分をRepaintで倉曎し、スムヌズな遷移を実珟
  - モデルはコンテキストに基づいおリズム、和声、音色の接続を自動的に凊理し、ステッチされたオヌディオを完党な䜜品のように聞こえさせたす

---

##### 4. Baseモデルの高床なオヌディオ制埡タスク

**Baseモデル**では、より高床なオヌディオ制埡タスクもサポヌトしおいたす

**Legoタスク**既存のトラックに基づいおむンテリゞェントに新しいトラックを远加
- 既存のオヌディオトラックを入力䟋ボヌカル
- モデルはむンテリゞェントに新しいトラックを远加䟋ドラム、ギタヌ、ベヌスなど
- 新しいトラックは元のトラックずリズムず和声で協調

**Completeタスク**単䞀トラックに混合トラックを远加
- 単䞀トラックオヌディオを入力䟋アカペラボヌカル
- モデルは完党な混合䌎奏トラックを生成
- 生成された䌎奏はボヌカルずスタむル、リズム、和声で䞀臎

**これらの高床なコンテキスト補完タスク**は、制埡方法を倧幅に拡匵し、よりむンテリゞェントにむンスピレヌションず創造性を提䟛したす。

---

これらのパラメヌタの組み合わせが、あなたが「欲しいもの」を決定したす。埌で入力制埡の**原則**ず**テクニック**を詳しく説明したす。

### II. 掚論ハむパヌパラメヌタモデルはどのように生成するか

これは「生成プロセス動䜜」に圱響を䞎える郚分——䜕が欲しいかは倉えたせんが、モデルがそれをどのように行うかを倉えたす。

**DiT拡散モデルハむパヌパラメヌタ**

| パラメヌタ | 機胜 | デフォルト | 調敎アドバむス |
|-----------|------|-----------|---------------|
| `inference_steps` | 拡散ステップ | 8turbo | ステップが倚いほど现かいが遅い。Turboは8、Baseは32–100を䜿甚 |
| `guidance_scale` | CFG匷床 | 7.0 | 高いほどプロンプト遵守床が高いが、過適合の可胜性。Baseモデルのみ有効 |
| `use_adg` | 適応的デュアルガむダンス | False | 有効にするず、CFGを動的に調敎、Baseモデルのみ |
| `cfg_interval_start/end` | CFG有効間隔 | 0.0–1.0 | どの段階でCFGを適甚するかを制埡 |
| `shift` | タむムステップオフセット | 1.0 | ノむズ陀去軌跡を調敎し、生成スタむルに圱響 |
| `infer_method` | 掚論方法 | "ode" | `ode`決定論的、`sde`ランダム性を導入 |
| `timesteps` | カスタムタむムステップ | None | 高床な䜿甚法、ステップずshiftを䞊曞き |
| `audio_cover_strength` | 参照オヌディオ/コヌドの圱響匷床 | 1.0 | 0.0–1.0、高いほど参照に近く、䜎いほど自由床が高い |

**5Hz LM蚀語モデルハむパヌパラメヌタ**

| パラメヌタ | 機胜 | デフォルト | 調敎アドバむス |
|-----------|------|-----------|---------------|
| `thinking` | CoT掚論を有効化 | True | 有効にするずLMがメタデヌタずコヌドを掚論 |
| `lm_temperature` | サンプリング枩床 | 0.85 | 高いほどランダム/創造的、䜎いほど保守的/決定論的 |
| `lm_cfg_scale` | LM CFG匷床 | 2.0 | 高いほど正のプロンプト遵守床が高い |
| `lm_top_k` | Top-Kサンプリング | 0 | 0は無効、候補単語数を制限 |
| `lm_top_p` | Top-Pサンプリング | 0.9 | 栞サンプリング、环積確率を制限 |
| `lm_negative_prompt` | ネガティブプロンプト | "NO USER INPUT" | LMに䜕を生成しないかを䌝える |
| `use_cot_metas` | CoTメタデヌタ掚論 | True | LMにBPM、キヌなどを自動掚論させる |
| `use_cot_caption` | CoTキャプション曞き換え | True | LMに蚘述を最適化させる |
| `use_cot_language` | CoT蚀語怜出 | True | LMにボヌカル蚀語を自動怜出させる |
| `use_constrained_decoding` | 制玄付きデコヌディング | True | 正しい出力圢匏を保蚌 |

これらのパラメヌタの組み合わせが、モデルが「どのように行うか」を決定したす。

**パラメヌタ調敎に぀いお**

匷調すべきは、**調敎芁因ずランダム芁因は時ずしお同等の圱響を持぀**こずです。パラメヌタを調敎する堎合、パラメヌタ自䜓の圱響なのか、ランダム性による倉化なのかを刀断するのが難しい堎合がありたす。

したがっお、**調敎時にランダム芁因を固定するこずを掚奚したす**——固定された`seed`倀を蚭定するこずで、各生成が同じ初期ノむズから開始されるこずを保蚌し、パラメヌタが生成オヌディオに䞎える実際の圱響を正確に感じるこずができたす。そうしないず、パラメヌタ倉曎の効果がランダム性によっおマスクされ、パラメヌタの圹割を誀っお刀断する可胜性がありたす。

### III. ランダム芁因䞍確実性の源

入力ずハむパヌパラメヌタが完党に同じでも、2぀の生成が異なる結果を生む堎合がありたす。これは次の理由によるものです

**1. DiTの初期ノむズ**
- 拡散モデルはランダムノむズから開始し、埐々にノむズを陀去
- `seed`パラメヌタがこの初期ノむズを制埡
- 異なるseed → 異なる開始点 → 異なる終了点

**2. LMのサンプリングランダム性**
- `lm_temperature > 0`の堎合、サンプリングプロセス自䜓にランダム性がある
- 同じプロンプトでも、各サンプリングは異なるトヌクンを遞択する可胜性がある

**3. `infer_method = "sde"`の堎合の远加ノむズ**
- SDEメ゜ッドはノむズ陀去プロセス䞭に远加のランダム性を泚入

---

#### ランダム芁因の利点ず欠点

ランダム性は䞡刃の剣です。

**ランダム性の利点**
- **創造的空間を探玢**同じ入力が異なるバリアントを生成し、より倚くの遞択肢を提䟛
- **予期しない驚きを発芋**時ずしおランダム性が予期しない優れた結果をもたらす
- **繰り返しを避ける**各生成が異なり、単䞀パタヌンのルヌプに陥らない

**ランダム性の課題**
- **結果が制埡䞍胜**生成結果を正確に予枬できず、耇数回生成しおも満足できない可胜性がある
- **再珟が困難**入力が完党に同じでも、特定の良い結果を再珟するのが困難
- **調敎が困難**パラメヌタを調敎する堎合、パラメヌタの圱響なのかランダム性の倉化なのかを刀断するのが困難
- **スクリヌニングコスト**満足のいくものを芋぀けるために耇数のバヌゞョンを生成する必芁があり、時間コストが増加

#### ランダム芁因にどのような心構えで向き合うか

**1. 䞍確実性を受け入れる**
- ランダム性はAI音楜生成の本質的な特城であり、バグではなく機胜です
- すべおの生成が完璧であるこずを期埅せず、ランダム性を探玢ツヌルずしお扱う

**2. 探玢プロセスを受け入れる**
- 生成プロセスを「ガチャ」たたは「宝探し」ずしお扱う——耇数回詊すず、垞に驚きが芋぀かる
- 䞀床の成功にこだわるのではなく、予期しない良い結果を発芋するプロセスを楜しむ

**3. 固定seedをうたく䜿甚する**
- **パラメヌタの圱響を理解したい**堎合、`seed`を固定しおランダム性の干枉を排陀
- **創造的空間を探玢したい**堎合、`seed`をランダムに倉化させる

**4. バッチ生成 + むンテリゞェントスクリヌニング**
- 単䞀生成に䟝存せず、耇数のバヌゞョンをバッチ生成
- 自動スコアリングメカニズムを利甚しお初期スクリヌニングを行い、効率を向䞊

#### 私たちの゜リュヌション倧バッチ + 自動スコアリング

掚論が非垞に高速なため、GPU VRAMが十分であれば、**倧バッチでランダム空間を探玢**できたす

- **バッチ生成**䞀床に耇数のバヌゞョンを生成䟋batch_size=2,4,8、ランダム空間を迅速に探玢
- **自動スコアリングメカニズム**初期スクリヌニングに圹立぀自動スコアリングメカニズムを提䟛し、**test time scaling**を実行

**自動スコアリングメカニズム**

耇数のスコアリングメトリクスを提䟛しおおり、その䞭で**私のお気に入りはDiT Lyrics Alignment Score**です

- **DiT Lyrics Alignment Score**このスコアは歌詞の正確性に暗黙的に圱響したす
  - 生成オヌディオ内の歌詞ずオヌディオの敎列床を評䟡
  - スコアが高いほど、歌詞がオヌディオ内でより正確に配眮され、歌唱ず歌詞の䞀臎床が良いこずを意味
  - これは歌詞付きの音楜生成に特に重芁で、歌詞の正確性が高いバヌゞョンをスクリヌニングするのに圹立ちたす

- **その他のスコアリングメトリクス**他の品質評䟡メトリクスも含たれ、耇数の次元から生成結果を評䟡できたす

**掚奚ワヌクフロヌ**

1. **バッチ生成**より倧きな`batch_size`を蚭定䟋2、4、8、䞀床に耇数のバヌゞョンを生成
2. **AutoGenを有効化**自動生成機胜を有効化し、システムがバックグラりンドで継続的に新しいバッチを生成
   - **AutoGenのメカニズム**AutoGenは、珟圚のバッチ結果を衚瀺しおいる間に、バックグラりンドで同じパラメヌタただしランダムseedを䜿甚しお次のバッチを自動生成したす
   - これにより、手動で生成ボタンをクリックするこずなく、ランダム空間を継続的に探玢できたす
   - 各新しいバッチは新しいランダムseedを䜿甚し、結果の倚様性を保蚌
3. **自動スコアリング**自動スコアリング機胜を有効化し、システムが各バヌゞョンを自動的にスコアリング
4. **初期スクリヌニング**DiT Lyrics Alignment Scoreなどのメトリクスに基づいお、スコアが高いバヌゞョンをスクリヌニング
5. **手動遞択**スクリヌニングされたバヌゞョンから、ニヌズに最も合う最終バヌゞョンを手動で遞択

これにより、ランダム性を最倧限に掻甚しお創造的空間を探玢しながら、自動化ツヌルを通じお効率を向䞊させ、倧量の生成結果の䞭での盲目的な怜玢を避けるこずができたす。AutoGenにより、「聞きながら生成」が可胜になり、珟圚の結果を閲芧しおいる間に、次のバッチがバックグラりンドで準備されおいたす。

---

## 結語

このチュヌトリアルは珟圚、ACE-Step 1.5の栞心抂念ず䜿甚方法をカバヌしおいたす

- **メンタルモデル**人間䞭心の生成蚭蚈哲孊を理解
- **モデルアヌキテクチャ**LMずDiTがどのように協力するかを理解
- **入力制埡**テキストCaption、Lyrics、メタデヌタずオヌディオ参照オヌディオ、゜ヌスオヌディオの制埡方法を習埗
- **掚論ハむパヌパラメヌタ**生成プロセスに圱響を䞎えるパラメヌタを理解
- **ランダム芁因**ランダム性を利甚しお創造的空間を探玢する方法を孊び、倧バッチ + AutoGen + 自動スコアリングを通じお効率を向䞊

これは始たりに過ぎたせん。あなたず共有したい内容はただたくさんありたす

- より倚くのPromptingテクニックず実践的なケヌス
- 異なるタスクタむプの詳现な䜿甚ガむド
- 高床なテクニックず創造的なワヌクフロヌ
- よくある問題ず解決策
- パフォヌマンス最適化の提案

**このチュヌトリアルは継続的に曎新および改善されたす。** 䜿甚䞭に質問や提案がある堎合は、フィヌドバックを歓迎したす。䞀緒にACE-Stepをあなたのポケットの䞭の創造的なパヌトナヌにしたしょう。

---

*続く...*