Spaces:

ACE-Step
/

Ace-Step-v1.5

Running on A100

App Files Files Community

ChuxiJ commited on Dec 19, 2025

Commit

09e4f6f

1 Parent(s): 4166944

remove no use import

Browse files

Files changed (2) hide show

acestep/gradio_ui.py +105 -0
acestep/handler.py +42 -5

acestep/gradio_ui.py CHANGED Viewed

@@ -761,4 +761,109 @@ def setup_event_handlers(demo, handler, dataset_section, generation_section, res
         ],
         outputs=[generation_section["text2music_audio_code_string"]]
     )

         ],
         outputs=[generation_section["text2music_audio_code_string"]]
     )
+    # Update instruction and UI visibility based on task type
+    def update_instruction_ui(
+        task_type_value: str,
+        track_name_value: Optional[str],
+        complete_track_classes_value: list,
+        audio_codes_content: str = ""
+    ) -> tuple:
+        """Update instruction and UI visibility based on task type."""
+        instruction = handler.generate_instruction(
+            task_type=task_type_value,
+            track_name=track_name_value,
+            complete_track_classes=complete_track_classes_value
+        )
+        # Show track_name for lego and extract
+        track_name_visible = task_type_value in ["lego", "extract"]
+        # Show complete_track_classes for complete
+        complete_visible = task_type_value == "complete"
+        # Show audio_cover_strength for cover
+        audio_cover_strength_visible = task_type_value == "cover"
+        # Show audio_code_string for cover
+        audio_code_visible = task_type_value == "cover"
+        # Show repainting controls for repaint and lego
+        repainting_visible = task_type_value in ["repaint", "lego"]
+        # Show use_5hz_lm, lm_temperature for text2music
+        use_5hz_lm_visible = task_type_value == "text2music"
+        # Show text2music_audio_codes if task is text2music OR if it has content
+        # This allows it to stay visible even if user switches task type but has codes
+        has_audio_codes = audio_codes_content and str(audio_codes_content).strip()
+        text2music_audio_codes_visible = task_type_value == "text2music" or has_audio_codes
+        return (
+            instruction,  # instruction_display_gen
+            gr.update(visible=track_name_visible),  # track_name
+            gr.update(visible=complete_visible),  # complete_track_classes
+            gr.update(visible=audio_cover_strength_visible),  # audio_cover_strength
+            gr.update(visible=repainting_visible),  # repainting_group
+            gr.update(visible=audio_code_visible),  # audio_code_string
+            gr.update(visible=use_5hz_lm_visible),  # use_5hz_lm_row
+            gr.update(visible=text2music_audio_codes_visible),  # text2music_audio_codes_group
+        )
+    # Bind update_instruction_ui to task_type, track_name, and complete_track_classes changes
+    generation_section["task_type"].change(
+        fn=update_instruction_ui,
+        inputs=[
+            generation_section["task_type"],
+            generation_section["track_name"],
+            generation_section["complete_track_classes"],
+            generation_section["text2music_audio_code_string"]
+        ],
+        outputs=[
+            generation_section["instruction_display_gen"],
+            generation_section["track_name"],
+            generation_section["complete_track_classes"],
+            generation_section["audio_cover_strength"],
+            generation_section["repainting_group"],
+            generation_section["audio_code_string"],
+            generation_section["use_5hz_lm_row"],
+            generation_section["text2music_audio_codes_group"],
+        ]
+    )
+    # Also update instruction when track_name changes (for lego/extract tasks)
+    generation_section["track_name"].change(
+        fn=update_instruction_ui,
+        inputs=[
+            generation_section["task_type"],
+            generation_section["track_name"],
+            generation_section["complete_track_classes"],
+            generation_section["text2music_audio_code_string"]
+        ],
+        outputs=[
+            generation_section["instruction_display_gen"],
+            generation_section["track_name"],
+            generation_section["complete_track_classes"],
+            generation_section["audio_cover_strength"],
+            generation_section["repainting_group"],
+            generation_section["audio_code_string"],
+            generation_section["use_5hz_lm_row"],
+            generation_section["text2music_audio_codes_group"],
+        ]
+    )
+    # Also update instruction when complete_track_classes changes (for complete task)
+    generation_section["complete_track_classes"].change(
+        fn=update_instruction_ui,
+        inputs=[
+            generation_section["task_type"],
+            generation_section["track_name"],
+            generation_section["complete_track_classes"],
+            generation_section["text2music_audio_code_string"]
+        ],
+        outputs=[
+            generation_section["instruction_display_gen"],
+            generation_section["track_name"],
+            generation_section["complete_track_classes"],
+            generation_section["audio_cover_strength"],
+            generation_section["repainting_group"],
+            generation_section["audio_code_string"],
+            generation_section["use_5hz_lm_row"],
+            generation_section["text2music_audio_codes_group"],
+        ]
+    )

acestep/handler.py CHANGED Viewed

@@ -4,7 +4,6 @@ Encapsulates all data processing and business logic as a bridge between model an
 """
 import os
 import math
-import glob
 import tempfile
 import traceback
 import re
@@ -12,10 +11,6 @@ import random
 from typing import Optional, Dict, Any, Tuple, List, Union
 import torch
-import torch.nn.functional as F
-import matplotlib.pyplot as plt
-import numpy as np
-import scipy.io.wavfile as wavfile
 import torchaudio
 import soundfile as sf
 import time
@@ -666,6 +661,48 @@ class AceStepHandler:
     def is_silence(self, audio):
         return torch.all(audio.abs() < 1e-6)
     def process_reference_audio(self, audio_file) -> Optional[torch.Tensor]:
         if audio_file is None:

 """
 import os
 import math
 import tempfile
 import traceback
 import re
 from typing import Optional, Dict, Any, Tuple, List, Union
 import torch
 import torchaudio
 import soundfile as sf
 import time
     def is_silence(self, audio):
         return torch.all(audio.abs() < 1e-6)
+    def generate_instruction(
+        self,
+        task_type: str,
+        track_name: Optional[str] = None,
+        complete_track_classes: Optional[List[str]] = None
+    ) -> str:
+        TRACK_NAMES = [
+            "woodwinds", "brass", "fx", "synth", "strings", "percussion",
+            "keyboard", "guitar", "bass", "drums", "backing_vocals", "vocals"
+        ]
+        if task_type == "text2music":
+            return "Fill the audio semantic mask based on the given conditions:"
+        elif task_type == "repaint":
+            return "Repaint the mask area based on the given conditions:"
+        elif task_type == "cover":
+            return "Generate audio semantic tokens based on the given conditions:"
+        elif task_type == "extract":
+            if track_name:
+                # Convert to uppercase
+                track_name_upper = track_name.upper()
+                return f"Extract the {track_name_upper} track from the audio:"
+            else:
+                return "Extract the track from the audio:"
+        elif task_type == "lego":
+            if track_name:
+                # Convert to uppercase
+                track_name_upper = track_name.upper()
+                return f"Generate the {track_name_upper} track based on the audio context:"
+            else:
+                return "Generate the track based on the audio context:"
+        elif task_type == "complete":
+            if complete_track_classes and len(complete_track_classes) > 0:
+                # Convert to uppercase and join with " | "
+                track_classes_upper = [t.upper() for t in complete_track_classes]
+                complete_track_classes_str = " | ".join(track_classes_upper)
+                return f"Complete the input track with {complete_track_classes_str}:"
+            else:
+                return "Complete the input track:"
+        else:
+            return "Fill the audio semantic mask based on the given conditions:"
     def process_reference_audio(self, audio_file) -> Optional[torch.Tensor]:
         if audio_file is None: