Spaces:

ken123777
/

music-gen

Paused

App Files Files Community

ken123777 commited on Dec 15, 2025

Commit

7fc5540

verified ·

1 Parent(s): 7b7fddd

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -50

app.py CHANGED Viewed

@@ -4,9 +4,8 @@ import torch
 import librosa
 import numpy as np
 import scipy.io.wavfile
-import os
-# 1. 모델 설정
 MODEL_ID = "facebook/musicgen-melody"
 print(f"Loading Model: {MODEL_ID}...")
@@ -21,66 +20,47 @@ model.to(device)
 print(f"Model loaded on {device}")
 def generate(text, audio_path, duration, guidance_scale, top_k):
-    print(f"\n--- [DEBUG] Generate Start ---")
     # 오디오 로드 (Librosa 사용)
-    # Processor에 파일 경로를 바로 줘도 되지만, Librosa로 읽어서 넘기는 게 더 안전함 (포맷 이슈 방지)
     audio = None
     sampling_rate = 32000 # MusicGen 기본 SR
     if audio_path:
         try:
-            # 1. 로드
             y, sr = librosa.load(audio_path, sr=sampling_rate, mono=True)
-            print(f"[DEBUG] Audio Loaded: Shape={y.shape}, SR={sr}")
             audio = y
         except Exception as e:
-            print(f"[ERROR] Audio Load Failed: {e}")
-    # 2. 통합 전처리 (Processor에게 위임)
-    # 4.40.2에서는 text와 audio를 동시에 넣어도 잘 처리합니다.
-    try:
-        if audio is not None:
-            print("[DEBUG] Processing Text + Audio...")
-            inputs = processor(
-                text=[text],
-                audio=[audio], # 리스트로 감싸서 전달
-                sampling_rate=sampling_rate,
-                padding=True,
-                return_tensors="pt",
-            ).to(device)
-            print(f"[DEBUG] Inputs keys: {inputs.keys()}") # input_ids, attention_mask, input_features가 있어야 함
-        else:
-            print("[DEBUG] Processing Text Only...")
-            inputs = processor(
-                text=[text],
-                padding=True,
-                return_tensors="pt",
-            ).to(device)
-    except Exception as e:
-        print(f"[FATAL ERROR] Processor Failed: {e}")
-        raise e
     max_new_tokens = int(duration * 50)
-    # 3. 생성
-    try:
-        print("[DEBUG] Generating...")
-        # inputs 딕셔너리를 통째로 넘김 (**inputs)
-        # 이제 인자 이름 걱정할 필요 없음 (Processor가 알아서 맞춰줌)
-        audio_values = model.generate(
-            **inputs,
-            max_new_tokens=max_new_tokens,
-            guidance_scale=guidance_scale,
-            do_sample=True,
-            top_k=top_k,
-        )
-    except Exception as e:
-        print(f"[FATAL ERROR] Generation Failed: {e}")
-        raise e
-    # 4. 저장
     sampling_rate = model.config.audio_encoder.sampling_rate
     audio_data = audio_values[0, 0].cpu().numpy()
@@ -91,10 +71,9 @@ def generate(text, audio_path, duration, guidance_scale, top_k):
     output_path = "output.wav"
     scipy.io.wavfile.write(output_path, rate=sampling_rate, data=audio_data)
-    print(f"--- [DEBUG] Generate Complete ---")
     return output_path
-# UI 구성 (그대로)
 with gr.Blocks(title="나만의 MusicGen 서버") as demo:
     gr.Markdown("# 🎵 나만의 AI 작곡가 (MusicGen - Melody Mode)")

 import librosa
 import numpy as np
 import scipy.io.wavfile
+# 모델 설정
 MODEL_ID = "facebook/musicgen-melody"
 print(f"Loading Model: {MODEL_ID}...")
 print(f"Model loaded on {device}")
 def generate(text, audio_path, duration, guidance_scale, top_k):
     # 오디오 로드 (Librosa 사용)
     audio = None
     sampling_rate = 32000 # MusicGen 기본 SR
     if audio_path:
         try:
+            # 로드
             y, sr = librosa.load(audio_path, sr=sampling_rate, mono=True)
             audio = y
         except Exception as e:
+            print(f"Audio Load Failed: {e}")
+            pass
+    # 통합 전처리 (Processor에게 위임)
+    if audio is not None:
+        inputs = processor(
+            text=[text],
+            audio=[audio],
+            sampling_rate=sampling_rate,
+            padding=True,
+            return_tensors="pt",
+        ).to(device)
+    else:
+        inputs = processor(
+            text=[text],
+            padding=True,
+            return_tensors="pt",
+        ).to(device)
     max_new_tokens = int(duration * 50)
+    # 생성
+    audio_values = model.generate(
+        **inputs,
+        max_new_tokens=max_new_tokens,
+        guidance_scale=guidance_scale,
+        do_sample=True,
+        top_k=top_k,
+    )
+    # 저장
     sampling_rate = model.config.audio_encoder.sampling_rate
     audio_data = audio_values[0, 0].cpu().numpy()
     output_path = "output.wav"
     scipy.io.wavfile.write(output_path, rate=sampling_rate, data=audio_data)
     return output_path
+# UI 구성
 with gr.Blocks(title="나만의 MusicGen 서버") as demo:
     gr.Markdown("# 🎵 나만의 AI 작곡가 (MusicGen - Melody Mode)")