Spaces:

Fred808
/

Botpy-808

Paused

Fred808 commited on Jan 30, 2025

Commit

b4e27c2

verified ·

1 Parent(s): a3a5240

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,17 +1,19 @@
 from fastapi import FastAPI, HTTPException, Response
 from pydantic import BaseModel
-from transformers import AutoTokenizer, AutoModelForTextToWaveform
 import torch
-from scipy.io.wavfile import write
 import numpy as np
 import io
 app = FastAPI()
-# Load model and tokenizer
-model_name = "facebook/musicgen-medium"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForTextToWaveform.from_pretrained(model_name, attn_implementation="eager")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
@@ -24,15 +26,18 @@ def generate_music(request: MusicRequest):
     try:
         inputs = tokenizer(request.prompt, return_tensors="pt").to(device)
         with torch.no_grad():
-            audio_values = model.generate(**inputs)
-        sampling_rate = model.config.sampling_rate
-        audio_values = audio_values.cpu().numpy().squeeze()
-        # Normalize audio values to fit int16 range
         audio_values = np.clip(audio_values * 32767, -32768, 32767).astype(np.int16)
-        # Convert audio to bytes
         audio_bytes = io.BytesIO()
         write(audio_bytes, sampling_rate, audio_values)
         audio_bytes.seek(0)
@@ -43,4 +48,4 @@ def generate_music(request: MusicRequest):
 @app.get("/")
 def root():
-    return {"message": "Welcome to the Music Generation API"}

 from fastapi import FastAPI, HTTPException, Response
 from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModel
 import torch
 import numpy as np
 import io
+from scipy.io.wavfile import write
+from PIL import Image
+import riffusion
 app = FastAPI()
+# Load Riffusion model
+model_name = "riffusion/riffusion-model-v1"
+model = AutoModel.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
     try:
         inputs = tokenizer(request.prompt, return_tensors="pt").to(device)
         with torch.no_grad():
+            spectrogram = model.generate(**inputs)
+        # Convert spectrogram to an image (since Riffusion outputs spectrograms)
+        spectrogram_image = Image.fromarray((spectrogram.cpu().numpy().squeeze() * 255).astype(np.uint8))
+        # Convert spectrogram to audio
+        audio_values, sampling_rate = riffusion.audio_processing.spectrogram_to_audio(spectrogram_image)
+        # Normalize and convert to int16
         audio_values = np.clip(audio_values * 32767, -32768, 32767).astype(np.int16)
+        # Convert to WAV format
         audio_bytes = io.BytesIO()
         write(audio_bytes, sampling_rate, audio_values)
         audio_bytes.seek(0)
 @app.get("/")
 def root():
+    return {"message": "Welcome to the Riffusion Music Generation API"}