Spaces:

ankandrew
/

CLAP

Running

ankandrew commited on 18 days ago

Commit

d9007e6

verified ·

1 Parent(s): 819ed59

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,7 +31,7 @@ def embed_audio(path):
     audio = load_audio(path)
     inputs = processor(
-        audio=audio,
         sampling_rate=TARGET_SR,
         return_tensors="pt",
         padding=True,
@@ -40,11 +40,15 @@ def embed_audio(path):
     inputs = {k: v.to(device) for k, v in inputs.items()}
     with torch.no_grad():
-        embedding = model.get_audio_features(**inputs)
     embedding = embedding.detach().cpu().numpy().astype(np.float32)[0]
-    # Normalize for cosine similarity
     norm = np.linalg.norm(embedding)
     if norm == 0:
         return embedding

     audio = load_audio(path)
     inputs = processor(
+        audios=audio,
         sampling_rate=TARGET_SR,
         return_tensors="pt",
         padding=True,
     inputs = {k: v.to(device) for k, v in inputs.items()}
     with torch.no_grad():
+        output = model.get_audio_features(**inputs)
+    if hasattr(output, "pooler_output"):
+        embedding = output.pooler_output
+    else:
+        embedding = output
     embedding = embedding.detach().cpu().numpy().astype(np.float32)[0]
     norm = np.linalg.norm(embedding)
     if norm == 0:
         return embedding