Spaces:

onlycaps
/

audio_palette

Sleeping

manasch commited on Nov 29, 2023

Commit

beb58d8

verified ·

1 Parent(s): 06e1912

update prompt

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,6 +18,11 @@ class AudioPalette:
         self.pace_model = PaceModel(height, width, channels, resnet50_tf_model_weights_path, pace_model_weights_path)
         self.image_captioning = ImageCaptioning()
         self.audio_generation = AudioGeneration()
     def generate(self, input_image: PIL.Image.Image, ngrok_endpoint: str):
         pace = self.pace_model.predict(input_image)
@@ -27,7 +32,8 @@ class AudioPalette:
         print("Captioning Done")
         generated_text = generated_text if generated_text is not None else ""
-        prompt = f"Generate a soundtrack for {generated_text} with {pace} beats and the instrument of choice is the guitar, High quality"
         audio_file = self.audio_generation.generate(prompt, ngrok_endpoint)
         print("Audio Generation Done")

         self.pace_model = PaceModel(height, width, channels, resnet50_tf_model_weights_path, pace_model_weights_path)
         self.image_captioning = ImageCaptioning()
         self.audio_generation = AudioGeneration()
+        self.pace_map = {
+            "Fast": "high",
+            "Medium": "medium",
+            "Slow": "low"
+        }
     def generate(self, input_image: PIL.Image.Image, ngrok_endpoint: str):
         pace = self.pace_model.predict(input_image)
         print("Captioning Done")
         generated_text = generated_text if generated_text is not None else ""
+        # prompt = f"Generate a soundtrack for {generated_text} with {pace} beats and the instrument of choice is the guitar, High quality"
+        prompt = f"A soundtrack for {generated_text} with {self.pace_map[pace]} beats per minute. High quality."
         audio_file = self.audio_generation.generate(prompt, ngrok_endpoint)
         print("Audio Generation Done")