Spaces:

cdnf
/

VidTune

Sleeping

tensorsofthewall commited on Aug 11, 2024

Commit

ae68709

1 Parent(s): 9ed1e74

improved prompt for video description. Added continuous audio generation.

Files changed (2) hide show

engine/audio_generator.py CHANGED Viewed

@@ -70,8 +70,14 @@ class GenerateAudio:
         prompts = self.prompts_sanity_check(prompts)
         try:
-            self.model.set_generation_params(duration=duration)
-            result = self.model.generate(prompts, progress=False)
             self.result = result.cpu().numpy().T
             self.result = self.result.transpose((2, 0, 1))
             self.sampling_rate = self.model.sample_rate

         prompts = self.prompts_sanity_check(prompts)
         try:
+            if duration <= 30:
+                self.model.set_generation_params(duration=duration)
+                result = self.model.generate(prompts, progress=False)
+            elif duration > 30:
+                self.model.set_generation_params(duration=30)
+                result = self.model.generate(prompts, progress=False)
+                self.model.set_generation_params(duration=duration)
+                result = self.model.generate_with_chroma(prompts, result, melody_sample_rate=self.sampling_rate, progress=False)
             self.result = result.cpu().numpy().T
             self.result = self.result.transpose((2, 0, 1))
             self.sampling_rate = self.model.sample_rate

engine/video_descriptor.py CHANGED Viewed

@@ -47,7 +47,7 @@ class DescribeVideo:
         logging.info(f"Initialized DescribeVideo with model: {self.model}")
-    def describe_video(self, video_path):
         video_file = genai.upload_file(video_path)
         logging.info(f"Uploaded video: {video_path}")
@@ -58,9 +58,11 @@ class DescribeVideo:
         if video_file.state.name == "FAILED":
             logging.error(f"Failed to upload video: {video_file.state.name}")
             raise ValueError(f"Failed to upload video: {video_file.state.name}")
         response = self.mllm_model.generate_content(
-            [video_file, "Explain what is happening in this video"],
             request_options={"timeout": 600},
             safety_settings=self.safety_settings,
         )

         logging.info(f"Initialized DescribeVideo with model: {self.model}")
+    def describe_video(self, video_path, genre, bpm, user_keywords):
         video_file = genai.upload_file(video_path)
         logging.info(f"Uploaded video: {video_path}")
         if video_file.state.name == "FAILED":
             logging.error(f"Failed to upload video: {video_file.state.name}")
             raise ValueError(f"Failed to upload video: {video_file.state.name}")
+        additional_keywords = ", ".join([genre, user_keywords, bpm]) + "bpm"
         response = self.mllm_model.generate_content(
+            [video_file, f"Explain what is happening in this video. The following keywords are provided by the user for generating the music prompt: {additional_keywords}"],
             request_options={"timeout": 600},
             safety_settings=self.safety_settings,
         )