Spaces:

ignitariumcloud
/

IAB_VIDEO_AD_CLASSIFIER

Runtime error

App Files Files Community

arjunanand13 commited on Apr 25, 2024

Commit

f10dfdc

verified ·

1 Parent(s): e9cb65b

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -2

app.py CHANGED Viewed

@@ -22,7 +22,7 @@ import shutil
 from PIL import Image
 import google.generativeai as genai
 from huggingface_hub import InferenceClient
 class VideoClassifier:
     global audio_time , setup_time , caption_time , classification_time
@@ -45,6 +45,7 @@ class VideoClassifier:
             self.setup_gemini_model()
         self.setup_paths()
         self.hf_key = os.environ.get("HF_KEY", None)
         # self.whisper_model = whisper.load_model("base")
     def setup_paths(self):
@@ -164,6 +165,29 @@ class VideoClassifier:
         task="transcribe"
         result = pipe(audiotrack, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)
         return result["text"]
     def generate_text(self, inputs, parameters=None):
         if parameters is None:
@@ -178,7 +202,8 @@ class VideoClassifier:
     def classify_video(self,video_input):
         global classification_time , caption_time
-        transcript=self.audio_extraction_space(video_input)
         start_time_caption = time.time()
         video = cv2.VideoCapture(video_input)
         length = int(video.get(cv2.CAP_PROP_FRAME_COUNT))

 from PIL import Image
 import google.generativeai as genai
 from huggingface_hub import InferenceClient
+from openai import OpenAI
 class VideoClassifier:
     global audio_time , setup_time , caption_time , classification_time
             self.setup_gemini_model()
         self.setup_paths()
         self.hf_key = os.environ.get("HF_KEY", None)
+        self.client = OpenAI(api_key="sk-proj-KY1qI7zTpsUiJhMUHuNdT3BlbkFJLOjVnTUSpYJi87yUtSEI")
         # self.whisper_model = whisper.load_model("base")
     def setup_paths(self):
         task="transcribe"
         result = pipe(audiotrack, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)
         return result["text"]
+    def audio_extraction_chatgptapi(self,video_input):
+        """For cpu inference , we use this function for faster api calling inference"""
+        global audio_time
+        start_time_audio = time.time()
+        print(f"Processing video: {video_input} with {self.no_of_frames} frames.")
+        mp4_file = video_input
+        video_name = mp4_file.split("/")[-1]
+        wav_file = "results/audiotrack.wav"
+        video_clip = VideoFileClip(mp4_file)
+        audioclip = video_clip.audio
+        wav_file = audioclip.write_audiofile(wav_file)
+        audioclip.close()
+        video_clip.close()
+        audiotrack = "results/audiotrack.wav"
+        # client = OpenAI(api_key="sk-proj-KY1qI7zTpsUiJhMUHuNdT3BlbkFJLOjVnTUSpYJi87yUtSEI")
+        # audiotrack= open("audiotrack.wav", "rb")
+        transcription = client.audio.transcriptions.create(
+          model="whisper-1",
+          file=audiotrack
+        )
+        print(transcription.text)
+        return transcription.text
     def generate_text(self, inputs, parameters=None):
         if parameters is None:
     def classify_video(self,video_input):
         global classification_time , caption_time
+        # transcript=self.audio_extraction_space(video_input)
+        transcript=self.audio_extraction_chatgptapi(video_input)
         start_time_caption = time.time()
         video = cv2.VideoCapture(video_input)
         length = int(video.get(cv2.CAP_PROP_FRAME_COUNT))