rbiojout
/

whisperX-endpoint

Model card Files Files and versions

xet

Community

raphaelbiojout commited on Nov 23, 2023

Commit

c2bb0db

1 Parent(s): 41738b8

update

Browse files

Files changed (1) hide show

handler.py +47 -12

handler.py CHANGED Viewed

@@ -162,10 +162,10 @@ def display_gpu_infos():
     if not torch.cuda.is_available():
         return "NO CUDA"
-    infos = "torch.cuda.current_device(): " + str(torch.cuda.current_device()) + "\n"
-    infos = infos + "torch.cuda.device(0): " +  str(torch.cuda.device(0)) + "\n"
-    infos = infos + "torch.cuda.device_count(): " + str(torch.cuda.device_count()) + "\n"
-    infos = infos + "torch.cuda.get_device_name(0): " + str(torch.cuda.get_device_name(0)) + "\n"
     return infos
 class EndpointHandler():
@@ -192,8 +192,13 @@ class EndpointHandler():
             Return:
                 A :obj:`dict`:. base64 encoded image
             """
-            logger.info("--------------- CUDA ------------------------")
             logger.info(display_gpu_infos())
             # 1. process input
@@ -227,18 +232,36 @@ class EndpointHandler():
             # audio_nparray = ffmpeg_read(inputs, SAMPLE_RATE)
             # audio_tensor= torch.from_numpy(audio_nparray)
             # 2. transcribe
-            device, batch_size, compute_type, whisper_model = whisper_config()
             logger.info("--------------- STARTING TRANSCRIPTION ------------------------")
-            logger.info(f"device: {device}, batch_size: {batch_size}, compute_type:{compute_type}, whisper_model: {whisper_model}")
             transcription = self.model.transcribe(audio_nparray, batch_size=batch_size,language=language)
             if info:
                 print(transcription["segments"][0:10000]) # before alignment
             logger.info(transcription["segments"][0:10000])
-            if len(transcription["segments"]) == 0:
                 logger.warning("No transcription")
                 return {"transcription": transcription["segments"]}
             # 3. align
             if alignment:
                 logger.info("--------------- STARTING ALIGNMENT ------------------------")
@@ -249,6 +272,14 @@ class EndpointHandler():
                 if info:
                     print(transcription["segments"][0:10000])
                 logger.info(transcription["segments"][0:10000])
             # 4. Assign speaker labels
             logger.info("--------------- STARTING DIARIZATION ------------------------")
@@ -263,11 +294,15 @@ class EndpointHandler():
             if info:
                 print(transcription["segments"][0:10000])
             logger.info(transcription["segments"][0:10000])  # segments are now assigned speaker IDs
-            if torch.cuda.is_available():
-                logger.info("--------------- GPU AFTER ------------------------")
-                logger.info(display_gpu_infos())
             # results_json = json.dumps(results)
             # return {"results": results_json}
             return {"transcription": transcription["segments"]}

     if not torch.cuda.is_available():
         return "NO CUDA"
+    infos = "torch.cuda.current_device(): " + str(torch.cuda.current_device()) + ", "
+    infos = infos + "torch.cuda.device(0): " +  str(torch.cuda.device(0)) + ", "
+    infos = infos + "torch.cuda.device_count(): " + str(torch.cuda.device_count()) + ", "
+    infos = infos + "torch.cuda.get_device_name(0): " + str(torch.cuda.get_device_name(0))
     return infos
 class EndpointHandler():
             Return:
                 A :obj:`dict`:. base64 encoded image
             """
+            # get the start time
+            st = time.time()
+            logger.info("--------------- CONFIGURATION ------------------------")
+            device, batch_size, compute_type, whisper_model = whisper_config()
+            logger.info(f"device: {device}, batch_size: {batch_size}, compute_type:{compute_type}, whisper_model: {whisper_model}")
             logger.info(display_gpu_infos())
             # 1. process input
             # audio_nparray = ffmpeg_read(inputs, SAMPLE_RATE)
             # audio_tensor= torch.from_numpy(audio_nparray)
+            # get the end time
+            et = time.time()
+            # get the execution time
+            elapsed_time = et - st
+            logger.info(f"TIME for audio processing : {elapsed_time:.2f} seconds")
+            if info:
+                print(f"TIME for audio processing : {elapsed_time:.2f} seconds")
             # 2. transcribe
             logger.info("--------------- STARTING TRANSCRIPTION ------------------------")
             transcription = self.model.transcribe(audio_nparray, batch_size=batch_size,language=language)
             if info:
                 print(transcription["segments"][0:10000]) # before alignment
             logger.info(transcription["segments"][0:10000])
+            try:
+                first_text = transcription["segments"][0]["text"]
+            except:
                 logger.warning("No transcription")
                 return {"transcription": transcription["segments"]}
+            # get the execution time
+            et = time.time()
+            elapsed_time = et - st
+            st = time.time()
+            logger.info(f"TIME for audio transcription : {elapsed_time:.2f} seconds")
+            if info:
+                print(f"TIME for audio transcription : {elapsed_time:.2f} seconds")
             # 3. align
             if alignment:
                 logger.info("--------------- STARTING ALIGNMENT ------------------------")
                 if info:
                     print(transcription["segments"][0:10000])
                 logger.info(transcription["segments"][0:10000])
+                # get the execution time
+                et = time.time()
+                elapsed_time = et - st
+                st = time.time()
+                logger.info(f"TIME for alignment : {elapsed_time:.2f} seconds")
+                if info:
+                    print(f"TIME for alignment : {elapsed_time:.2f} seconds")
             # 4. Assign speaker labels
             logger.info("--------------- STARTING DIARIZATION ------------------------")
             if info:
                 print(transcription["segments"][0:10000])
             logger.info(transcription["segments"][0:10000])  # segments are now assigned speaker IDs
+            # get the execution time
+            et = time.time()
+            elapsed_time = et - st
+            st = time.time()
+            logger.info(f"TIME for audio diarization : {elapsed_time:.2f} seconds")
+            if info:
+                print(f"TIME for audio diarization : {elapsed_time:.2f} seconds")
             # results_json = json.dumps(results)
             # return {"results": results_json}
             return {"transcription": transcription["segments"]}