Spaces:

EvalBot
/

Audio-EvalBot

Sleeping

App Files Files Community

norhan12 commited on Jun 13, 2025

Commit

afeb72f

verified ·

1 Parent(s): e09ddd4

Update process_interview.py

Browse files

Files changed (1) hide show

process_interview.py +26 -19

process_interview.py CHANGED Viewed

@@ -35,12 +35,14 @@ import google.generativeai as genai
 import joblib
 from concurrent.futures import ThreadPoolExecutor
 from reportlab.lib.enums import TA_CENTER, TA_LEFT, TA_RIGHT
 # Setup logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 logging.getLogger("nemo_logging").setLevel(logging.ERROR)
 logging.getLogger("nemo").setLevel(logging.ERROR)
 # Configuration
 AUDIO_DIR = "./uploads"
 OUTPUT_DIR = "./processed_audio"
@@ -112,17 +114,24 @@ def load_models():
 speaker_model, nlp, tokenizer, llm_model = load_models()
-# Audio processing functions
-def convert_to_wav(audio_path: str, output_dir: str = OUTPUT_DIR) -> str:
     try:
-        audio = AudioSegment.from_file(audio_path)
-        if audio.channels > 1:
-            audio = audio.set_channels(1)
-        audio = audio.set_frame_rate(16000)
-        wav_file = os.path.join(output_dir, f"{uuid.uuid4()}.wav")
-        audio.export(wav_file, format="wav")
-        return wav_file
     except Exception as e:
         logger.error(f"Audio conversion failed: {str(e)}")
         raise
@@ -1032,7 +1041,6 @@ def create_pdf_report(analysis_data: Dict, output_path: str, gemini_report_text:
         logger.error(f"PDF generation failed: {str(e)}", exc_info=True)
         return False
 def convert_to_serializable(obj):
     if isinstance(obj, np.generic):
         return obj.item()
@@ -1044,7 +1052,6 @@ def convert_to_serializable(obj):
         return obj.tolist()
     return obj
 def process_interview(audio_path: str):
     try:
         logger.info(f"Starting processing for {audio_path}")
@@ -1053,6 +1060,12 @@ def process_interview(audio_path: str):
         logger.info("Starting transcription")
         transcript = transcribe(wav_file)
         logger.info("Extracting prosodic features")
         for utterance in transcript['utterances']:
@@ -1066,9 +1079,6 @@ def process_interview(audio_path: str):
         utterances_with_speakers = identify_speakers(transcript, wav_file)
         logger.info("Classifying roles")
-        # Ensure role classifier models are loaded/trained only once if possible,
-        # or handled carefully in a multi-threaded context.
-        # For simplicity, keeping it inside process_interview for now.
         if os.path.exists(os.path.join(OUTPUT_DIR, 'role_classifier.pkl')):
             clf = joblib.load(os.path.join(OUTPUT_DIR, 'role_classifier.pkl'))
             vectorizer = joblib.load(os.path.join(OUTPUT_DIR, 'text_vectorizer.pkl'))
@@ -1091,10 +1101,8 @@ def process_interview(audio_path: str):
             }
         }
-        # --- Calculate Acceptance Probability ---
         acceptance_probability = calculate_acceptance_probability(analysis_data)
         analysis_data['acceptance_probability'] = acceptance_probability
-        # --- End Acceptance Probability ---
         logger.info("Generating report text using Gemini")
         gemini_report_text = generate_report(analysis_data)
@@ -1108,7 +1116,7 @@ def process_interview(audio_path: str):
             serializable_data = convert_to_serializable(analysis_data)
             json.dump(serializable_data, f, indent=2)
-        os.remove(wav_file)  # Clean up WAV file after processing
         logger.info(f"Processing completed for {audio_path}")
         return {
@@ -1117,7 +1125,6 @@ def process_interview(audio_path: str):
         }
     except Exception as e:
         logger.error(f"Processing failed: {str(e)}", exc_info=True)
-        # Clean up wav_file in case of error
         if 'wav_file' in locals() and os.path.exists(wav_file):
             os.remove(wav_file)
-        raise

 import joblib
 from concurrent.futures import ThreadPoolExecutor
 from reportlab.lib.enums import TA_CENTER, TA_LEFT, TA_RIGHT
+import subprocess
 # Setup logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 logging.getLogger("nemo_logging").setLevel(logging.ERROR)
 logging.getLogger("nemo").setLevel(logging.ERROR)
 # Configuration
 AUDIO_DIR = "./uploads"
 OUTPUT_DIR = "./processed_audio"
 speaker_model, nlp, tokenizer, llm_model = load_models()
+def convert_to_wav(input_path: str, output_dir: str = OUTPUT_DIR) -> str:
     try:
+        os.makedirs(output_dir, exist_ok=True)
+        output_path = os.path.join(output_dir, f"{uuid.uuid4()}.wav")
+        command = [
+            'ffmpeg', '-y',
+            '-i', input_path,
+            '-vn',  # ignore video stream completely
+            '-acodec', 'pcm_s16le',
+            '-ar', '16000',
+            '-ac', '1',
+            output_path
+        ]
+        subprocess.run(command, check=True)
+        size_in_mb = os.path.getsize(output_path) / (1024*1024)
+        logger.info(f"WAV file size: {size_in_mb:.2f} MB")
+        return output_path
     except Exception as e:
         logger.error(f"Audio conversion failed: {str(e)}")
         raise
         logger.error(f"PDF generation failed: {str(e)}", exc_info=True)
         return False
 def convert_to_serializable(obj):
     if isinstance(obj, np.generic):
         return obj.item()
         return obj.tolist()
     return obj
 def process_interview(audio_path: str):
     try:
         logger.info(f"Starting processing for {audio_path}")
         logger.info("Starting transcription")
         transcript = transcribe(wav_file)
+        logger.info("Transcript result: %s", transcript)
+        # Check transcript validity
+        if not transcript or 'utterances' not in transcript or not transcript['utterances']:
+            logger.error("Transcription failed or returned empty utterances")
+            raise ValueError("Transcription failed or returned empty utterances")
         logger.info("Extracting prosodic features")
         for utterance in transcript['utterances']:
         utterances_with_speakers = identify_speakers(transcript, wav_file)
         logger.info("Classifying roles")
         if os.path.exists(os.path.join(OUTPUT_DIR, 'role_classifier.pkl')):
             clf = joblib.load(os.path.join(OUTPUT_DIR, 'role_classifier.pkl'))
             vectorizer = joblib.load(os.path.join(OUTPUT_DIR, 'text_vectorizer.pkl'))
             }
         }
         acceptance_probability = calculate_acceptance_probability(analysis_data)
         analysis_data['acceptance_probability'] = acceptance_probability
         logger.info("Generating report text using Gemini")
         gemini_report_text = generate_report(analysis_data)
             serializable_data = convert_to_serializable(analysis_data)
             json.dump(serializable_data, f, indent=2)
+        os.remove(wav_file)
         logger.info(f"Processing completed for {audio_path}")
         return {
         }
     except Exception as e:
         logger.error(f"Processing failed: {str(e)}", exc_info=True)
         if 'wav_file' in locals() and os.path.exists(wav_file):
             os.remove(wav_file)
+        raise