Spaces:

Coco-18
/

Kapamtalk

Sleeping

App Files Files Community

Coco-18 commited on Mar 29, 2025

Commit

203cc78

verified ·

1 Parent(s): 7c33098

Update evaluate.py

Browse files

Files changed (1) hide show

evaluate.py +23 -25

evaluate.py CHANGED Viewed

@@ -309,7 +309,7 @@ def handle_upload_reference(request, reference_dir, sample_rate):
         return jsonify({"error": f"Internal server error: {str(e)}"}), 500
 def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
-    """Handle pronunciation evaluation requests"""
     request_id = f"req-{id(request)}"  # Create unique ID for this request
     logger.info(f"[{request_id}] 🆕 Starting new pronunciation evaluation request")
@@ -415,18 +415,18 @@ def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
             logger.error(f"[{request_id}] ❌ ASR inference failed: {str(e)}")
             return jsonify({"error": f"ASR inference failed: {str(e)}"}), 500
-        # Process reference files in batches
-        batch_size = 2  # Process 2 files at a time - adjust based on your hardware
         results = []
-        best_score = 0
-        best_reference = None
-        best_transcription = None
         # Use this if you want to limit the number of files to process
-        max_files_to_check = min(5, len(reference_files))  # Check at most 5 files
         reference_files = reference_files[:max_files_to_check]
-        logger.info(f"[{request_id}] 🔄 Processing {len(reference_files)} reference files in batches of {batch_size}")
         # Function to process a single reference file
         def process_reference_file(ref_file):
@@ -472,22 +472,20 @@ def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
                     "error": str(e)
                 }
-        # Process files in batches using ThreadPoolExecutor
-        with ThreadPoolExecutor(max_workers=batch_size) as executor:
-            batch_results = list(executor.map(process_reference_file, reference_files))
-            results.extend(batch_results)
-            # Find the best result
-            for result in batch_results:
-                if result["similarity_score"] > best_score:
-                    best_score = result["similarity_score"]
-                    best_reference = result["reference_file"]
-                    best_transcription = result["reference_text"]
-                    # Exit early if we found a very good match (optional)
-                    if best_score > 80.0:
-                        logger.info(f"[{request_id}] 🏁 Found excellent match: {best_score:.2f}%")
-                        break
         # Clean up temp files
         try:

         return jsonify({"error": f"Internal server error: {str(e)}"}), 500
 def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
+    """Handle pronunciation evaluation requests with optimized parallel comparison"""
     request_id = f"req-{id(request)}"  # Create unique ID for this request
     logger.info(f"[{request_id}] 🆕 Starting new pronunciation evaluation request")
             logger.error(f"[{request_id}] ❌ ASR inference failed: {str(e)}")
             return jsonify({"error": f"ASR inference failed: {str(e)}"}), 500
+        # OPTIMIZATION: Process all reference files at once
+        import multiprocessing
+        # Determine optimal number of workers based on CPU count
+        max_workers = min(multiprocessing.cpu_count(), len(reference_files))
         results = []
         # Use this if you want to limit the number of files to process
+        max_files_to_check = min(len(reference_files), 10)  # Increased from 5 to 10
         reference_files = reference_files[:max_files_to_check]
+        logger.info(f"[{request_id}] 🔄 Processing {len(reference_files)} reference files in parallel with {max_workers} workers")
         # Function to process a single reference file
         def process_reference_file(ref_file):
                     "error": str(e)
                 }
+        # OPTIMIZATION: Process all files simultaneously using ThreadPoolExecutor
+        with ThreadPoolExecutor(max_workers=max_workers) as executor:
+            results = list(executor.map(process_reference_file, reference_files))
+        # Find the best result after all processing is complete
+        best_score = 0
+        best_reference = None
+        best_transcription = None
+        for result in results:
+            if result["similarity_score"] > best_score:
+                best_score = result["similarity_score"]
+                best_reference = result["reference_file"]
+                best_transcription = result["reference_text"]
         # Clean up temp files
         try: