mazesmazes
/

tiny-audio

@@ -275,8 +275,9 @@ class LocalSpeakerDiarizer:
     # ==================== TUNABLE PARAMETERS ====================
     # Sliding window for embedding extraction
-    WINDOW_SIZE = 0.75  # seconds - shorter window for finer resolution
-    STEP_SIZE = 0.15  # seconds (80% overlap for more votes)
     TAIL_COVERAGE_RATIO = 0.1  # Add extra window if tail > this ratio of window
     # VAD hysteresis parameters
@@ -290,8 +291,8 @@ class LocalSpeakerDiarizer:
     VOTING_RATE = 0.01  # 10ms resolution for consensus voting
     # Post-processing
-    MIN_SEGMENT_DURATION = 0.15  # Minimum final segment duration (seconds)
-    SHORT_SEGMENT_GAP = 0.1  # Gap threshold for merging short segments
     SAME_SPEAKER_GAP = 0.5  # Gap threshold for merging same-speaker segments
     # ===========================================================
@@ -381,7 +382,10 @@ class LocalSpeakerDiarizer:
         clusterer = SpeakerClusterer(min_num_spks=min_speakers, max_num_spks=max_speakers)
         labels = clusterer(embeddings, num_speakers)
-        # Step 4: Post-process with consensus voting (VAD-aware)
         return cls._postprocess_segments(window_segments, labels, total_duration, vad_frames)
     @classmethod
@@ -479,6 +483,57 @@ class LocalSpeakerDiarizer:
         return filtered
     @classmethod
     def _extract_embeddings(
         cls, audio_array: np.ndarray, segments: list[dict], sample_rate: int

     # ==================== TUNABLE PARAMETERS ====================
     # Sliding window for embedding extraction
+    # Longer windows (1.5-2.0s) capture more prosody, reducing speaker confusion
+    WINDOW_SIZE = 1.5  # seconds
+    STEP_SIZE = 0.5  # seconds (67% overlap)
     TAIL_COVERAGE_RATIO = 0.1  # Add extra window if tail > this ratio of window
     # VAD hysteresis parameters
     VOTING_RATE = 0.01  # 10ms resolution for consensus voting
     # Post-processing
+    MIN_SEGMENT_DURATION = 0.3  # Minimum final segment duration (seconds)
+    SHORT_SEGMENT_GAP = 0.3  # Gap threshold for merging short segments
     SAME_SPEAKER_GAP = 0.5  # Gap threshold for merging same-speaker segments
     # ===========================================================
         clusterer = SpeakerClusterer(min_num_spks=min_speakers, max_num_spks=max_speakers)
         labels = clusterer(embeddings, num_speakers)
+        # Step 4: Centroid refinement - reduces flickering/confusion
+        labels = cls._refine_with_centroids(embeddings, labels)
+        # Step 5: Post-process with consensus voting (VAD-aware)
         return cls._postprocess_segments(window_segments, labels, total_duration, vad_frames)
     @classmethod
         return filtered
+    @classmethod
+    def _refine_with_centroids(cls, embeddings: np.ndarray, labels: np.ndarray) -> np.ndarray:
+        """Refine cluster assignments using nearest centroid.
+        This reduces "flickering" where embeddings rapidly switch between speakers.
+        For each embedding, we re-assign it to the speaker whose centroid is closest
+        (by cosine similarity).
+        Args:
+            embeddings: Speaker embeddings of shape [N, D]
+            labels: Initial cluster labels of shape [N]
+        Returns:
+            Refined labels of shape [N]
+        """
+        if len(embeddings) == 0 or len(np.unique(labels)) <= 1:
+            return labels
+        # Normalize embeddings for cosine similarity
+        norms = np.linalg.norm(embeddings, axis=1, keepdims=True)
+        norms = np.maximum(norms, 1e-10)
+        norm_embeddings = embeddings / norms
+        # Calculate centroid for each speaker
+        unique_labels = np.unique(labels)
+        centroids = {}
+        for label in unique_labels:
+            mask = labels == label
+            speaker_embs = norm_embeddings[mask]
+            centroid = speaker_embs.mean(axis=0)
+            # Normalize centroid
+            centroid_norm = np.linalg.norm(centroid)
+            if centroid_norm > 1e-10:
+                centroids[label] = centroid / centroid_norm
+            else:
+                centroids[label] = centroid
+        # Re-assign each embedding to nearest centroid
+        refined_labels = np.zeros_like(labels)
+        for i, emb in enumerate(norm_embeddings):
+            best_label = labels[i]
+            best_sim = -1.0
+            for label, centroid in centroids.items():
+                sim = np.dot(emb, centroid)
+                if sim > best_sim:
+                    best_sim = sim
+                    best_label = label
+            refined_labels[i] = best_label
+        return refined_labels
     @classmethod
     def _extract_embeddings(
         cls, audio_array: np.ndarray, segments: list[dict], sample_rate: int