Spaces:

ruvatron
/

voice-intelligence

Sleeping

App Files Files Community

unknownfriend00007 commited on Apr 17

Commit

540cd4c

verified ·

1 Parent(s): 0d0b668

Upload 10 files

Browse files

Files changed (1) hide show

diarization.py +25 -1

diarization.py CHANGED Viewed

@@ -56,6 +56,29 @@ def _segment_to_payload(start_sec: float, end_sec: float, speaker: str, sample_r
     }
 def run_diarization(wav_path: str, config: VoiceRuntimeConfig, sample_rate: int) -> list[dict[str, Any]]:
     if not config.diarization_enabled:
         return []
@@ -68,7 +91,8 @@ def run_diarization(wav_path: str, config: VoiceRuntimeConfig, sample_rate: int)
     if config.diarization_max_speakers > 0:
         kwargs["max_speakers"] = config.diarization_max_speakers
-    annotation = pipeline(wav_path, **kwargs) if kwargs else pipeline(wav_path)
     diarization_segments: list[dict[str, Any]] = []
     for turn, _, speaker in annotation.itertracks(yield_label=True):

     }
+def _resolve_annotation(diarization_output: Any) -> Any:
+    """Return an object exposing itertracks(yield_label=True)."""
+    if hasattr(diarization_output, "itertracks"):
+        return diarization_output
+    # Newer pyannote pipelines may return wrappers like DiarizeOutput.
+    for attr in ("speaker_diarization", "annotation", "diarization"):
+        candidate = getattr(diarization_output, attr, None)
+        if candidate is not None and hasattr(candidate, "itertracks"):
+            return candidate
+    if isinstance(diarization_output, dict):
+        for key in ("speaker_diarization", "annotation", "diarization"):
+            candidate = diarization_output.get(key)
+            if candidate is not None and hasattr(candidate, "itertracks"):
+                return candidate
+    raise RuntimeError(
+        "Unsupported diarization output type "
+        f"{type(diarization_output).__name__}; expected Annotation-compatible object."
+    )
 def run_diarization(wav_path: str, config: VoiceRuntimeConfig, sample_rate: int) -> list[dict[str, Any]]:
     if not config.diarization_enabled:
         return []
     if config.diarization_max_speakers > 0:
         kwargs["max_speakers"] = config.diarization_max_speakers
+    diarization_output = pipeline(wav_path, **kwargs) if kwargs else pipeline(wav_path)
+    annotation = _resolve_annotation(diarization_output)
     diarization_segments: list[dict[str, Any]] = []
     for turn, _, speaker in annotation.itertracks(yield_label=True):