Spaces:

vyluong
/

PoC_ASR_v5

Sleeping

App Files Files Community

colab-user commited on Jan 16

Commit

97bec3e

1 Parent(s): 513d906

fix processor & UI

Browse files

Files changed (1) hide show

app/services/processor.py +22 -19

app/services/processor.py CHANGED Viewed

@@ -194,24 +194,29 @@ class Processor:
         }
         speakers = list(speaker_map.values())
-        speaker_count = len(speakers)
         # 6. Infer role ONLY if diarization did not provide
-        if not roles:
-            speaker_duration = defaultdict(float)
-            for seg in refined_segments:
-                speaker_duration[seg.speaker] += seg.end - seg.start
-            agent_raw = max(speaker_duration, key=speaker_duration.get)
             roles = {
-                speaker_map[spk]: ("NV" if spk == agent_raw else "KH")
                 for spk in speaker_duration
             }
-        for label in speakers:
-            roles.setdefault(label, "KH")
         # 7: Transcribe
@@ -255,14 +260,14 @@ class Processor:
             if not text or not text.strip():
                 continue
-            speaker_label = speaker_map.get(seg.speaker, seg.speaker)
             processed_segments.append(
                 TranscriptSegment(
                     start=seg.start,
                     end=seg.end,
-                    speaker=speaker_label,
-                    role=roles.get(speaker_label, "KH"),
                     text=text.strip(),
                 )
             )
@@ -273,21 +278,19 @@ class Processor:
                     start=0.0,
                     end=duration,
                     speaker=speakers[0],
-                    role=roles[speakers[0]],
                     text="(No speech detected)"
                 )
             ]
-            speakers = ["Speaker 1"]
-            roles = {"Speaker 1": "UNKNOWN"}
-            speaker_count = 1
         processing_time = time.time() - t0
         txt_content = cls._generate_txt(
             processed_segments,
             speaker_count,
-            duration,
             processing_time,
             roles
         )

         }
         speakers = list(speaker_map.values())
         # 6. Infer role ONLY if diarization did not provide
+        speaker_duration = defaultdict(float)
+        for seg in refined_segments:
+            speaker_duration[speaker_map[seg.speaker]] += seg.end - seg.start
+        if roles:
             roles = {
+                speaker_map.get(raw, raw): role
+                for raw, role in roles.items()
+                if raw in speaker_map
+            }
+        else:
+            agent = max(speaker_duration, key=speaker_duration.get)
+            roles = {
+                spk: ("NV" if spk == agent else "KH")
                 for spk in speaker_duration
             }
+        for spk in speakers:
+            roles.setdefault(spk, "KH")
         # 7: Transcribe
             if not text or not text.strip():
                 continue
+            label = speaker_map[seg.speaker]
             processed_segments.append(
                 TranscriptSegment(
                     start=seg.start,
                     end=seg.end,
+                    speaker=label,
+                    role=roles.get(label),
                     text=text.strip(),
                 )
             )
                     start=0.0,
                     end=duration,
                     speaker=speakers[0],
+                    role=roles.get(speakers[0], "UNKNOWN"),
                     text="(No speech detected)"
                 )
             ]
         processing_time = time.time() - t0
+        speaker_count=len(speakers)
         txt_content = cls._generate_txt(
             processed_segments,
             speaker_count,
             processing_time,
+            duration,
             roles
         )