Spaces:

Luminia
/

WhisperLiveKit

Running

File size: 85,921 Bytes

395c488

"""

Transcription Engine Comparison Space — Free CPU.



Single-file app: Gradio + FastAPI routes + WhisperLiveKit WebSocket +

Voxtral Realtime browser-side transcription (WebGPU via transformers.js) +

inline recorder UI (HTML/CSS/JS).

FER runs entirely in browser via ONNX (no server cost).

The only external file is static/emotion_model_web.onnx (~4.8MB).

"""

import base64
import logging
import os
import gc
import sys
import traceback

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

_CLI_MODE = len(sys.argv) > 1 and not sys.argv[1].startswith("--")

if _CLI_MODE:
    # -- CLI MODE: transcribe + diarize an audio file -------------------------
    import numpy as np
    import torch
    import librosa
    from pyannote.audio import Pipeline

    audio_file = sys.argv[1]
    print(f"Loading: {audio_file}")
    audio, _ = librosa.load(audio_file, sr=16000, mono=True)
    audio = audio.astype(np.float32)
    print(f"Audio: {len(audio)/16000:.1f}s")

    # Diarization
    print("Loading diarization (pyannote)...")

    pipeline = Pipeline.from_pretrained("models/speaker-diarization-3.1")
    waveform = torch.tensor(audio).unsqueeze(0)
    result = pipeline({"waveform": waveform, "sample_rate": 16000})
    diar = result.speaker_diarization

    # Post-processing: merge speakers with similar embeddings (numpy, no sklearn)
    speaker_labels = sorted(diar.labels())
    merge_map = {}
    if hasattr(result, "speaker_embeddings") and result.speaker_embeddings is not None and len(speaker_labels) > 1:
        emb = result.speaker_embeddings
        norms = np.linalg.norm(emb, axis=1, keepdims=True)
        norms[norms == 0] = 1
        sim = (emb / norms) @ (emb / norms).T
        for i in range(len(speaker_labels)):
            for j in range(i + 1, len(speaker_labels)):
                if sim[i][j] >= 0.6:
                    target = merge_map.get(speaker_labels[i], speaker_labels[i])
                    merge_map[speaker_labels[j]] = target
                    print(f"  Merging {speaker_labels[j]} -> {target} (sim: {sim[i][j]:.3f})")

    merged = []
    speakers_seen = set()
    for turn, _, spk in diar.itertracks(yield_label=True):
        actual_spk = merge_map.get(spk, spk)
        speaker_id = int(actual_spk.split("_")[-1]) + 1
        speakers_seen.add(speaker_id)
        merged.append({"start": turn.start, "end": turn.end, "speakers": [speaker_id]})
    num_speakers = len(speakers_seen)
    print(f"Speakers: {num_speakers} | Segments: {len(merged)}\n")

    # Transcription (Parakeet)
    print("Running Parakeet TDT v3 (with timestamps)...")
    import onnx_asr
    model = onnx_asr.load_model("nemo-parakeet-tdt-0.6b-v3", providers=["CPUExecutionProvider"]).with_timestamps()
    audio_int16 = (audio * 32767).astype(np.int16)
    output = model.recognize(audio_int16)
    del model
    gc.collect()

    tokens = output.tokens if hasattr(output, "tokens") else []
    timestamps = output.timestamps if hasattr(output, "timestamps") else []

    # Reconstruct full words from subword tokens
    words = []  # list of {"text": str, "start": float, "end": float}
    current_word = ""
    current_start = 0.0
    current_end = 0.0
    for tok, ts in zip(tokens, timestamps):
        if tok.startswith(" ") or tok.startswith("\n"):
            if current_word.strip():
                words.append({"text": current_word, "start": current_start, "end": current_end})
            current_word = tok
            current_start = ts
            current_end = ts
        else:
            if not current_word:
                current_start = ts
            current_word += tok
            current_end = ts
    if current_word.strip():
        words.append({"text": current_word, "start": current_start, "end": current_end})

    # Align each word to speaker with greatest temporal overlap
    def best_speaker(word_start, word_end):
        best = None
        max_overlap = 0
        for seg in merged:
            ov_start = max(word_start, seg["start"])
            ov_end = min(word_end, seg["end"])
            if ov_start < ov_end:
                overlap = ov_end - ov_start
                if overlap > max_overlap:
                    max_overlap = overlap
                    best = " & ".join(f"SPEAKER {s}" for s in seg["speakers"])
        return best

    # Assign speaker to each word, then merge consecutive same-speaker
    labeled = []
    for w in words:
        spk = best_speaker(w["start"], w["end"] + 0.05)
        if spk is None:
            spk = labeled[-1][0] if labeled else "UNKNOWN"
        labeled.append((spk, w["start"], w["text"]))

    # Merge consecutive same-speaker words
    print("=" * 60)
    print(f"{num_speakers} speakers detected:\n")
    if labeled:
        current_spk = labeled[0][0]
        current_start = labeled[0][1]
        current_text = labeled[0][2]
        for spk, ts, txt in labeled[1:]:
            if spk == current_spk:
                current_text += txt
            else:
                chunk = current_text.strip()
                if chunk:
                    m, s = divmod(int(current_start), 60)
                    print(f"{current_spk} [{m:02d}:{s:02d}]: {chunk}")
                current_spk = spk
                current_start = ts
                current_text = txt
        chunk = current_text.strip()
        if chunk:
            m, s = divmod(int(current_start), 60)
            print(f"{current_spk} [{m:02d}:{s:02d}]: {chunk}")
    else:
        text = output.text if hasattr(output, "text") else str(output)
        print(text)
    print("=" * 60)
    sys.exit(0)

if not _CLI_MODE:
    import gradio as gr
    import asyncio
    from fastapi import WebSocket, WebSocketDisconnect
    from fastapi.staticfiles import StaticFiles
    from starlette.requests import Request
    from starlette.responses import Response
    from whisperlivekit import TranscriptionEngine, AudioProcessor

    # -- WhisperLiveKit engine (loaded at startup, ~3-6GB) -------------------
    logger.info("Loading TranscriptionEngine (large-v3-turbo model, CPU)...")
    transcription_engine = TranscriptionEngine(
        model_size="large-v3-turbo",
        vac=True,
        min_chunk_size=1.0,
        lan="auto",
        direct_english_translation=False,
    )
    logger.info("TranscriptionEngine ready.")


# -- Inline CSS --------------------------------------------------------------
RECORDER_CSS = r"""

*, *::before, *::after { box-sizing: border-box; margin: 0; padding: 0; }



:root {

  --bg: #0f0f0f;

  --surface: #1a1a2e;

  --surface2: #16213e;

  --accent: #e94560;

  --accent2: #0f3460;

  --text: #eee;

  --text-dim: #888;

  --success: #4ecca3;

  --warning: #f5a623;

  --radius: 12px;

  --font: 'Segoe UI', system-ui, -apple-system, sans-serif;

}



body {

  background: var(--bg);

  color: var(--text);

  font-family: var(--font);

  padding: 12px;

  line-height: 1.5;

}



.mode-selector {

  display: flex;

  gap: 6px;

  justify-content: center;

  margin-bottom: 8px;

  flex-wrap: wrap;

}



.engine-btn {

  background: var(--surface);

  border: 2px solid transparent;

  border-radius: var(--radius);

  padding: 8px 14px;

  cursor: pointer;

  font-size: 0.85rem;

  color: var(--text);

  transition: all 0.2s;

}

.engine-btn:hover { border-color: var(--accent2); }

.engine-btn.active {

  border-color: var(--accent);

  background: var(--surface2);

}



.options-row {

  display: flex;

  gap: 16px;

  justify-content: center;

  align-items: center;

  margin-bottom: 8px;

  flex-wrap: wrap;

}



.options-row label {

  font-size: 0.85rem;

  color: var(--text-dim);

  cursor: pointer;

  display: flex;

  align-items: center;

  gap: 6px;

}



.options-row input[type="checkbox"] {

  accent-color: var(--accent);

}



.controls {

  display: flex;

  align-items: center;

  justify-content: center;

  gap: 16px;

  margin-bottom: 10px;

}



#recordButton {

  width: 64px;

  height: 64px;

  border-radius: 50%;

  border: 3px solid var(--accent);

  background: transparent;

  cursor: pointer;

  display: flex;

  align-items: center;

  justify-content: center;

  transition: all 0.3s;

  flex-shrink: 0;

}



#recordButton .inner {

  width: 28px;

  height: 28px;

  background: var(--accent);

  border-radius: 50%;

  transition: all 0.3s;

}



#recordButton.recording .inner {

  border-radius: 4px;

  width: 24px;

  height: 24px;

}



#recordButton:hover {

  transform: scale(1.05);

}



.upload-btn {

  width: 40px;

  height: 40px;

  border-radius: 50%;

  border: 2px solid var(--accent2);

  background: transparent;

  color: var(--text-dim);

  cursor: pointer;

  display: flex;

  align-items: center;

  justify-content: center;

  transition: all 0.2s;

}

.upload-btn:hover { border-color: var(--accent); color: var(--text); }



.timer {

  font-size: 1.2rem;

  font-variant-numeric: tabular-nums;

  color: var(--text-dim);

  min-width: 60px;

}



.timer.recording {

  color: var(--accent);

}



#waveCanvas {

  width: 200px;

  height: 48px;

  border-radius: 8px;

  background: var(--surface);

}



#status {

  text-align: center;

  font-size: 0.85rem;

  color: var(--text-dim);

  margin-bottom: 8px;

  min-height: 1.3em;

}



#status.error { color: var(--accent); }

#status.success { color: var(--success); }



.results-grid {

  display: grid;

  grid-template-columns: 1fr 1fr;

  gap: 8px;

  margin-top: 8px;

}



/* Panel visibility controlled by JS updateResultsLayout() */



.result-panel {

  background: var(--surface);

  border-radius: var(--radius);

  padding: 12px;

  min-height: 120px;

  position: relative;

}



.copy-btn {

  position: absolute;

  top: 6px;

  right: 6px;

  background: transparent;

  border: 1px solid rgba(255,255,255,0.15);

  color: var(--text-dim);

  cursor: pointer;

  padding: 3px 10px;

  border-radius: 6px;

  font-size: 0.72rem;

  z-index: 2;

  display: flex;

  align-items: center;

  gap: 4px;

  transition: all 0.15s;

}

.copy-btn:hover { background: rgba(255,255,255,0.1); color: var(--text); border-color: rgba(255,255,255,0.3); }

.copy-btn.copied { color: var(--success); border-color: var(--success); }



.short-hint {

  color: var(--text-dim);

  font-size: 0.8rem;

  margin-top: 8px;

  font-style: italic;

}



.result-panel h3 {

  font-size: 0.9rem;

  margin-bottom: 6px;

  display: flex;

  align-items: center;

  gap: 6px;

  flex-wrap: wrap;

  padding-right: 50px;

}



.badge {

  font-size: 0.7rem;

  padding: 2px 8px;

  border-radius: 999px;

  font-weight: 500;

}



.badge.realtime { background: var(--success); color: #000; }

.badge.browser { background: var(--warning); color: #000; }



.timing {

  font-size: 0.8rem;

  color: var(--text-dim);

  margin-bottom: 8px;

}



.transcript {

  font-size: 0.85rem;

  line-height: 1.6;

  white-space: pre-wrap;

  word-break: break-word;

  max-height: 220px;

  overflow-y: auto;

  background: rgba(0,0,0,0.25);

  border-radius: 8px;

  padding: 10px 12px;

  font-family: 'SF Mono', 'Cascadia Code', 'Fira Code', 'Consolas', monospace;

  border: 1px solid rgba(255,255,255,0.06);

}



.transcript .buffer {

  color: var(--text-dim);

  font-style: italic;

}



.transcript .line {

  margin-bottom: 4px;

}



.transcript .timestamp {

  color: var(--accent2);

  font-size: 0.75rem;

  margin-right: 6px;

  opacity: 0.7;

  font-variant-numeric: tabular-nums;

}



.transcript .speaker {

  color: var(--success);

  font-weight: 600;

  font-size: 0.8rem;

  margin-right: 6px;

}



.spinner {

  display: inline-block;

  width: 20px;

  height: 20px;

  border: 2px solid var(--text-dim);

  border-top-color: var(--accent);

  border-radius: 50%;

  animation: spin 0.8s linear infinite;

  margin-right: 8px;

  vertical-align: middle;

}



@keyframes spin { to { transform: rotate(360deg); } }



.fer-container {

  position: relative;

  display: flex;

  justify-content: center;

  margin: 0 auto 8px;

}



.fer-container.hidden { display: none; }



#webcamVideo {

  width: 240px;

  height: 180px;

  border-radius: var(--radius);

  object-fit: cover;

  transform: scaleX(-1);

  background: #000;

}



.emotion-bars {

  position: absolute;

  bottom: 8px;

  left: 8px;

  right: 8px;

  display: flex;

  flex-direction: column;

  gap: 2px;

  background: rgba(0,0,0,0.6);

  padding: 6px;

  border-radius: 6px;

  font-size: 0.65rem;

}



.emotion-bar {

  display: flex;

  align-items: center;

  gap: 4px;

}



.emotion-bar .label {

  width: 55px;

  text-align: right;

  flex-shrink: 0;

}



.emotion-bar .bar {

  flex: 1;

  height: 6px;

  background: rgba(255,255,255,0.15);

  border-radius: 3px;

  overflow: hidden;

}



.emotion-bar .fill {

  height: 100%;

  border-radius: 3px;

  transition: width 0.3s;

  background: var(--success);

}



.emotion-bar .pct {

  width: 30px;

  text-align: right;

  font-variant-numeric: tabular-nums;

}



#webgpuWarning {

  display: none;

  text-align: center;

  padding: 10px 16px;

  margin-bottom: 12px;

  background: rgba(233, 69, 96, 0.15);

  border: 1px solid var(--accent);

  border-radius: var(--radius);

  font-size: 0.85rem;

  color: var(--accent);

}



.progress-bar-container {

  width: 100%;

  background: rgba(255,255,255,0.1);

  border-radius: 4px;

  margin: 6px 0;

  height: 8px;

  overflow: hidden;

}



.progress-bar-fill {

  height: 100%;

  background: var(--success);

  border-radius: 4px;

  transition: width 0.3s;

  width: 0%;

}



@media (max-width: 600px) {

  .results-grid { grid-template-columns: 1fr; }

  .results-grid .result-panel { display: block !important; }

  #waveCanvas { width: 120px; }

}

"""

# -- Inline FER JS -----------------------------------------------------------
FER_JS = r"""

const FER_LABELS = [

  "Anger", "Contempt", "Disgust", "Fear",

  "Happy", "Neutral", "Sad", "Surprise"

];

const IMAGE_SIZE = 224;

const IMAGENET_MEAN = [0.485, 0.456, 0.406];

const IMAGENET_STD = [0.229, 0.224, 0.225];



let ferSession = null;

let ferCanvas = null;

let ortModule = null;



function softmax(scores) {

  let max = -Infinity;

  for (let i = 0; i < scores.length; i++) {

    if (scores[i] > max) max = scores[i];

  }

  const exps = new Float32Array(scores.length);

  let sum = 0;

  for (let i = 0; i < scores.length; i++) {

    exps[i] = Math.exp(scores[i] - max);

    sum += exps[i];

  }

  for (let i = 0; i < exps.length; i++) {

    exps[i] /= sum;

  }

  return exps;

}



async function loadFERModel() {

  if (ferSession) return true;

  try {

    const ort = window.ort;

    if (!ort) { console.error("[FER] onnxruntime-web not loaded"); return false; }

    ortModule = ort;

    ort.env.wasm.numThreads = 1;



    const response = await fetch("/static/emotion_model_web.onnx");

    const modelBuffer = await response.arrayBuffer();



    ferSession = await ort.InferenceSession.create(

      new Uint8Array(modelBuffer),

      { executionProviders: ["wasm"] }

    );

    console.log("[FER] Model loaded");

    return true;

  } catch (err) {

    console.error("[FER] Failed to load model:", err);

    return false;

  }

}



async function classifyEmotion(videoElement) {

  if (!ferSession || !ortModule) return null;

  try {

    if (!ferCanvas) {

      ferCanvas = document.createElement("canvas");

      ferCanvas.width = IMAGE_SIZE;

      ferCanvas.height = IMAGE_SIZE;

    }

    const ctx = ferCanvas.getContext("2d", { willReadFrequently: true });

    if (!ctx) return null;



    ctx.drawImage(videoElement, 0, 0, IMAGE_SIZE, IMAGE_SIZE);

    const imageData = ctx.getImageData(0, 0, IMAGE_SIZE, IMAGE_SIZE);

    const { data } = imageData;



    const floatData = new Float32Array(1 * 3 * IMAGE_SIZE * IMAGE_SIZE);

    const pixelCount = IMAGE_SIZE * IMAGE_SIZE;



    for (let i = 0; i < pixelCount; i++) {

      const srcIdx = i * 4;

      floatData[i] = (data[srcIdx] / 255 - IMAGENET_MEAN[0]) / IMAGENET_STD[0];

      floatData[pixelCount + i] = (data[srcIdx + 1] / 255 - IMAGENET_MEAN[1]) / IMAGENET_STD[1];

      floatData[2 * pixelCount + i] = (data[srcIdx + 2] / 255 - IMAGENET_MEAN[2]) / IMAGENET_STD[2];

    }



    const inputTensor = new ortModule.Tensor("float32", floatData, [1, 3, IMAGE_SIZE, IMAGE_SIZE]);

    const inputName = ferSession.inputNames[0];

    const results = await ferSession.run({ [inputName]: inputTensor });

    const outputName = ferSession.outputNames[0];

    const output = results[outputName];

    if (!output) return null;



    const rawScores = output.data;

    const probs = softmax(rawScores);



    const scores = {};

    let maxIdx = 0;

    let maxVal = probs[0];

    for (let i = 0; i < probs.length; i++) {

      scores[FER_LABELS[i]] = probs[i];

      if (probs[i] > maxVal) { maxVal = probs[i]; maxIdx = i; }

    }



    return { emotion: FER_LABELS[maxIdx], confidence: maxVal, scores: scores };

  } catch (err) {

    console.error("[FER] Classification error:", err);

    return null;

  }

}



function releaseFER() {

  if (ferSession) { ferSession.release().catch(() => {}); ferSession = null; }

}

"""

# -- Inline Recorder JS -----------------------------------------------------
RECORDER_JS = r"""

// -- State -------------------------------------------------------------------

let activeEngines = new Set(["parakeet"]);

let isRecording = false;

let websocket = null;

let mediaRecorder = null;

let audioChunks = [];

let micRecorder = null;

let micChunks = [];

let screenRecorder = null;

let screenChunks = [];

let mixedStream = null;

let micStream = null;

let displayStream = null;

let audioContext = null;

let analyserNode = null;

let animFrameId = null;

let timerInterval = null;

let recordingStartTime = null;

let ferInterval = null;

let webcamStream = null;



// -- Voxtral Realtime state --------------------------------------------------

let voxtralModel = null;

let voxtralProcessor = null;

let voxtralLoading = false;

let voxtralAudioChunks = [];

let voxtralAudioLength = 0;



// Lazy-concatenate: only rebuild when new chunks arrive

let _voxtralCached = new Float32Array(0);

let _voxtralCachedLen = 0;

function getVoxtralAudio() {

  if (voxtralAudioLength === _voxtralCachedLen) return _voxtralCached;

  if (voxtralAudioChunks.length === 0) { _voxtralCached = new Float32Array(0); _voxtralCachedLen = 0; return _voxtralCached; }

  if (voxtralAudioChunks.length === 1) { _voxtralCached = voxtralAudioChunks[0]; _voxtralCachedLen = voxtralAudioLength; return _voxtralCached; }

  const combined = new Float32Array(voxtralAudioLength);

  let offset = 0;

  for (const chunk of voxtralAudioChunks) { combined.set(chunk, offset); offset += chunk.length; }

  voxtralAudioChunks = [combined];

  _voxtralCached = combined;

  _voxtralCachedLen = voxtralAudioLength;

  return combined;

}

let voxtralIsRunning = false;

let voxtralStopRequested = false;

let voxtralAudioContext = null;

let voxtralWorkletNode = null;

let voxtralMicSource = null;

let transformersModule = null;



const VOXTRAL_MODEL_ID = "onnx-community/Voxtral-Mini-4B-Realtime-2602-ONNX";

const SEGMENTATION_MODEL_ID = "onnx-community/pyannote-segmentation-3.0";

let segmentationModel = null;

let segmentationProcessor = null;



// -- DOM refs ----------------------------------------------------------------

const modeSelector = document.getElementById("modeSelector");

const recordButton = document.getElementById("recordButton");

const waveCanvas = document.getElementById("waveCanvas");

const timerEl = document.getElementById("timer");

const statusEl = document.getElementById("status");

const resultsGrid = document.getElementById("resultsGrid");

const whisperPanel = document.getElementById("whisperPanel");

const voxtralPanel = document.getElementById("voxtralPanel");

const whisperTranscript = document.getElementById("whisperTranscript");

const voxtralTranscript = document.getElementById("voxtralTranscript");

const whisperTiming = document.getElementById("whisperTiming");

const voxtralTiming = document.getElementById("voxtralTiming");

const screenAudioToggle = document.getElementById("screenAudioToggle");

const ferToggle = document.getElementById("ferToggle");

const diarizeToggle = document.getElementById("diarizeToggle");

const ferContainer = document.getElementById("ferContainer");

const webcamVideo = document.getElementById("webcamVideo");

const emotionBarsEl = document.getElementById("emotionBars");

const webgpuWarning = document.getElementById("webgpuWarning");

const parakeetPanel = document.getElementById("parakeetPanel");

const parakeetTranscript = document.getElementById("parakeetTranscript");

const parakeetTiming = document.getElementById("parakeetTiming");

const nemotronPanel = document.getElementById("nemotronPanel");

const nemotronTranscript = document.getElementById("nemotronTranscript");

const nemotronTiming = document.getElementById("nemotronTiming");



// -- WebGPU check ------------------------------------------------------------

async function checkWebGPU() {

  if (!navigator.gpu) {

    webgpuWarning.style.display = "block";

    webgpuWarning.textContent = "WebGPU is not supported in this browser. Voxtral Realtime requires WebGPU (Chrome 113+, Edge 113+).";

    return false;

  }

  try {

    const adapter = await navigator.gpu.requestAdapter();

    if (!adapter) {

      webgpuWarning.style.display = "block";

      webgpuWarning.textContent = "WebGPU adapter not available. Check your GPU drivers.";

      return false;

    }

    return true;

  } catch (e) {

    webgpuWarning.style.display = "block";

    webgpuWarning.textContent = "WebGPU check failed: " + e.message;

    return false;

  }

}

checkWebGPU();



// -- Engine toggle selector ---------------------------------------------------

modeSelector.querySelectorAll(".engine-btn").forEach((btn) => {

  btn.addEventListener("click", () => {

    if (isRecording) return;

    const engine = btn.dataset.engine;

    if (activeEngines.has(engine)) {

      if (activeEngines.size > 1) {

        activeEngines.delete(engine);

        btn.classList.remove("active");

      }

    } else {

      activeEngines.add(engine);

      btn.classList.add("active");

    }

    updateResultsLayout();

  });

});



function updateResultsLayout() {

  const panelMap = {

    whisper: whisperPanel,

    voxtral: voxtralPanel,

    parakeet: parakeetPanel,

    nemotron: nemotronPanel,

  };

  Object.entries(panelMap).forEach(([key, panel]) => {

    panel.style.display = activeEngines.has(key) ? '' : 'none';

  });

  const count = activeEngines.size;

  resultsGrid.style.gridTemplateColumns = count <= 1 ? '1fr' : '1fr 1fr';

}

updateResultsLayout();



// -- FER toggle --------------------------------------------------------------

ferToggle.addEventListener("change", async () => {

  if (ferToggle.checked) {

    ferContainer.classList.remove("hidden");

    await startWebcam();

    await loadFERModel();

    startFERLoop();

  } else {

    ferContainer.classList.add("hidden");

    stopFERLoop();

    stopWebcam();

  }

});



async function startWebcam() {

  try {

    webcamStream = await navigator.mediaDevices.getUserMedia({ video: true });

    webcamVideo.srcObject = webcamStream;

  } catch (err) {

    console.error("[FER] Webcam error:", err);

    setStatus("Webcam access denied", "error");

  }

}



function stopWebcam() {

  if (webcamStream) {

    webcamStream.getTracks().forEach((t) => t.stop());

    webcamStream = null;

    webcamVideo.srcObject = null;

  }

}



function startFERLoop() {

  if (ferInterval) return;

  ferInterval = setInterval(async () => {

    if (!webcamVideo.srcObject) return;

    const result = await classifyEmotion(webcamVideo);

    if (result) renderEmotionBars(result.scores);

  }, 500);

}



function stopFERLoop() {

  if (ferInterval) { clearInterval(ferInterval); ferInterval = null; }

}



function renderEmotionBars(scores) {

  const labels = Object.keys(scores);

  let html = "";

  for (const label of labels) {

    const pct = (scores[label] * 100).toFixed(0);

    html += `<div class="emotion-bar">

      <span class="label">${label}</span>

      <div class="bar"><div class="fill" style="width:${pct}%"></div></div>

      <span class="pct">${pct}%</span>

    </div>`;

  }

  emotionBarsEl.innerHTML = html;

}



// -- Voxtral model loading ---------------------------------------------------

async function loadVoxtralModel() {

  if (voxtralModel && voxtralProcessor) return true;

  if (voxtralLoading) return false;

  voxtralLoading = true;



  voxtralTranscript.innerHTML = '<span class="spinner"></span> Loading Voxtral Realtime model (WebGPU)... This downloads ~2GB on first use.';



  try {

    if (!transformersModule) {

      voxtralTranscript.innerHTML = '<span class="spinner"></span> Loading transformers.js library...';

      transformersModule = await import("https://cdn.jsdelivr.net/npm/@huggingface/transformers@4.0.0-next.7");

    }



    const { VoxtralRealtimeForConditionalGeneration, VoxtralRealtimeProcessor } = transformersModule;



    voxtralTranscript.innerHTML = '<span class="spinner"></span> Downloading & loading Voxtral model (q4f16, WebGPU)...<div class="progress-bar-container"><div class="progress-bar-fill" id="voxtralProgress"></div></div><div id="voxtralProgressText" style="font-size:0.75rem;color:var(--text-dim);margin-top:4px;"></div>';



    const progressCallback = (progress) => {

      const bar = document.getElementById("voxtralProgress");

      const txt = document.getElementById("voxtralProgressText");

      if (bar && progress.progress !== undefined) {

        bar.style.width = progress.progress.toFixed(1) + "%";

      }

      if (txt && progress.file) {

        const status = progress.status || "";

        const pct = progress.progress !== undefined ? ` (${progress.progress.toFixed(1)}%)` : "";

        txt.textContent = `${status} ${progress.file}${pct}`;

      }

    };



    voxtralProcessor = await VoxtralRealtimeProcessor.from_pretrained(VOXTRAL_MODEL_ID, {

      progress_callback: progressCallback,

    });



    voxtralModel = await VoxtralRealtimeForConditionalGeneration.from_pretrained(VOXTRAL_MODEL_ID, {

      dtype: {

        audio_encoder: "q4f16",

        embed_tokens: "q4f16",

        decoder_model_merged: "q4f16",

      },

      device: "webgpu",

      progress_callback: progressCallback,

    });



    // Load speaker segmentation model for browser-side diarization

    if (!segmentationModel) {

      voxtralTranscript.innerHTML = '<span class="spinner"></span> Loading speaker segmentation model...';

      const { AutoProcessor, AutoModelForAudioFrameClassification } = transformersModule;

      segmentationProcessor = await AutoProcessor.from_pretrained(SEGMENTATION_MODEL_ID, { progress_callback: progressCallback });

      segmentationModel = await AutoModelForAudioFrameClassification.from_pretrained(SEGMENTATION_MODEL_ID, { device: "wasm", dtype: "fp32", progress_callback: progressCallback });

    }



    voxtralTranscript.innerHTML = '<span style="color:var(--success)">Models loaded. Ready to transcribe.</span>';

    voxtralLoading = false;

    return true;

  } catch (err) {

    console.error("[Voxtral] Model loading error:", err);

    voxtralTranscript.innerHTML = `<span style="color:var(--accent)">Failed to load model: ${escapeHtml(err.message)}</span>`;

    voxtralLoading = false;

    return false;

  }

}



// -- Voxtral audio capture via AudioWorklet ----------------------------------

// Dual-track buffers for Voxtral (when Speaker detection OFF)

let voxtralMicChunks = [];

let voxtralMicLength = 0;

let voxtralScreenChunks = [];

let voxtralScreenLength = 0;

let voxtralDualTrack = false;



function getVoxtralMicAudio() {

  if (voxtralMicChunks.length === 0) return new Float32Array(0);

  if (voxtralMicChunks.length === 1) return voxtralMicChunks[0];

  const c = new Float32Array(voxtralMicLength);

  let o = 0;

  for (const ch of voxtralMicChunks) { c.set(ch, o); o += ch.length; }

  voxtralMicChunks = [c];

  return c;

}

function getVoxtralScreenAudio() {

  if (voxtralScreenChunks.length === 0) return new Float32Array(0);

  if (voxtralScreenChunks.length === 1) return voxtralScreenChunks[0];

  const c = new Float32Array(voxtralScreenLength);

  let o = 0;

  for (const ch of voxtralScreenChunks) { c.set(ch, o); o += ch.length; }

  voxtralScreenChunks = [c];

  return c;

}



async function startVoxtralRecording(stream, micOnlyStream, screenOnlyStream) {

  voxtralAudioChunks = [];

  voxtralAudioLength = 0;

  voxtralMicChunks = [];

  voxtralMicLength = 0;

  voxtralScreenChunks = [];

  voxtralScreenLength = 0;

  voxtralStopRequested = false;

  voxtralIsRunning = true;

  voxtralDualTrack = !!(micOnlyStream && screenOnlyStream);



  voxtralAudioContext = new AudioContext({ sampleRate: 16000 });



  const workletCode = `class CaptureProcessor extends AudioWorkletProcessor {

    process(inputs) {

      const input = inputs[0];

      if (input.length > 0 && input[0].length > 0) {

        this.port.postMessage(input[0]);

      }

      return true;

    }

  }

  registerProcessor("capture-processor", CaptureProcessor);`;



  const blob = new Blob([workletCode], { type: "application/javascript" });

  const url = URL.createObjectURL(blob);

  await voxtralAudioContext.audioWorklet.addModule(url);

  URL.revokeObjectURL(url);



  // Main mixed stream capture (for transcription)

  voxtralMicSource = voxtralAudioContext.createMediaStreamSource(stream);

  voxtralWorkletNode = new AudioWorkletNode(voxtralAudioContext, "capture-processor");

  voxtralWorkletNode.port.onmessage = (event) => {

    if (voxtralStopRequested) return;

    const newData = new Float32Array(event.data);

    if (newData.length === 0) return;

    voxtralAudioChunks.push(newData);

    voxtralAudioLength += newData.length;

  };

  voxtralMicSource.connect(voxtralWorkletNode);

  const silentGain = voxtralAudioContext.createGain();

  silentGain.gain.value = 0;

  voxtralWorkletNode.connect(silentGain);

  silentGain.connect(voxtralAudioContext.destination);



  // Dual-track: separate mic and screen captures

  if (voxtralDualTrack) {

    // Mic-only worklet

    const micSrc = voxtralAudioContext.createMediaStreamSource(micOnlyStream);

    const micWork = new AudioWorkletNode(voxtralAudioContext, "capture-processor");

    micWork.port.onmessage = (event) => {

      if (voxtralStopRequested) return;

      const d = new Float32Array(event.data);

      if (d.length > 0) { voxtralMicChunks.push(d); voxtralMicLength += d.length; }

    };

    micSrc.connect(micWork);

    micWork.connect(silentGain);



    // Screen-only worklet

    const scrSrc = voxtralAudioContext.createMediaStreamSource(screenOnlyStream);

    const scrWork = new AudioWorkletNode(voxtralAudioContext, "capture-processor");

    scrWork.port.onmessage = (event) => {

      if (voxtralStopRequested) return;

      const d = new Float32Array(event.data);

      if (d.length > 0) { voxtralScreenChunks.push(d); voxtralScreenLength += d.length; }

    };

    scrSrc.connect(scrWork);

    scrWork.connect(silentGain);

  }



  // Start the transcription loop (uses mixed stream for real-time)

  runVoxtralTranscription();

}



function stopVoxtralRecording() {

  voxtralStopRequested = true;



  if (voxtralWorkletNode) {

    voxtralWorkletNode.disconnect();

    voxtralWorkletNode = null;

  }

  if (voxtralMicSource) {

    voxtralMicSource.disconnect();

    voxtralMicSource = null;

  }

  if (voxtralAudioContext && voxtralAudioContext.state !== "closed") {

    voxtralAudioContext.close().catch(() => {});

    voxtralAudioContext = null;

  }

}



// -- Voxtral streaming transcription loop ------------------------------------

async function runVoxtralTranscription() {

  if (!voxtralModel || !voxtralProcessor) {

    console.error("[Voxtral] Model or processor not loaded");

    return;

  }



  const { BaseStreamer } = transformersModule;



  const numSamplesFirst = voxtralProcessor.num_samples_first_audio_chunk;

  const numSamplesPerChunk = voxtralProcessor.num_samples_per_audio_chunk;

  const { hop_length, n_fft } = voxtralProcessor.feature_extractor.config;

  const winHalf = Math.floor(n_fft / 2);

  const samplesPerTok = voxtralProcessor.audio_length_per_tok * hop_length;



  const voxtralStartTime = Date.now();

  let fullText = "";



  // Streamer matching reference VoxtralProvider.tsx pattern

  const tokenizer = voxtralProcessor.tokenizer;

  const specialIds = new Set(tokenizer.all_special_ids.map(BigInt));

  let tokenCache = [];

  let printLen = 0;

  let isPrompt = true;



  function flushDecodedText() {

    if (tokenCache.length === 0) return;

    const text = tokenizer.decode(tokenCache, { skip_special_tokens: true });

    const printableText = text.slice(printLen);

    printLen = text.length;

    if (printableText.length > 0) {

      fullText += printableText;

      voxtralTranscript.innerHTML = `<div class="line">${escapeHtml(fullText)}</div><span class="buffer">streaming...</span>`;

      voxtralTranscript.scrollTop = voxtralTranscript.scrollHeight;

    }

  }



  const streamer = new (class extends BaseStreamer {

    put(value) {

      if (voxtralStopRequested) return;

      if (isPrompt) { isPrompt = false; return; }

      const tokens = value[0];

      if (tokens.length === 1 && specialIds.has(tokens[0])) return;

      tokenCache = tokenCache.concat(tokens);

      flushDecodedText();

    }

    end() {

      if (voxtralStopRequested) {

        tokenCache = []; printLen = 0; isPrompt = true;

        return;

      }

      flushDecodedText();

      tokenCache = []; printLen = 0; isPrompt = true;

    }

  })();



  voxtralTranscript.innerHTML = '<span class="buffer">Waiting for audio...</span>';



  // Wait until we have enough audio for the first chunk

  while (voxtralAudioLength < numSamplesFirst && !voxtralStopRequested) {

    await new Promise((r) => setTimeout(r, 100));

  }



  if (voxtralStopRequested) {

    voxtralIsRunning = false;

    return;

  }



  // Process first chunk to get input_ids and first input_features

  const voxtralAudioBuffer = getVoxtralAudio();

  const firstAudio = voxtralAudioBuffer.subarray(0, numSamplesFirst);

  const firstChunkInputs = await voxtralProcessor(firstAudio, {

    is_streaming: true,

    is_first_audio_chunk: true,

  });



  // Async generator yields input_features ONLY (not full processor output)

  async function* inputFeaturesGenerator() {

    yield firstChunkInputs.input_features;



    let melFrameIdx = voxtralProcessor.num_mel_frames_first_audio_chunk;

    let startIdx = melFrameIdx * hop_length - winHalf;



    while (!voxtralStopRequested) {

      const endNeeded = startIdx + numSamplesPerChunk;



      while (voxtralAudioLength < endNeeded && !voxtralStopRequested) {

        await new Promise((r) => setTimeout(r, 50));

      }



      if (voxtralStopRequested) break;



      // Batch extra available audio (matching reference pattern)

      const availableSamples = voxtralAudioLength;

      let batchEndSample = endNeeded;

      while (batchEndSample + samplesPerTok <= availableSamples) {

        batchEndSample += samplesPerTok;

      }



      const chunkAudio = getVoxtralAudio().slice(startIdx, batchEndSample);

      const chunkInputs = await voxtralProcessor(chunkAudio, {

        is_streaming: true,

        is_first_audio_chunk: false,

      });



      yield chunkInputs.input_features;



      melFrameIdx += chunkInputs.input_features.dims[2];

      startIdx = melFrameIdx * hop_length - winHalf;

    }

  }



  try {

    voxtralTranscript.innerHTML = '<span class="buffer">Transcribing...</span>';



    // Pass input_ids and input_features separately (matching reference)

    await voxtralModel.generate({

      input_ids: firstChunkInputs.input_ids,

      input_features: inputFeaturesGenerator(),

      max_new_tokens: 4096,

      streamer: streamer,

    });



    const elapsed = ((Date.now() - voxtralStartTime) / 1000).toFixed(1);

    voxtralTiming.textContent = `Processing time: ${elapsed}s (real-time, browser)`;



    if (fullText.trim()) {

      voxtralTranscript.innerHTML = `<div class="line">${escapeHtml(fullText)}</div>`;

      // Browser-only diarization (Xenova's method, pyannote segmentation ONNX)

      // Voxtral is fully standalone - no server calls, max 3 speakers

      // Runs on full audio at end, not chunked

      if (segmentationModel && segmentationProcessor) {

        try {

          voxtralTranscript.innerHTML += '<div class="buffer">Analyzing speakers (browser)...</div>';

          const audio16k = getVoxtralAudio();

          const inputs = await segmentationProcessor(audio16k);

          const { logits } = await segmentationModel(inputs);

          const diarSegs = segmentationProcessor.post_process_speaker_diarization(logits, audio16k.length)[0];

          const speakerSet = new Set();

          const labeled = [];

          for (const seg of diarSegs) {

            const label = segmentationModel.config.id2label[seg.id];

            if (label === 'NO_SPEAKER') continue;

            speakerSet.add(label);

            labeled.push({start: seg.start, end: seg.end, label});

          }

          if (speakerSet.size >= 2 && labeled.length > 0) {

            const merged = [labeled[0]];

            for (let i = 1; i < labeled.length; i++) {

              const prev = merged[merged.length - 1];

              if (labeled[i].label === prev.label && labeled[i].start - prev.end < 0.5) { prev.end = labeled[i].end; } else { merged.push({...labeled[i]}); }

            }

            let diarText = speakerSet.size + ' speakers detected (browser):\n';

            for (const seg of merged) { diarText += '\n[' + fmtTime(seg.start) + ' - ' + fmtTime(seg.end) + '] ' + seg.label; }

            voxtralTranscript.textContent = diarText + '\n\n' + fullText;

          }

        } catch (diarErr) {

          console.warn("[Voxtral Diarization]", diarErr);

        }

      }

    } else {

      voxtralTranscript.innerHTML = '<span class="buffer">No speech detected.</span>';

    }

  } catch (err) {

    console.error("[Voxtral] Transcription error:", err);

    voxtralTranscript.innerHTML = `<span style="color:var(--accent)">Transcription error: ${escapeHtml(err.message)}</span>`;

  }



  // Energy-based source attribution: compare mic vs screen energy per time window

  if (voxtralDualTrack && voxtralMicLength > 0 && voxtralScreenLength > 0 && fullText.trim()) {

    try {

      const micAudio = getVoxtralMicAudio();

      const screenAudio = getVoxtralScreenAudio();

      const sr = 16000;

      const windowSize = Math.floor(sr * 0.5); // 0.5s windows



      // Compute RMS energy per window

      function rms(buf, start, len) {

        let sum = 0;

        const end = Math.min(start + len, buf.length);

        for (let i = start; i < end; i++) sum += buf[i] * buf[i];

        return Math.sqrt(sum / (end - start || 1));

      }



      // Build source timeline

      const segments = [];

      const maxLen = Math.max(micAudio.length, screenAudio.length);

      for (let i = 0; i < maxLen; i += windowSize) {

        const micE = i < micAudio.length ? rms(micAudio, i, windowSize) : 0;

        const scrE = i < screenAudio.length ? rms(screenAudio, i, windowSize) : 0;

        const t = i / sr;

        if (micE < 0.005 && scrE < 0.005) continue; // silence

        const src = micE >= scrE ? 'YOU' : 'SCREEN';

        if (segments.length > 0 && segments[segments.length - 1].src === src) {

          segments[segments.length - 1].end = t + 0.5;

        } else {

          segments.push({src, start: t, end: t + 0.5});

        }

      }



      if (segments.length > 1) {

        // Split transcript proportionally by segment duration

        const totalDur = segments.reduce((s, seg) => s + (seg.end - seg.start), 0);

        const words = fullText.trim().split(/\s+/);

        const totalWords = words.length;

        let output = '', wordIdx = 0;

        for (const seg of segments) {

          const dur = seg.end - seg.start;

          const nWords = Math.max(1, Math.round(totalWords * dur / totalDur));

          const chunk = words.slice(wordIdx, wordIdx + nWords).join(' ');

          wordIdx += nWords;

          if (!chunk) continue;

          const m = Math.floor(seg.start / 60), s = Math.floor(seg.start % 60);

          output += seg.src + ' [' + String(m).padStart(2,'0') + ':' + String(s).padStart(2,'0') + ']: ' + chunk + '\n';

        }

        if (wordIdx < totalWords) output += words.slice(wordIdx).join(' ');

        voxtralTranscript.textContent = output.trim();

      }

    } catch (energyErr) {

      console.warn("[Voxtral Energy]", energyErr);

    }

  }



  voxtralIsRunning = false;

}



// -- Record button -----------------------------------------------------------

recordButton.addEventListener("click", () => {

  if (isRecording) { stopRecording(); } else { startRecording(); }

});



// -- Start recording ---------------------------------------------------------

async function startRecording() {

  whisperTranscript.innerHTML = "";

  voxtralTranscript.innerHTML = "";

  whisperTiming.textContent = "";

  voxtralTiming.textContent = "";

  parakeetTranscript.innerHTML = "";

  parakeetTiming.textContent = "";

  nemotronTranscript.innerHTML = "";

  nemotronTiming.textContent = "";

  setStatus("Starting...");

  window._parakeetData = null;

  window._diarSegments = null;

  window._diarNumSpeakers = 0;



  // For voxtral, check WebGPU and load model first

  if (activeEngines.has("voxtral")) {

    const gpuOk = await checkWebGPU();

    if (!gpuOk) {

      setStatus("WebGPU not available. Cannot use Voxtral Realtime.", "error");

      return;

    }



    const loaded = await loadVoxtralModel();

    if (!loaded) {

      setStatus("Failed to load Voxtral model.", "error");

      return;

    }

  }



  try {

    micStream = await navigator.mediaDevices.getUserMedia({ audio: true });



    if (screenAudioToggle.checked) {

      try {

        displayStream = await navigator.mediaDevices.getDisplayMedia({ video: true, audio: true });

        displayStream.getVideoTracks().forEach((t) => t.stop());

      } catch (err) {

        console.warn("[Recorder] Screen audio not available:", err);

        setStatus("Screen audio denied - using mic only", "error");

        displayStream = null;

      }

    }



    audioContext = new AudioContext();

    const dest = audioContext.createMediaStreamDestination();

    const micSource = audioContext.createMediaStreamSource(micStream);

    micSource.connect(dest);



    if (displayStream && displayStream.getAudioTracks().length > 0) {

      const displaySource = audioContext.createMediaStreamSource(displayStream);

      displaySource.connect(dest);

    }



    mixedStream = dest.stream;



    analyserNode = audioContext.createAnalyser();

    analyserNode.fftSize = 256;

    micSource.connect(analyserNode);



    const mimeType = MediaRecorder.isTypeSupported("audio/webm;codecs=opus")

      ? "audio/webm;codecs=opus" : "audio/webm";



    audioChunks = [];

    micChunks = [];

    screenChunks = [];

    mediaRecorder = new MediaRecorder(mixedStream, { mimeType });



    mediaRecorder.ondataavailable = (e) => {

      if (e.data.size > 0) {

        audioChunks.push(e.data);

        if (activeEngines.has("whisper") && websocket && websocket.readyState === WebSocket.OPEN) {

          websocket.send(e.data);

        }

      }

    };



    // Separate mic/screen recorders for routing-based speaker separation

    if (!diarizeToggle.checked && displayStream && displayStream.getAudioTracks().length > 0) {

      micRecorder = new MediaRecorder(micStream, { mimeType });

      micRecorder.ondataavailable = (e) => { if (e.data.size > 0) micChunks.push(e.data); };



      const screenDest = audioContext.createMediaStreamDestination();

      const screenSrc = audioContext.createMediaStreamSource(displayStream);

      screenSrc.connect(screenDest);

      screenRecorder = new MediaRecorder(screenDest.stream, { mimeType });

      screenRecorder.ondataavailable = (e) => { if (e.data.size > 0) screenChunks.push(e.data); };



      micRecorder.start(250);

      screenRecorder.start(250);

    }



    mediaRecorder.onstop = () => { onRecordingStopped(); };



    if (activeEngines.has("whisper")) {

      await connectWebSocket();

    }



    // Start Voxtral recording with its own AudioContext at 16kHz

    if (activeEngines.has("voxtral")) {

      if (await checkWebGPU()) {

        const loaded = voxtralModel ? true : await loadVoxtralModel();

        const dualVoxtral = !diarizeToggle.checked && displayStream && displayStream.getAudioTracks().length > 0;

        if (loaded) await startVoxtralRecording(mixedStream || micStream, dualVoxtral ? micStream : null, dualVoxtral ? displayStream : null);

      }

    }



    mediaRecorder.start(250);

    isRecording = true;

    recordButton.classList.add("recording");

    recordingStartTime = Date.now();

    startTimer();

    startWaveform();

    setStatus("Recording...");

  } catch (err) {

    console.error("[Recorder] Start error:", err);

    setStatus("Failed to start: " + err.message, "error");

    cleanupStreams();

  }

}



// -- Stop recording ----------------------------------------------------------

function stopRecording() {

  if (!isRecording) return;

  isRecording = false;

  recordButton.classList.remove("recording");

  stopTimer();

  stopWaveform();



  if (websocket && websocket.readyState === WebSocket.OPEN) {

    websocket.send(new Blob([]));

  }



  // Stop Voxtral recording

  if (activeEngines.has("voxtral")) {

    stopVoxtralRecording();

  }



  if (mediaRecorder && mediaRecorder.state !== "inactive") {

    mediaRecorder.stop();

  }

  if (micRecorder && micRecorder.state !== "inactive") { micRecorder.stop(); }

  if (screenRecorder && screenRecorder.state !== "inactive") { screenRecorder.stop(); }



  setStatus("Processing...");

}



// -- After recording stops ---------------------------------------------------

async function onRecordingStopped() {

  // Let WhisperLiveKit finish in background (don't block batch engines)

  const whisperDone = (websocket && websocket.readyState === WebSocket.OPEN) ? new Promise((resolve) => {

    const timeout = setTimeout(() => { resolve(); }, 300000);

    const origHandler = websocket.onmessage;

    websocket.onmessage = (event) => {

      if (origHandler) origHandler(event);

      try {

        const data = JSON.parse(event.data);

        if (data.type === "ready_to_stop") { clearTimeout(timeout); resolve(); }

      } catch(e) {}

    };

  }).then(() => {

    if (websocket && websocket.readyState === WebSocket.OPEN) { websocket.close(); }

    websocket = null;

  }) : Promise.resolve();



  // Batch transcription for Parakeet/Nemotron

  const baseUrl = (window.location.origin !== 'null' && window.location.host) ? '' : window.parent.location.origin;



  // Routing-based separation: when Speaker detection OFF + screen audio captured

  const useRouting = !diarizeToggle.checked && micChunks.length > 0 && screenChunks.length > 0;

  console.log('[Routing] diarize:', diarizeToggle.checked, 'micChunks:', micChunks.length, 'screenChunks:', screenChunks.length, 'useRouting:', useRouting);



  const batchEngines = [];

  if (activeEngines.has('parakeet')) batchEngines.push({endpoint: '/parakeet-transcribe', el: parakeetTranscript, tim: parakeetTiming});

  if (activeEngines.has('nemotron')) batchEngines.push({endpoint: '/nemotron-transcribe', el: nemotronTranscript, tim: nemotronTiming});



  if (batchEngines.length > 0 && useRouting) {

    // Dual-track: transcribe mic and screen separately in parallel

    const micBlob = new Blob(micChunks, { type: 'audio/webm' });

    const screenBlob = new Blob(screenChunks, { type: 'audio/webm' });

    const promises = batchEngines.map(async ({endpoint, el, tim}) => {

      el.innerHTML = '<span class="spinner"></span> Transcribing mic + screen separately...';

      const t0 = Date.now();

      try {

        const [micResp, screenResp] = await Promise.all([

          fetch(baseUrl + endpoint, { method: 'POST', body: micBlob }),

          fetch(baseUrl + endpoint, { method: 'POST', body: screenBlob })

        ]);

        const micData = await micResp.json();

        const screenData = await screenResp.json();

        const elapsed = ((Date.now() - t0) / 1000).toFixed(1);

        tim.textContent = 'Processing time: ' + elapsed + 's (dual-track, server CPU)';

        // Merge both tracks by timestamps, interleaved

        const micTokens = micData.tokens || [];

        const micTimestamps = micData.timestamps || [];

        const screenTokens = screenData.tokens || [];

        const screenTimestamps = screenData.timestamps || [];



        // Build word arrays with source label

        function buildWords(tokens, timestamps, label) {

          const words = [];

          let curWord = '', curStart = 0;

          for (let i = 0; i < tokens.length; i++) {

            const tok = tokens[i], ts = timestamps[i];

            if (tok.startsWith(' ') || tok.startsWith('\n')) {

              if (curWord.trim()) words.push({text: curWord.trim(), start: curStart, label});

              curWord = tok; curStart = ts;

            } else {

              if (!curWord) curStart = ts;

              curWord += tok;

            }

          }

          if (curWord.trim()) words.push({text: curWord.trim(), start: curStart, label});

          return words;

        }



        const allWords = [

          ...buildWords(micTokens, micTimestamps, 'YOU'),

          ...buildWords(screenTokens, screenTimestamps, 'SCREEN')

        ].sort((a, b) => a.start - b.start);



        // Merge consecutive same-label words into segments

        let output = '';

        if (allWords.length > 0) {

          let cur = {label: allWords[0].label, start: allWords[0].start, text: allWords[0].text};

          for (let i = 1; i < allWords.length; i++) {

            if (allWords[i].label === cur.label) { cur.text += ' ' + allWords[i].text; }

            else {

              const m = Math.floor(cur.start / 60), s = Math.floor(cur.start % 60);

              output += cur.label + ' [' + String(m).padStart(2,'0') + ':' + String(s).padStart(2,'0') + ']: ' + cur.text + '\n';

              cur = {label: allWords[i].label, start: allWords[i].start, text: allWords[i].text};

            }

          }

          const m = Math.floor(cur.start / 60), s = Math.floor(cur.start % 60);

          output += cur.label + ' [' + String(m).padStart(2,'0') + ':' + String(s).padStart(2,'0') + ']: ' + cur.text;

        }

        el.textContent = output.trim() || (micData.text || '') + '\n' + (screenData.text || '') || 'No speech detected.';

        if (endpoint.includes('parakeet') && micData.tokens) window._parakeetData = micData;

      } catch (err) {

        el.innerHTML = '<span style="color:var(--accent)">Error: ' + escapeHtml(err.message) + '</span>';

      }

    });

    await Promise.all(promises);

  } else if (batchEngines.length > 0) {

    // Normal: single mixed audio

    const blob = new Blob(audioChunks, { type: 'audio/webm' });

    const promises = batchEngines.map(async ({endpoint, el, tim}) => {

      el.innerHTML = '<span class="spinner"></span> Transcribing...';

      const t0 = Date.now();

      try {

        const resp = await fetch(baseUrl + endpoint, { method: 'POST', body: blob });

        const data = await resp.json();

        const elapsed = ((Date.now() - t0) / 1000).toFixed(1);

        tim.textContent = 'Processing time: ' + elapsed + 's (server CPU)';

        el.innerHTML = '<div class="line">' + escapeHtml(data.text) + '</div>';

        if (endpoint.includes('parakeet') && data.tokens) window._parakeetData = data;

      } catch (err) {

        el.innerHTML = '<span style="color:var(--accent)">Error: ' + escapeHtml(err.message) + '</span>';

      }

    });

    await Promise.all(promises);

  }



  // Run diarization on recorded audio (if speaker detection enabled)

  if (audioChunks.length > 0 && diarizeToggle.checked) {

    const blob = new Blob(audioChunks, { type: 'audio/webm' });

    try {

      setStatus("Analyzing speakers...");

      const diarUrl = baseUrl + '/diarize';

      console.log("[Diarization] Posting to:", diarUrl, "blob size:", blob.size);

      const resp = await fetch(diarUrl, { method: 'POST', body: blob });

      if (!resp.ok) {

        console.warn("[Diarization] Server error:", resp.status, await resp.text().catch(() => ''));

      } else {

        const data = await resp.json();

        console.log("[Diarization] Result:", data.num_speakers, "speakers,", (data.segments||[]).length, "segments");

        if (data.segments && data.segments.length > 0) {

          window._diarSegments = data.segments;

          window._diarNumSpeakers = data.num_speakers || 0;

          applyDiarization();

        }

      }

    } catch (err) {

      console.warn("[Diarization] Error:", err);

    }

  }



  // Offer audio download (before cleanup clears chunks)

  if (audioChunks.length > 0) {

    const audioBlob = new Blob(audioChunks, { type: 'audio/webm' });

    const url = URL.createObjectURL(audioBlob);

    const dl = document.getElementById('audioDownload');

    if (dl) {

      if (dl.href) URL.revokeObjectURL(dl.href);

      dl.href = url;

      dl.download = 'recording_' + new Date().toISOString().slice(0,19).replace(/:/g,'-') + '.webm';

      dl.style.display = 'inline-block';

    }

  }



  // Wait for WhisperLiveKit to finish (runs in parallel with batch engines)

  await whisperDone;



  cleanupStreams();

  setStatus("Done.", "success");



  // Short recording hint for WhisperLiveKit

  if (activeEngines.has("whisper")) {

    setTimeout(() => {

      if (whisperTranscript.textContent.trim() === "") {

        whisperTranscript.innerHTML = '<div class="short-hint">Tip: Record for 20+ seconds for best results with large models on CPU</div>';

      }

    }, 3000);

  }

}



// -- WebSocket (WhisperLiveKit) ----------------------------------------------

function connectWebSocket() {

  return new Promise((resolve, reject) => {

    // Use parent window's host (iframe from document.write has about:blank origin)

    const host = window.location.host || window.parent.location.host;

    const proto = (window.location.protocol === "https:" || window.parent.location.protocol === "https:") ? "wss:" : "ws:";

    const wsUrl = proto + "//" + host + "/asr";



    websocket = new WebSocket(wsUrl);

    let whisperStartTime = Date.now();



    websocket.onopen = () => { console.log("[WS] Connected"); whisperStartTime = Date.now(); resolve(); };



    websocket.onmessage = (event) => {

      try {

        const data = JSON.parse(event.data);

        if (data.type === "config") return;

        if (data.type === "ready_to_stop") {

          const elapsed = ((Date.now() - whisperStartTime) / 1000).toFixed(1);

          whisperTiming.textContent = `Processing time: ${elapsed}s (real-time)`;

          return;

        }

        renderWhisperResults(data);

      } catch (err) { console.warn("[WS] Parse error:", err); }

    };



    websocket.onerror = (err) => { console.error("[WS] Error:", err); setStatus("WebSocket connection failed", "error"); reject(err); };

    websocket.onclose = () => { console.log("[WS] Closed"); };

  });

}



function fmtTime(s) {

  if (s == null || isNaN(s) || s < 0) return "";

  const m = Math.floor(s / 60), sec = Math.floor(s % 60);

  return String(m).padStart(2,"0") + ":" + String(sec).padStart(2,"0");

}



function applyDiarization() {

  const segs = window._diarSegments;

  if (!segs || segs.length === 0) return;

  const numSpeakers = window._diarNumSpeakers || 0;



  const panels = [

    {el: whisperTranscript, active: activeEngines.has('whisper'), data: null},

    // Voxtral excluded: uses browser-only diarization (Xenova method), no server

    {el: parakeetTranscript, active: activeEngines.has('parakeet'), data: window._parakeetData},

    {el: nemotronTranscript, active: activeEngines.has('nemotron'), data: null},

  ];



  for (const p of panels) {

    if (!p.active || !p.el.textContent.trim()) continue;



    // If we have token timestamps (Parakeet), use word-level alignment

    if (p.data && p.data.tokens && p.data.timestamps && p.data.tokens.length > 0) {

      // Reconstruct full words from subword tokens

      const words = [];

      let curWord = '', curStart = 0, curEnd = 0;

      for (let i = 0; i < p.data.tokens.length; i++) {

        const tok = p.data.tokens[i];

        const ts = p.data.timestamps[i];

        if (tok.startsWith(' ') || tok.startsWith('\n')) {

          if (curWord.trim()) words.push({text: curWord, start: curStart, end: curEnd});

          curWord = tok; curStart = ts; curEnd = ts;

        } else {

          if (!curWord) curStart = ts;

          curWord += tok; curEnd = ts;

        }

      }

      if (curWord.trim()) words.push({text: curWord, start: curStart, end: curEnd});



      // Assign speaker by greatest temporal overlap

      function bestSpeaker(ws, we) {

        let best = null, maxOv = 0;

        for (const seg of segs) {

          const ovS = Math.max(ws, seg.start), ovE = Math.min(we, seg.end);

          if (ovS < ovE && ovE - ovS > maxOv) { maxOv = ovE - ovS; best = seg.speakers.map(s => 'Speaker ' + s).join(' & '); }

        }

        return best;

      }



      // Merge consecutive same-speaker words

      let merged = '';

      let cSpk = null, cStart = 0, cText = '';

      for (const w of words) {

        const spk = bestSpeaker(w.start, w.end + 0.05) || cSpk || 'Unknown';

        if (spk === cSpk) { cText += w.text; } else { if (cText.trim() && cSpk) merged += '\n[' + fmtTime(cStart) + '] ' + cSpk + ': ' + cText.trim(); cSpk = spk; cStart = w.start; cText = w.text; }

      }

      if (cText.trim() && cSpk) merged += '\n[' + fmtTime(cStart) + '] ' + cSpk + ': ' + cText.trim();



      p.el.textContent = numSpeakers + ' speakers detected:\n' + merged.trim();

    } else {

      // Fallback: proportional split for engines without timestamps

      const rawText = p.el.textContent.trim();

      const words = rawText.split(/\s+/);

      const totalWords = words.length;

      const totalDur = segs.reduce((s, seg) => s + (seg.end - seg.start), 0);

      if (totalDur <= 0 || totalWords === 0) continue;



      let merged = '';

      let wordIdx = 0;

      let lastSpeaker = '';

      for (const seg of segs) {

        const dur = seg.end - seg.start;

        const nWords = Math.max(1, Math.round(totalWords * dur / totalDur));

        const chunk = words.slice(wordIdx, wordIdx + nWords).join(' ');

        wordIdx += nWords;

        if (!chunk) continue;

        const speakers = seg.speakers.map(s => 'Speaker ' + s).join(' & ');

        const start = fmtTime(seg.start);

        if (speakers !== lastSpeaker) {

          merged += '\n[' + start + '] ' + speakers + ': ' + chunk;

          lastSpeaker = speakers;

        } else {

          merged += ' ' + chunk;

        }

      }

      if (wordIdx < totalWords) merged += ' ' + words.slice(wordIdx).join(' ');

      p.el.textContent = numSpeakers + ' speakers detected:\n' + merged.trim();

    }

  }

}



function renderWhisperResults(data) {

  if (!data.lines && !data.buffer_transcription) return;

  let html = "";



  if (data.lines) {

    for (const line of data.lines) {

      if (!line.text && !line.translation) continue;

      const tsFmt = fmtTime(line.start);

      const ts = tsFmt ? `<span class="timestamp">[${tsFmt}]</span>` : "";

      // speaker tag only if real diarization is active (multiple speakers detected)

      const speakerTag = (line.speaker > 0 && data.lines.some(l => l.speaker !== line.speaker)) ? `<span class="speaker">Speaker ${line.speaker}</span>` : "";

      const text = line.text || "";

      html += `<div class="line">${ts}${speakerTag}${escapeHtml(text)}</div>`;

    }

  }



  if (data.buffer_transcription) {

    html += `<span class="buffer">${escapeHtml(data.buffer_transcription)}</span>`;

  }

  if (data.buffer_diarization) {

    html += `<span class="buffer"> ${escapeHtml(data.buffer_diarization)}</span>`;

  }



  if (html) {

    whisperTranscript.innerHTML = html;

    whisperTranscript.scrollTop = whisperTranscript.scrollHeight;

  }

}



// -- Timer -------------------------------------------------------------------

function startTimer() {

  timerEl.classList.add("recording");

  timerInterval = setInterval(() => {

    const elapsed = Math.floor((Date.now() - recordingStartTime) / 1000);

    const mins = String(Math.floor(elapsed / 60)).padStart(2, "0");

    const secs = String(elapsed % 60).padStart(2, "0");

    timerEl.textContent = `${mins}:${secs}`;

  }, 500);

}



function stopTimer() {

  timerEl.classList.remove("recording");

  if (timerInterval) { clearInterval(timerInterval); timerInterval = null; }

}



// -- Waveform ----------------------------------------------------------------

function startWaveform() {

  const ctx = waveCanvas.getContext("2d");

  const bufferLength = analyserNode.frequencyBinCount;

  const dataArray = new Uint8Array(bufferLength);



  function draw() {

    animFrameId = requestAnimationFrame(draw);

    analyserNode.getByteTimeDomainData(dataArray);



    ctx.fillStyle = getComputedStyle(document.documentElement).getPropertyValue("--surface").trim();

    ctx.fillRect(0, 0, waveCanvas.width, waveCanvas.height);



    ctx.lineWidth = 2;

    ctx.strokeStyle = getComputedStyle(document.documentElement).getPropertyValue("--accent").trim();

    ctx.beginPath();



    const sliceWidth = waveCanvas.width / bufferLength;

    let x = 0;

    for (let i = 0; i < bufferLength; i++) {

      const v = dataArray[i] / 128.0;

      const y = (v * waveCanvas.height) / 2;

      if (i === 0) ctx.moveTo(x, y);

      else ctx.lineTo(x, y);

      x += sliceWidth;

    }

    ctx.lineTo(waveCanvas.width, waveCanvas.height / 2);

    ctx.stroke();

  }

  draw();

}



function stopWaveform() {

  if (animFrameId) { cancelAnimationFrame(animFrameId); animFrameId = null; }

}



// -- Cleanup -----------------------------------------------------------------

function cleanupStreams() {

  if (micStream) { micStream.getTracks().forEach((t) => t.stop()); micStream = null; }

  if (displayStream) { displayStream.getTracks().forEach((t) => t.stop()); displayStream = null; }

  if (audioContext && audioContext.state !== "closed") { audioContext.close().catch(() => {}); audioContext = null; }

  mixedStream = null;

  analyserNode = null;

  audioChunks = [];

  micChunks = [];

  screenChunks = [];

  micRecorder = null;

  screenRecorder = null;

  voxtralAudioChunks = [];

  voxtralAudioLength = 0;

  voxtralMicChunks = [];

  voxtralMicLength = 0;

  voxtralScreenChunks = [];

  voxtralScreenLength = 0;

  _voxtralCached = new Float32Array(0);

  _voxtralCachedLen = 0;

}



// -- Helpers -----------------------------------------------------------------

function setStatus(text, type = "") {

  statusEl.textContent = text;

  statusEl.className = type;

}



function escapeHtml(str) {

  const div = document.createElement("div");

  div.textContent = str;

  return div.innerHTML;

}



// -- File upload --------------------------------------------------------------

document.getElementById('fileUpload').addEventListener('change', async (e) => {

  const file = e.target.files[0];

  if (!file) return;



  // Clear all panels

  whisperTranscript.innerHTML = '<span class="buffer">File upload - streaming engines not available</span>';

  voxtralTranscript.innerHTML = '<span class="buffer">File upload - browser engine not available</span>';

  parakeetTranscript.innerHTML = '';

  parakeetTiming.textContent = '';

  nemotronTranscript.innerHTML = '';

  nemotronTiming.textContent = '';

  setStatus('Processing uploaded file: ' + file.name);



  const baseUrl = (window.location.origin !== 'null' && window.location.host) ? '' : window.parent.location.origin;

  const blob = file;



  // Run batch engines in parallel

  const batchEngines = [];

  if (activeEngines.has('parakeet')) batchEngines.push({endpoint: '/parakeet-transcribe', el: parakeetTranscript, tim: parakeetTiming});

  if (activeEngines.has('nemotron')) batchEngines.push({endpoint: '/nemotron-transcribe', el: nemotronTranscript, tim: nemotronTiming});



  if (batchEngines.length > 0) {

    const promises = batchEngines.map(async ({endpoint, el, tim}) => {

      el.innerHTML = '<span class="spinner"></span> Transcribing...';

      const t0 = Date.now();

      try {

        const resp = await fetch(baseUrl + endpoint, { method: 'POST', body: blob });

        const data = await resp.json();

        const elapsed = ((Date.now() - t0) / 1000).toFixed(1);

        tim.textContent = 'Processing time: ' + elapsed + 's (server CPU)';

        el.innerHTML = '<div class="line">' + escapeHtml(data.text) + '</div>';

        if (endpoint.includes('parakeet') && data.tokens) window._parakeetData = data;

      } catch (err) {

        el.innerHTML = '<span style="color:var(--accent)">Error: ' + escapeHtml(err.message) + '</span>';

      }

    });

    await Promise.all(promises);

  }



  // Run diarization (if speaker detection enabled)

  if (diarizeToggle.checked) try {

    setStatus('Analyzing speakers...');

    console.log('[Upload Diarization] Posting to:', baseUrl + '/diarize', 'size:', blob.size);

    const resp = await fetch(baseUrl + '/diarize', { method: 'POST', body: blob });

    const text = await resp.text();

    console.log('[Upload Diarization] Response:', resp.status, text.substring(0, 200));

    if (resp.ok) {

      const data = JSON.parse(text);

      if (data.error) {

        console.warn('[Upload Diarization] Server error:', data.error);

      } else if (data.segments && data.segments.length > 0) {

        window._diarSegments = data.segments;

        window._diarNumSpeakers = data.num_speakers || 0;

        applyDiarization();

      }

    }

  } catch (err) {

    console.warn('[Upload Diarization] Error:', err);

  }



  setStatus('Done.', 'success');

  e.target.value = '';  // Reset file input

});



// -- Copy buttons -------------------------------------------------------------

document.querySelectorAll(".copy-btn").forEach((btn) => {

  btn.addEventListener("click", () => {

    const panel = btn.closest(".result-panel");

    const transcript = panel.querySelector(".transcript");

    const text = transcript ? transcript.textContent.trim() : "";

    if (!text) return;

    navigator.clipboard.writeText(text).then(() => {

      const origHTML = btn.innerHTML;

      btn.innerHTML = '<svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><path d="M20 6L9 17l-5-5"/></svg> Copied!';

      btn.classList.add("copied");

      setTimeout(() => { btn.innerHTML = origHTML; btn.classList.remove("copied"); }, 1500);

    }).catch(() => {});

  });

});

"""

# -- Inline HTML (with embedded CSS + JS) ------------------------------------
RECORDER_HTML = f"""<!DOCTYPE html>

<html lang="en">

<head>

  <meta charset="UTF-8" />

  <meta name="viewport" content="width=device-width, initial-scale=1.0" />

  <title>Transcription Comparison</title>

  <style>{RECORDER_CSS}</style>

  <script src="https://cdn.jsdelivr.net/npm/onnxruntime-web@1.20.1/dist/ort.min.js"></script>

</head>

<body>



  <div id="webgpuWarning"></div>



  <h2 style="text-align:center;margin-bottom:8px;font-size:1.1rem;">Transcription Comparison <span style="color:var(--text-dim);font-weight:normal;font-size:0.85rem;">- For your meeting notes!</span></h2>



  <div class="mode-selector" id="modeSelector">

    <button class="engine-btn" data-engine="whisper">WhisperLiveKit</button>

    <button class="engine-btn" data-engine="voxtral">Voxtral-Mini-4B</button>

    <button class="engine-btn active" data-engine="parakeet">Parakeet TDT v3</button>

    <button class="engine-btn" data-engine="nemotron">Nemotron (EN)</button>

  </div>



  <div class="options-row">

    <label>

      <input type="checkbox" id="screenAudioToggle" checked />

      Screen/system audio (Chrome only)

    </label>

    <label>

      <input type="checkbox" id="ferToggle" />

      Webcam emotion detection

    </label>

    <label>

      <input type="checkbox" id="diarizeToggle" checked />

      Speaker detection

    </label>

  </div>



  <div class="fer-container hidden" id="ferContainer">

    <video id="webcamVideo" autoplay muted playsinline></video>

    <div class="emotion-bars" id="emotionBars"></div>

  </div>



  <div class="controls">

    <button id="recordButton">

      <div class="inner"></div>

    </button>

    <label class="upload-btn" title="Upload audio file">

      <input type="file" id="fileUpload" accept="audio/*,.wav,.mp3,.webm,.ogg,.flac" style="display:none" />

      <svg width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><path d="M21 15v4a2 2 0 01-2 2H5a2 2 0 01-2-2v-4"/><polyline points="17 8 12 3 7 8"/><line x1="12" y1="3" x2="12" y2="15"/></svg>

    </label>

    <canvas id="waveCanvas" width="200" height="48"></canvas>

    <div class="timer" id="timer">00:00</div>

  </div>



  <p id="status"></p>

  <a id="audioDownload" style="display:none;text-align:center;color:var(--success);font-size:0.8rem;margin-bottom:8px;cursor:pointer;">Download recorded audio</a>



  <div class="results-grid" id="resultsGrid">

    <div class="result-panel" id="whisperPanel">

      <button class="copy-btn" title="Copy transcript"><svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><rect x="9" y="9" width="13" height="13" rx="2"/><path d="M5 15H4a2 2 0 01-2-2V4a2 2 0 012-2h9a2 2 0 012 2v1"/></svg> Copy</button>

      <h3>WhisperLiveKit &middot; Whisper large-v3-turbo <span class="badge realtime">Real-time</span></h3>

      <div class="timing" id="whisperTiming"></div>

      <div class="transcript" id="whisperTranscript"></div>

    </div>

    <div class="result-panel" id="voxtralPanel">

      <button class="copy-btn" title="Copy transcript"><svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><rect x="9" y="9" width="13" height="13" rx="2"/><path d="M5 15H4a2 2 0 01-2-2V4a2 2 0 012-2h9a2 2 0 012 2v1"/></svg> Copy</button>

      <h3>Voxtral-Mini-4B-Realtime-2602 <span class="badge browser">WebGPU ONNX</span></h3>

      <div class="timing" id="voxtralTiming"></div>

      <div class="transcript" id="voxtralTranscript"></div>

    </div>

    <div class="result-panel" id="parakeetPanel">

      <button class="copy-btn" title="Copy transcript"><svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><rect x="9" y="9" width="13" height="13" rx="2"/><path d="M5 15H4a2 2 0 01-2-2V4a2 2 0 012-2h9a2 2 0 012 2v1"/></svg> Copy</button>

      <h3>Parakeet TDT v3 &middot; 25 languages <span class="badge realtime">CPU ONNX</span></h3>

      <div class="timing" id="parakeetTiming"></div>

      <div class="transcript" id="parakeetTranscript"></div>

    </div>

    <div class="result-panel" id="nemotronPanel">

      <button class="copy-btn" title="Copy transcript"><svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><rect x="9" y="9" width="13" height="13" rx="2"/><path d="M5 15H4a2 2 0 01-2-2V4a2 2 0 012-2h9a2 2 0 012 2v1"/></svg> Copy</button>

      <h3>Nemotron Streaming &middot; English only <span class="badge realtime">CPU ONNX int8</span></h3>

      <div class="timing" id="nemotronTiming"></div>

      <div class="transcript" id="nemotronTranscript"></div>

    </div>

  </div>



  <script>{FER_JS}</script>

  <script>{RECORDER_JS}</script>

</body>

</html>"""


# Base64-encode the recorder HTML so we can embed it in JS without any server route
_RECORDER_HTML_B64 = base64.b64encode(RECORDER_HTML.encode("utf-8")).decode("ascii")

# Inject loader via <img onerror> trick — Gradio 6 strips <script> tags from gr.HTML()
# but preserves inline event handlers on elements like <img>.
EMBED_HTML = (
    '<div id="recorder-container" style="width:100%; height:100vh;">'
    '<p style="text-align:center; padding:40px; color:#888;">Loading comparison interface...</p>'
    '</div>'
    '<img src="" onerror="'
    "(function(){"
    "function inj(){"
    "var c=document.getElementById(\'recorder-container\');"
    "if(!c)return false;"
    "if(c.querySelector(\'iframe\'))return true;"
    "try{"
    "var h=atob(\'" + _RECORDER_HTML_B64 + "\');"
    "var f=document.createElement(\'iframe\');"
    "f.style.width=\'100%\';"
    "f.style.height=\'100%\';"
    "f.style.border=\'none\';"
    "f.setAttribute(\'allow\',\'microphone; display-capture; camera\');"
    "c.innerHTML=\'\';"
    "c.appendChild(f);"
    "f.contentDocument.open();"
    "f.contentDocument.write(h);"
    "f.contentDocument.close();"
    "return true;"
    "}catch(e){c.innerHTML=\'<p style=color:red>Load error: \'+e+\'</p>\';return true;}"
    "}"
    "var iv=setInterval(function(){if(inj())clearInterval(iv);},300);"
    "setTimeout(function(){clearInterval(iv);},20000);"
    "})();"
    '" style="display:none" />'
)

with gr.Blocks() as demo:
    gr.HTML(EMBED_HTML)

# -- FastAPI app (owns all custom routes, Gradio mounted on top) ---------------
import fastapi as _fa
import uvicorn

app = _fa.FastAPI()

# Static files (serves emotion_model_web.onnx)
static_dir = os.path.join(os.path.dirname(os.path.abspath(__file__)), "static")
if os.path.isdir(static_dir):
    app.mount("/static", StaticFiles(directory=static_dir), name="static")


# Permissions middleware for display-capture in iframe
@app.middleware("http")
async def add_permissions_policy(request: Request, call_next):
    response: Response = await call_next(request)
    response.headers["Permissions-Policy"] = "display-capture=*, microphone=*, camera=*"
    return response


# -- WebSocket /asr (WhisperLiveKit real-time) --------------------------------
@app.websocket("/asr")
async def websocket_endpoint(websocket: WebSocket):
    audio_processor = AudioProcessor(transcription_engine=transcription_engine)
    await websocket.accept()
    logger.info("WebSocket connection opened.")

    try:
        await websocket.send_json({"type": "config", "useAudioWorklet": False})
    except Exception as e:
        logger.warning(f"Failed to send config: {e}")

    results_generator = await audio_processor.create_tasks()

    async def send_results():
        try:
            async for response in results_generator:
                await websocket.send_json(response.to_dict())
            await websocket.send_json({"type": "ready_to_stop"})
        except WebSocketDisconnect:
            logger.info("Client disconnected during results.")
        except Exception as e:
            logger.warning(f"Results error: {e}")

    results_task = asyncio.create_task(send_results())

    try:
        while True:
            message = await websocket.receive_bytes()
            await audio_processor.process_audio(message)
    except WebSocketDisconnect:
        logger.info("Client disconnected.")
    except Exception as e:
        logger.warning(f"WebSocket error: {e}")
    finally:
        if not results_task.done():
            results_task.cancel()
        try:
            await results_task
        except asyncio.CancelledError:
            pass
        await audio_processor.cleanup()
        logger.info("WebSocket cleaned up.")


# -- Lazy-loaded sherpa-onnx recognizers (cached after first use) --------------
_parakeet_recognizer = None
_nemotron_recognizer = None


def _get_parakeet():
    global _parakeet_recognizer
    if _parakeet_recognizer is None:
        import onnx_asr
        logger.info("Loading Parakeet TDT v3 via onnx-asr...")
        _parakeet_recognizer = onnx_asr.load_model(
            "nemo-parakeet-tdt-0.6b-v3", providers=["CPUExecutionProvider"]
        ).with_timestamps()
        logger.info("Parakeet TDT v3 ready.")
    return _parakeet_recognizer


def _get_nemotron():
    global _nemotron_recognizer
    if _nemotron_recognizer is None:
        import sherpa_onnx
        from huggingface_hub import hf_hub_download
        repo = "csukuangfj/sherpa-onnx-nemotron-speech-streaming-en-0.6b-int8-2026-01-14"
        logger.info("Downloading Nemotron Streaming int8 model...")
        encoder = hf_hub_download(repo, "encoder.int8.onnx")
        decoder = hf_hub_download(repo, "decoder.int8.onnx")
        joiner = hf_hub_download(repo, "joiner.int8.onnx")
        tokens = hf_hub_download(repo, "tokens.txt")
        logger.info("Loading Nemotron Streaming int8 recognizer...")
        _nemotron_recognizer = sherpa_onnx.OnlineRecognizer.from_transducer(
            encoder=encoder, decoder=decoder, joiner=joiner, tokens=tokens,
            num_threads=2, sample_rate=16000,
        )
        logger.info("Nemotron Streaming ready.")
    return _nemotron_recognizer


def _decode_webm_to_float32(body: bytes):
    """Decode webm/opus audio to 16kHz mono float32 numpy array."""
    import numpy as np
    import tempfile, os, librosa
    with tempfile.NamedTemporaryFile(suffix=".webm", delete=False) as f:
        f.write(body)
        tmp_path = f.name
    try:
        audio_data, _ = librosa.load(tmp_path, sr=16000, mono=True)
    finally:
        os.unlink(tmp_path)
    return audio_data.astype(np.float32)


# -- Parakeet TDT v3 batch endpoint (sherpa-onnx int8, cached) ----------------
@app.post("/parakeet-transcribe")
async def parakeet_transcribe(request: Request):
    body = await request.body()
    audio_data = _decode_webm_to_float32(body)
    import numpy as np
    model = _get_parakeet()
    audio_int16 = (audio_data * 32767).astype(np.int16)
    output = model.recognize(audio_int16)
    text = output.text if hasattr(output, 'text') else str(output)
    tokens = list(output.tokens) if hasattr(output, 'tokens') else []
    timestamps = [round(float(t), 2) for t in output.timestamps] if hasattr(output, 'timestamps') else []
    return {"text": text, "tokens": tokens, "timestamps": timestamps, "engine": "parakeet"}


# -- Nemotron Speech Streaming batch endpoint (sherpa-onnx int8, cached) -------
@app.post("/nemotron-transcribe")
async def nemotron_transcribe(request: Request):
    import numpy as np
    body = await request.body()
    audio_data = _decode_webm_to_float32(body)
    recognizer = _get_nemotron()
    stream = recognizer.create_stream()
    stream.accept_waveform(16000, audio_data)
    tail = np.zeros(int(16000 * 0.5), dtype=np.float32)
    stream.accept_waveform(16000, tail)
    stream.input_finished()
    while recognizer.is_ready(stream):
        recognizer.decode_stream(stream)
    text = recognizer.get_result(stream)
    try:
        tokens = list(stream.result.tokens) if hasattr(stream.result, 'tokens') else []
        timestamps = [round(float(t), 2) for t in stream.result.timestamps] if hasattr(stream.result, 'timestamps') else []
    except Exception:
        tokens = []
        timestamps = []
    return {"text": text, "tokens": tokens, "timestamps": timestamps, "engine": "nemotron"}


# -- Diarization: pyannote speaker-diarization-3.1 pipeline --------------------
_diarize_pipeline = None

def _setup_pyannote_cache():
    """Pre-populate HF cache with bundled model weights."""
    import shutil
    app_dir = os.path.dirname(os.path.abspath(__file__))
    cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface", "hub")
    models = {
        "models--pyannote--segmentation-3.0": {
            "snapshot": "e66f3d3b9eb0873085418a7b813d3b369bf160bb",
            "files": {"pytorch_model.bin": os.path.join(app_dir, "models", "segmentation-3.0", "pytorch_model.bin")},
        },
        "models--pyannote--wespeaker-voxceleb-resnet34-LM": {
            "snapshot": "837717ddb9ff5507820346191109dc79c958d614",
            "files": {"pytorch_model.bin": os.path.join(app_dir, "models", "wespeaker-voxceleb-resnet34-LM", "pytorch_model.bin")},
        },
        "models--pyannote--speaker-diarization-community-1": {
            "snapshot": "3533c8cf8e369892e6b79ff1bf80f7b0286a54ee",
            "files": {
                "plda/plda.npz": os.path.join(app_dir, "models", "speaker-diarization-community-1", "plda", "plda.npz"),
                "plda/xvec_transform.npz": os.path.join(app_dir, "models", "speaker-diarization-community-1", "plda", "xvec_transform.npz"),
            },
        },
    }
    for model_id, info in models.items():
        snap_dir = os.path.join(cache_dir, model_id, "snapshots", info["snapshot"])
        refs_dir = os.path.join(cache_dir, model_id, "refs")
        os.makedirs(snap_dir, exist_ok=True)
        os.makedirs(refs_dir, exist_ok=True)
        refs_main = os.path.join(refs_dir, "main")
        if not os.path.exists(refs_main):
            with open(refs_main, "w") as f:
                f.write(info["snapshot"])
        for fname, src_path in info["files"].items():
            dst = os.path.join(snap_dir, fname)
            os.makedirs(os.path.dirname(dst), exist_ok=True)
            if not os.path.exists(dst) and os.path.exists(src_path):
                shutil.copy2(src_path, dst)
                logger.info(f"Cached {model_id}/{fname}")

def _get_diarize_pipeline():
    global _diarize_pipeline
    if _diarize_pipeline is None:
        from pyannote.audio import Pipeline
        _setup_pyannote_cache()
        models_dir = os.path.join(os.path.dirname(os.path.abspath(__file__)), "models")
        logger.info("Loading pyannote speaker-diarization-3.1 pipeline...")
        old_offline = os.environ.get("HF_HUB_OFFLINE")
        os.environ["HF_HUB_OFFLINE"] = "1"
        try:
            _diarize_pipeline = Pipeline.from_pretrained(os.path.join(models_dir, "speaker-diarization-3.1"))
        finally:
            if old_offline is None:
                os.environ.pop("HF_HUB_OFFLINE", None)
            else:
                os.environ["HF_HUB_OFFLINE"] = old_offline
        logger.info("Diarization pipeline ready.")
    return _diarize_pipeline

@app.post("/diarize")
async def diarize(request: Request):
    import torch
    try:
        body = await request.body()
        audio = _decode_webm_to_float32(body)
        logger.info(f"Diarization: audio length={len(audio)/16000:.1f}s")
    except Exception as e:
        return {"segments": [], "num_speakers": 0, "error": str(e)}

    try:
        pipeline = _get_diarize_pipeline()
        waveform = torch.tensor(audio).unsqueeze(0)
        result = pipeline({"waveform": waveform, "sample_rate": 16000})
        diar = result.speaker_diarization

        # Post-processing: merge similar speakers (numpy cosine, no sklearn)
        import numpy as np
        speaker_labels = sorted(diar.labels())
        merge_map = {}
        if hasattr(result, "speaker_embeddings") and result.speaker_embeddings is not None and len(speaker_labels) > 1:
            emb = result.speaker_embeddings
            norms = np.linalg.norm(emb, axis=1, keepdims=True)
            norms[norms == 0] = 1
            sim = (emb / norms) @ (emb / norms).T
            for i in range(len(speaker_labels)):
                for j in range(i + 1, len(speaker_labels)):
                    if sim[i][j] >= 0.6:
                        target = merge_map.get(speaker_labels[i], speaker_labels[i])
                        merge_map[speaker_labels[j]] = target
                        logger.info(f"Merging {speaker_labels[j]} -> {target} (sim: {sim[i][j]:.3f})")

        segments = []
        speakers_set = set()
        for turn, _, spk in diar.itertracks(yield_label=True):
            actual_spk = merge_map.get(spk, spk)
            speakers_set.add(actual_spk)
            speaker_id = int(actual_spk.split("_")[-1]) + 1
            segments.append({"start": round(turn.start, 2), "end": round(turn.end, 2), "speakers": [speaker_id]})
        num_speakers = len(speakers_set)
        logger.info(f"Diarization done: {num_speakers} speakers, {len(segments)} segments")
        return {"segments": segments, "num_speakers": num_speakers}
    except Exception as e:
        logger.error(f"Diarization failed: {traceback.format_exc()}")
        return {"segments": [], "num_speakers": 0, "error": str(e)}


# -- Server mode startup ------------------------------------------------------
app = gr.mount_gradio_app(app, demo, path="/", ssr_mode=False)
uvicorn.run(app, host="0.0.0.0", port=7860)