Spaces:

RalphThings
/

voice-agent

Sleeping

App Files Files Community

voice-agent / app /speech.py

RalphThings

Deploy Hugging Face Space

5f0a2ac about 11 hours ago

raw

history blame contribute delete

68.8 kB

	from __future__ import annotations

	import asyncio
	import gc
	import json
	import importlib
	import os
	import re
	import shutil
	import subprocess
	import sys
	import tempfile
	from collections.abc import AsyncIterator
	from dataclasses import dataclass
	from functools import cached_property
	from pathlib import Path

	import httpx
	import numpy as np

	from app.audio import wav_bytes_from_float32
	from app.config import settings

	PARALINGUISTIC_TAG_PATTERN = re.compile(r"\[(laugh\|chuckle\|sigh\|cough)\]", flags=re.I)
	ANSI_ESCAPE_PATTERN = re.compile(r"\x1B(?:[@-Z\\-_]\|\[[0-?][ -/][@-~])")
	THINK_BLOCK_PATTERN = re.compile(r"<think>.*?</think>", flags=re.I \| re.S)
	THINK_TAG_PATTERN = re.compile(r"</?think>", flags=re.I)
	ROLE_CONTINUATION_PATTERN = re.compile(r"(?i)\b(?:human\|user\|assistant\|system)\s:\s")
	META_TAIL_PATTERN = re.compile(
	r"(?is)\b(?:thought\|analysis\|reasoning\|explanation\|note)\s:\s.*$\|"
	r"\bthis response\b.*$\|"
	r"\banswering in a conversational tone\b.*$\|"
	r"\byou can add more\b.*$\|"
	r"\bwithout any unnecessary elaboration\b.*$"
	)
	CLI_PROMPT_MARKER = "›"
	INTERNAL_REPLY_PATTERNS = [
	re.compile(r"💭\s*Injected relevant context from memory\.?", flags=re.I),
	re.compile(r"Injected relevant context from memory\.?", flags=re.I),
	re.compile(r"Relevant context from memory\.?", flags=re.I),
	re.compile(r"Context from memory\.?", flags=re.I),
	]

	CHATTERBOX_ONNX_SAMPLE_RATE = 24000
	CHATTERBOX_ONNX_START_SPEECH_TOKEN = 6561
	CHATTERBOX_ONNX_STOP_SPEECH_TOKEN = 6562
	CHATTERBOX_ONNX_SILENCE_TOKEN = 4299
	CHATTERBOX_ONNX_NUM_KV_HEADS = 16
	CHATTERBOX_ONNX_HEAD_DIM = 64
	KOKORO_SAMPLE_RATE = 24000


	@dataclass(frozen=True)
	class TranscriptionResult:
	text: str
	language: str \| None = None
	language_probability: float \| None = None
	backend: str = ""


	class RepetitionPenaltyLogitsProcessor:
	def __init__(self, penalty: float):
	if penalty <= 0:
	raise ValueError("penalty must be > 0")
	self.penalty = float(penalty)

	def __call__(self, input_ids: np.ndarray, scores: np.ndarray) -> np.ndarray:
	score = np.take_along_axis(scores, input_ids, axis=1)
	score = np.where(score < 0, score * self.penalty, score / self.penalty)
	scores_processed = scores.copy()
	np.put_along_axis(scores_processed, input_ids, score, axis=1)
	return scores_processed


	class ChatterboxOnnxTTS:
	def __init__(self) -> None:
	self._model_id = settings.chatterbox_onnx_model_id
	self._dtype = settings.chatterbox_onnx_dtype
	self._provider = settings.chatterbox_onnx_provider
	self._ort = self._load_onnxruntime()
	self._AutoTokenizer = importlib.import_module("transformers").AutoTokenizer
	self._hf_hub_download = importlib.import_module("huggingface_hub").hf_hub_download
	self._librosa = importlib.import_module("librosa")
	self._soundfile = importlib.import_module("soundfile")
	self._tokenizer = self._AutoTokenizer.from_pretrained(self._model_id)
	self._repetition_penalty = RepetitionPenaltyLogitsProcessor(settings.chatterbox_onnx_repetition_penalty)
	self._sessions = self._load_sessions()

	def _load_onnxruntime(self):
	extra_path = settings.chatterbox_onnx_site_packages_path.strip()

	# Import torch first so the working project CUDA stack is initialized before ONNX Runtime.
	try:
	import torch # noqa: F401
	except Exception:
	pass

	try:
	ort = importlib.import_module("onnxruntime")
	except Exception:
	if not extra_path:
	raise
	if extra_path not in sys.path:
	sys.path.insert(0, extra_path)
	ort = importlib.import_module("onnxruntime")

	if self._provider == "cuda":
	providers = ort.get_available_providers()
	if "CUDAExecutionProvider" not in providers:
	raise RuntimeError(
	"onnxruntime does not expose CUDAExecutionProvider in the project environment; "
	f"available providers: {providers}"
	)
	ort.preload_dlls()
	return ort

	def _filename_for(self, name: str) -> str:
	if self._dtype == "fp32":
	return f"{name}.onnx"
	if self._dtype == "q8":
	return f"{name}_quantized.onnx"
	return f"{name}_{self._dtype}.onnx"

	def _download_graph(self, name: str) -> str:
	filename = self._filename_for(name)
	graph = self._hf_hub_download(self._model_id, subfolder="onnx", filename=filename)
	self._hf_hub_download(self._model_id, subfolder="onnx", filename=f"{filename}_data")
	return graph

	def _make_session(self, path: str):
	providers = ["CUDAExecutionProvider"] if self._provider == "cuda" else ["CPUExecutionProvider"]
	return self._ort.InferenceSession(path, providers=providers)

	def _load_sessions(self) -> dict[str, object]:
	return {
	"speech_encoder": self._make_session(self._download_graph("speech_encoder")),
	"embed_tokens": self._make_session(self._download_graph("embed_tokens")),
	"language_model": self._make_session(self._download_graph("language_model")),
	"conditional_decoder": self._make_session(self._download_graph("conditional_decoder")),
	}

	def _resolve_voice_path(self, audio_prompt_path: str \| None) -> str:
	candidate = audio_prompt_path or settings.chatterbox_onnx_voice_path
	if not candidate:
	raise ValueError("No voice reference path configured for Chatterbox ONNX")
	if not Path(candidate).is_file():
	raise FileNotFoundError(f"Voice reference not found: {candidate}")
	return candidate

	def generate(self, text: str, audio_prompt_path: str \| None = None) -> np.ndarray:
	voice_path = self._resolve_voice_path(audio_prompt_path)
	audio_values, _ = self._librosa.load(voice_path, sr=CHATTERBOX_ONNX_SAMPLE_RATE)
	audio_values = audio_values[np.newaxis, :].astype(np.float32)
	input_ids = self._tokenizer(text, return_tensors="np")["input_ids"].astype(np.int64)
	generate_tokens = np.array([[CHATTERBOX_ONNX_START_SPEECH_TOKEN]], dtype=np.int64)

	speech_encoder_session = self._sessions["speech_encoder"]
	embed_tokens_session = self._sessions["embed_tokens"]
	language_model_session = self._sessions["language_model"]
	cond_decoder_session = self._sessions["conditional_decoder"]

	for i in range(settings.chatterbox_onnx_max_new_tokens):
	inputs_embeds = embed_tokens_session.run(None, {"input_ids": input_ids})[0]
	if i == 0:
	cond_emb, prompt_token, speaker_embeddings, speaker_features = speech_encoder_session.run(
	None, {"audio_values": audio_values}
	)
	inputs_embeds = np.concatenate((cond_emb, inputs_embeds), axis=1)
	batch_size, seq_len, _ = inputs_embeds.shape
	past_key_values = {
	item.name: np.zeros(
	[batch_size, CHATTERBOX_ONNX_NUM_KV_HEADS, 0, CHATTERBOX_ONNX_HEAD_DIM],
	dtype=np.float16 if item.type == "tensor(float16)" else np.float32,
	)
	for item in language_model_session.get_inputs()
	if "past_key_values" in item.name
	}
	attention_mask = np.ones((batch_size, seq_len), dtype=np.int64)
	position_ids = np.arange(seq_len, dtype=np.int64).reshape(1, -1).repeat(batch_size, axis=0)

	logits, *present_key_values = language_model_session.run(
	None,
	{
	"inputs_embeds": inputs_embeds,
	"attention_mask": attention_mask,
	"position_ids": position_ids,
	**past_key_values,
	},
	)

	logits = logits[:, -1, :]
	next_token_logits = self._repetition_penalty(generate_tokens, logits)
	input_ids = np.argmax(next_token_logits, axis=-1, keepdims=True).astype(np.int64)
	generate_tokens = np.concatenate((generate_tokens, input_ids), axis=-1)
	if (input_ids.flatten() == CHATTERBOX_ONNX_STOP_SPEECH_TOKEN).all():
	break
	attention_mask = np.concatenate([attention_mask, np.ones((batch_size, 1), dtype=np.int64)], axis=1)
	position_ids = position_ids[:, -1:] + 1
	for j, key in enumerate(past_key_values):
	past_key_values[key] = present_key_values[j]

	speech_tokens = generate_tokens[:, 1:-1]
	silence_tokens = np.full((speech_tokens.shape[0], 3), CHATTERBOX_ONNX_SILENCE_TOKEN, dtype=np.int64)
	speech_tokens = np.concatenate([prompt_token, speech_tokens, silence_tokens], axis=1)
	wav = cond_decoder_session.run(
	None,
	{
	"speech_tokens": speech_tokens,
	"speaker_embeddings": speaker_embeddings,
	"speaker_features": speaker_features,
	},
	)[0].squeeze(axis=0)
	return np.asarray(wav, dtype=np.float32)


	class KokoroTTS:
	def __init__(self) -> None:
	kokoro_module = importlib.import_module("kokoro")
	self._pipeline = kokoro_module.KPipeline(
	lang_code=settings.kokoro_lang_code,
	repo_id=settings.kokoro_repo_id,
	device=self._resolve_device(),
	)
	self._voice = settings.kokoro_voice
	self._speed = settings.kokoro_speed
	self._provider = self._resolve_device()
	self._model_id = settings.kokoro_repo_id
	self._dtype = "fp32"

	def _resolve_device(self) -> str:
	device, fallback_reason = SpeechPipeline._resolve_torch_device_static(
	settings.kokoro_device,
	component="Kokoro",
	)
	if fallback_reason:
	print(fallback_reason, file=sys.stderr)
	if device != settings.kokoro_device:
	print(
	f"Kokoro fallback: using device={device} instead of {settings.kokoro_device}",
	file=sys.stderr,
	)
	return device

	def generate(self, text: str, audio_prompt_path: str \| None = None) -> np.ndarray:
	del audio_prompt_path
	chunks: list[np.ndarray] = []
	for result in self._pipeline(text, voice=self._voice, speed=self._speed):
	audio = result.audio
	if audio is None:
	continue
	if hasattr(audio, "detach"):
	audio = audio.detach().cpu().numpy()
	chunks.append(np.asarray(audio, dtype=np.float32).flatten())
	if not chunks:
	return np.zeros(0, dtype=np.float32)
	return np.concatenate(chunks).astype(np.float32, copy=False)


	class PersistentAgentCliSession:
	def __init__(self, model: str \| None) -> None:
	self._model = model
	self._request_lock = asyncio.Lock()
	self._last_session_id: str \| None = None

	async def stream_events(self, transcript: str, session_id: str \| None = None) -> AsyncIterator[dict]:
	cleaned = transcript.strip()
	if not cleaned:
	return
	prompt_text = self._build_voice_prompt(cleaned)

	async with self._request_lock:
	command = [self._resolve_my_agent_command()]
	if settings.my_agent_force:
	command.append("--force")
	if settings.my_agent_cwd:
	command.extend(["--cwd", settings.my_agent_cwd])
	if self._model:
	command.extend(["--model", self._model])
	command.extend(["--stream-json", "--prompt", prompt_text])

	active_session_id = session_id or self._last_session_id
	if active_session_id:
	command.extend(["--session", active_session_id])

	process = await asyncio.create_subprocess_exec(
	*command,
	cwd=settings.my_agent_cwd or None,
	stdout=asyncio.subprocess.PIPE,
	stderr=asyncio.subprocess.PIPE,
	)

	queue: asyncio.Queue[tuple[str, str \| None]] = asyncio.Queue()
	stdout_task = asyncio.create_task(self._read_stream(process.stdout, "stdout", queue))
	stderr_task = asyncio.create_task(self._read_stream(process.stderr, "stderr", queue))
	saw_error = False

	try:
	open_streams = 2
	while open_streams > 0:
	source, line = await queue.get()
	if line is None:
	open_streams -= 1
	continue
	event = self._parse_stream_line(source, line, prompt_text)
	if event is None:
	continue
	if event.get("kind") == "session_created":
	self._last_session_id = (
	event.get("newSessionId")
	or event.get("session_id")
	or self._last_session_id
	)
	if event.get("kind") == "error":
	saw_error = True
	yield event

	return_code = await process.wait()
	if return_code != 0 and not saw_error:
	yield {"kind": "error", "content": f"my-agent prompt run exited with code {return_code}"}
	finally:
	stdout_task.cancel()
	stderr_task.cancel()
	if process.returncode is None:
	process.terminate()
	await process.wait()

	def _resolve_my_agent_command(self) -> str:
	configured = (settings.my_agent_command or "").strip()
	candidates: list[str] = []
	if configured:
	candidates.append(configured)

	cargo_install = "/home/rapheal/.cargo/bin/my-agent"
	if cargo_install not in candidates:
	candidates.append(cargo_install)

	which_path = shutil.which("my-agent")
	if which_path and which_path not in candidates:
	candidates.append(which_path)

	for candidate in candidates:
	expanded = Path(candidate).expanduser()
	if expanded.is_file() and os.access(expanded, os.X_OK):
	return str(expanded)

	return configured or cargo_install

	def reset_session(self) -> None:
	self._last_session_id = None

	async def _read_stream(
	self,
	stream: asyncio.StreamReader \| None,
	source: str,
	queue: asyncio.Queue[tuple[str, str \| None]],
	) -> None:
	if stream is None:
	await queue.put((source, None))
	return
	try:
	while True:
	raw_line = await stream.readline()
	if not raw_line:
	break
	await queue.put((source, raw_line.decode("utf-8", errors="replace").rstrip()))
	finally:
	await queue.put((source, None))

	def _parse_stream_line(self, source: str, line: str, transcript: str) -> dict \| None:
	clean = self._strip_cli_formatting(line)
	if not clean:
	return None
	if source == "stderr":
	return self._normalize_stderr_line(clean)
	return self._normalize_json_line(clean, transcript)

	def _normalize_json_line(self, line: str, transcript: str) -> dict \| None:
	try:
	payload = json.loads(line)
	except json.JSONDecodeError:
	return self._normalize_text_line(line, transcript)

	if not isinstance(payload, dict):
	return None

	kind = str(payload.get("kind") or "").strip()
	role = str(payload.get("role") or "").strip().lower()
	if kind == "thinking":
	return {"kind": "status", "text": payload.get("content") or "thinking"}
	if kind in {"session_created", "status", "tool_use", "tool_result", "error"}:
	return payload
	if kind == "text":
	payload.setdefault("role", "assistant")
	return payload
	if role in {"assistant", "model"} and isinstance(payload.get("content"), str):
	return {"kind": "text", "role": "assistant", "content": payload["content"]}
	if kind in {"assistant_message", "message"} and isinstance(payload.get("content"), str):
	return {"kind": "text", "role": "assistant", "content": payload["content"]}
	return None

	def _normalize_text_line(self, line: str, transcript: str) -> dict \| None:
	if not line or line == transcript:
	return None
	lower = line.lower()
	if lower in {
	"working on it",
	"working on it.",
	"thinking",
	"building a plan",
	"starting multi-step work",
	"complex task detected; switching to orchestrate mode",
	"simple task detected; using tools",
	}:
	return {"kind": "status", "text": line}
	if "error:" in lower or line.startswith("✗"):
	return {"kind": "error", "content": line}
	return {"kind": "text", "role": "assistant", "content": line}

	def _normalize_stderr_line(self, line: str) -> dict \| None:
	lower = line.lower()
	if (
	lower.startswith("warning:")
	or lower.startswith("warn ")
	or lower.startswith("vision:")
	or lower.startswith("info:")
	):
	return {"kind": "status", "text": line}
	return {"kind": "error", "content": line}

	def _build_voice_prompt(self, transcript: str) -> str:
	preamble = settings.my_agent_voice_preamble.strip()
	if not preamble:
	return transcript
	return f"{preamble}\n\n{transcript}"

	def _strip_cli_formatting(self, text: str) -> str:
	stripped = ANSI_ESCAPE_PATTERN.sub("", text)
	stripped = stripped.replace("\x07", "").replace("\x08", "")
	stripped = re.sub(r"\s+", " ", stripped)
	return stripped.strip()


	class SpeechPipeline:
	def __init__(self) -> None:
	self._whisper_error: str \| None = None
	self._tts_error: str \| None = None
	self._agent_cli = PersistentAgentCliSession(self.my_agent_chat_model)
	self._model_lock = asyncio.Lock()
	self._prefer_low_vram_gpu_swap = settings.whisper_device == "cuda" and self._tts_uses_cuda()
	self._keep_tts_gpu_resident = self._prefer_low_vram_gpu_swap and settings.tts_gpu_resident_preferred
	self._tts_runtime_logged = False

	def preload_models(self) -> None:
	if settings.stt_backend == "parakeet-tdt-v3" and not self._prefer_whisper_transcription():
	_ = self.parakeet
	else:
	_ = self.whisper
	_ = self.tts
	if settings.assistant_backend == "hf-local":
	_ = self.hf_local_generator
	tts = self.__dict__.get("tts")
	if tts is not None:
	try:
	self._generate_tts(tts, "Okay.", None)
	except Exception:
	pass

	async def preload_assistant(self) -> None:
	if settings.assistant_backend != "llama-server":
	return
	try:
	async with httpx.AsyncClient(timeout=10.0) as client:
	await client.get(f"{settings.llama_base_url.rstrip('/')[:-3]}/models")
	payload = {
	"model": settings.llama_model,
	"messages": self._build_chat_messages(
	settings.llama_system_prompt,
	settings.llama_model,
	"Say hello in two words.",
	),
	"max_tokens": 8,
	"temperature": settings.llama_temperature,
	"top_p": settings.llama_top_p,
	"top_k": settings.llama_top_k,
	"repeat_penalty": settings.llama_repetition_penalty,
	"stop": [token.strip() for token in settings.llama_stop_tokens.split(",") if token.strip()],
	"stream": False,
	}
	await client.post(
	f"{settings.llama_base_url.rstrip('/')}/chat/completions",
	headers={"Content-Type": "application/json"},
	json=payload,
	)
	except Exception:
	pass

	def _clear_cached_model(self, *names: str) -> None:
	cleared = False
	for name in names:
	if name in self.__dict__:
	del self.__dict__[name]
	cleared = True
	if cleared:
	gc.collect()
	try:
	import torch

	if torch.cuda.is_available():
	torch.cuda.empty_cache()
	except Exception:
	pass

	def _drop_whisper(self) -> None:
	self._clear_cached_model("whisper")

	def _drop_tts(self) -> None:
	self._clear_cached_model("tts", "backchannel_clips", "tts_prefill_clips")

	def _ensure_whisper_ready(self):
	if self._prefer_low_vram_gpu_swap and not self._keep_tts_gpu_resident:
	self._drop_tts()
	return self.whisper

	def _ensure_tts_ready(self):
	if self._prefer_low_vram_gpu_swap:
	self._drop_whisper()
	return self.tts

	def _tts_uses_cuda(self) -> bool:
	if settings.tts_backend == "chatterbox-onnx":
	return settings.chatterbox_onnx_provider == "cuda"
	if settings.tts_backend == "kokoro":
	return settings.kokoro_device == "cuda"
	return settings.chatterbox_device == "cuda"

	@staticmethod
	def _resolve_torch_device_static(requested_device: str, component: str) -> tuple[str, str \| None]:
	if requested_device != "cuda":
	return requested_device, None

	try:
	import torch
	except Exception as exc: # pragma: no cover
	return "cpu", f"{component} fallback: torch CUDA probe failed ({exc}); using cpu"

	if torch.cuda.is_available():
	return requested_device, None

	return "cpu", f"{component} fallback: CUDA requested but unavailable; using cpu"

	@cached_property
	def whisper(self):
	from faster_whisper import WhisperModel

	device, fallback_reason = self._resolve_torch_device(settings.whisper_device, component="Whisper")
	if fallback_reason:
	print(fallback_reason, file=sys.stderr)

	candidates: list[str] = [settings.whisper_compute_type]
	if device == "cuda":
	for fallback in ("float16", "int8", "float32"):
	if fallback not in candidates:
	candidates.append(fallback)
	else:
	for fallback in ("int8", "float32"):
	if fallback not in candidates:
	candidates.append(fallback)

	last_error: str \| None = None
	for compute_type in candidates:
	try:
	model = WhisperModel(
	model_size_or_path=settings.whisper_model,
	device=device,
	compute_type=compute_type,
	)
	if device != settings.whisper_device:
	print(
	f"Whisper fallback: using device={device} instead of {settings.whisper_device}",
	file=sys.stderr,
	)
	if compute_type != settings.whisper_compute_type:
	print(
	f"Whisper fallback: using compute_type={compute_type} instead of {settings.whisper_compute_type}",
	file=sys.stderr,
	)
	self._whisper_error = None
	return model
	except Exception as exc: # pragma: no cover
	last_error = str(exc)

	self._whisper_error = last_error
	return None

	@cached_property
	def parakeet(self):
	print(
	"STT load backend=parakeet-tdt-v3 "
	f"device={settings.parakeet_device} "
	f"model={settings.parakeet_model_id}",
	file=sys.stderr,
	)
	try:
	nemo_asr = importlib.import_module("nemo.collections.asr")
	model = nemo_asr.models.ASRModel.from_pretrained(model_name=settings.parakeet_model_id)
	device, fallback_reason = self._resolve_torch_device(settings.parakeet_device, component="Parakeet")
	if fallback_reason:
	print(fallback_reason, file=sys.stderr)
	try:
	model = model.to(device)
	except Exception as exc:
	if device != "cpu":
	print(
	f"Parakeet fallback: failed to move to {device} ({exc}); using cpu",
	file=sys.stderr,
	)
	model = model.to("cpu")
	device = "cpu"
	else:
	raise
	if device != settings.parakeet_device:
	print(
	f"Parakeet fallback: using device={device} instead of {settings.parakeet_device}",
	file=sys.stderr,
	)
	self._whisper_error = None
	return model
	except Exception as exc: # pragma: no cover
	self._whisper_error = str(exc)
	print(f"Parakeet load failure: {exc}", file=sys.stderr)
	return None

	@cached_property
	def tts(self):
	try:
	if settings.tts_backend == "kokoro":
	print(
	"TTS load backend=kokoro "
	f"device={settings.kokoro_device} "
	f"voice={settings.kokoro_voice}",
	file=sys.stderr,
	)
	return KokoroTTS()

	if settings.tts_backend == "chatterbox-onnx":
	tts = ChatterboxOnnxTTS()
	print(
	"TTS load backend=chatterbox-onnx "
	f"provider={settings.chatterbox_onnx_provider} "
	f"dtype={settings.chatterbox_onnx_dtype}",
	file=sys.stderr,
	)
	return tts

	from chatterbox.tts_turbo import ChatterboxTurboTTS

	device, fallback_reason = self._resolve_torch_device(settings.chatterbox_device, component="Chatterbox")
	if fallback_reason:
	print(fallback_reason, file=sys.stderr)
	if device != settings.chatterbox_device:
	print(
	f"Chatterbox fallback: using device={device} instead of {settings.chatterbox_device}",
	file=sys.stderr,
	)
	print(
	f"TTS load backend=chatterbox-pytorch device={device}",
	file=sys.stderr,
	)
	return ChatterboxTurboTTS.from_pretrained(device=device)
	except Exception as exc: # pragma: no cover
	self._tts_error = str(exc)
	if settings.tts_backend == "chatterbox-onnx":
	try:
	from chatterbox.tts_turbo import ChatterboxTurboTTS

	device, fallback_reason = self._resolve_torch_device(settings.chatterbox_device, component="Chatterbox")
	if fallback_reason:
	print(fallback_reason, file=sys.stderr)
	if device != settings.chatterbox_device:
	print(
	f"Chatterbox fallback: using device={device} instead of {settings.chatterbox_device}",
	file=sys.stderr,
	)
	print(
	f"TTS load backend=chatterbox-pytorch fallback_from=onnx device={device}",
	file=sys.stderr,
	)
	fallback = ChatterboxTurboTTS.from_pretrained(device=device)
	self._tts_error = f"ONNX backend failed, fell back to PyTorch: {exc}"
	return fallback
	except Exception:
	pass
	return None

	@cached_property
	def backchannel_clips(self) -> dict[str, np.ndarray]:
	tts = self.tts
	if tts is None:
	return {}

	clips: dict[str, np.ndarray] = {}
	for text in ("mm-hmm", "yeah", "right"):
	try:
	clips[text] = self._generate_tts(tts, text, None)
	except Exception:
	continue
	return clips

	@cached_property
	def tts_prefill_clips(self) -> dict[str, np.ndarray]:
	tts = self.tts
	if tts is None or not settings.tts_prefill_enabled:
	return {}

	clips: dict[str, np.ndarray] = {}
	for text in (item.strip() for item in settings.tts_prefill_choices.split(",")):
	if not text:
	continue
	try:
	clips[text.lower()] = self._generate_tts(tts, text, None)
	except Exception:
	continue
	return clips

	@cached_property
	def hf_local_generator(self):
	transformers = importlib.import_module("transformers")
	torch = importlib.import_module("torch")
	tokenizer = transformers.AutoTokenizer.from_pretrained(settings.hf_local_model_id)
	if tokenizer.pad_token_id is None and tokenizer.eos_token_id is not None:
	tokenizer.pad_token = tokenizer.eos_token

	dtype_name = settings.hf_local_dtype.lower().strip()
	dtype_map = {
	"float32": torch.float32,
	"fp32": torch.float32,
	"float16": torch.float16,
	"fp16": torch.float16,
	"bfloat16": torch.bfloat16,
	"bf16": torch.bfloat16,
	}
	torch_dtype = dtype_map.get(dtype_name, torch.float32)
	device, fallback_reason = self._resolve_torch_device(settings.hf_local_device, component="HF local LLM")
	if fallback_reason:
	print(fallback_reason, file=sys.stderr)

	model_kwargs: dict[str, object] = {"torch_dtype": torch_dtype}
	if device == "cuda":
	model_kwargs["device_map"] = "auto"

	model = transformers.AutoModelForCausalLM.from_pretrained(
	settings.hf_local_model_id,
	low_cpu_mem_usage=True,
	**model_kwargs,
	)
	if device == "cpu":
	model.to("cpu")
	model.eval()
	if not settings.hf_local_do_sample:
	try:
	model.generation_config.do_sample = False
	model.generation_config.temperature = None
	model.generation_config.top_p = None
	model.generation_config.top_k = None
	except Exception:
	pass
	return {
	"torch": torch,
	"tokenizer": tokenizer,
	"model": model,
	"device": device,
	"model_id": settings.hf_local_model_id,
	}

	@cached_property
	def my_agent_chat_model(self) -> str \| None:
	if settings.my_agent_model:
	return settings.my_agent_model

	try:
	result = subprocess.run(
	[self._agent_cli._resolve_my_agent_command(), "config", "--get-model", "chat"],
	capture_output=True,
	check=True,
	text=True,
	)
	except Exception:
	return None

	match = re.search(r"Model for 'chat':\s*(.+)", result.stdout)
	if not match:
	return None
	model = match.group(1).strip()
	return model or None

	def assistant_backend_metadata(self) -> tuple[str, str]:
	if settings.assistant_backend == "my-agent-cli":
	model = self.my_agent_chat_model or "cli default"
	return settings.assistant_backend, model
	if settings.assistant_backend == "hf-local":
	return settings.assistant_backend, settings.hf_local_model_id
	if settings.assistant_backend == "llama-server":
	return settings.assistant_backend, settings.llama_model
	return settings.assistant_backend, settings.openrouter_model

	def reset_assistant_session(self) -> None:
	self._agent_cli.reset_session()

	async def transcribe(self, audio: np.ndarray) -> TranscriptionResult:
	if audio.size == 0:
	return TranscriptionResult(text="", backend="none")

	async with self._model_lock:
	if settings.stt_backend == "parakeet-tdt-v3" and not self._prefer_whisper_transcription():
	parakeet = self.parakeet
	if parakeet is None:
	return TranscriptionResult(
	text=f"[parakeet unavailable] {self._whisper_error or 'model failed to load'}",
	backend="parakeet",
	)
	return await asyncio.to_thread(self._run_parakeet_transcription, parakeet, audio)

	whisper = self._ensure_whisper_ready()
	if whisper is None:
	return TranscriptionResult(
	text=f"[whisper unavailable] {self._whisper_error or 'model failed to load'}",
	backend="whisper",
	)

	return await asyncio.to_thread(
	self._run_transcription,
	whisper,
	audio,
	settings.whisper_beam_size,
	settings.whisper_best_of,
	settings.whisper_log_prob_threshold,
	settings.whisper_no_speech_threshold,
	)

	async def transcribe_fallback(self, audio: np.ndarray) -> TranscriptionResult:
	if audio.size == 0:
	return TranscriptionResult(text="", backend="none")

	async with self._model_lock:
	if settings.stt_backend == "parakeet-tdt-v3" and not self._prefer_whisper_transcription():
	parakeet = self.parakeet
	if parakeet is None:
	return TranscriptionResult(text="", backend="parakeet")
	return await asyncio.to_thread(self._run_parakeet_transcription, parakeet, audio)

	whisper = self._ensure_whisper_ready()
	if whisper is None:
	return TranscriptionResult(text="", backend="whisper")

	return await asyncio.to_thread(
	self._run_transcription,
	whisper,
	audio,
	settings.whisper_fallback_beam_size,
	settings.whisper_fallback_best_of,
	settings.whisper_fallback_log_prob_threshold,
	settings.whisper_fallback_no_speech_threshold,
	)

	async def transcribe_partial(self, audio: np.ndarray) -> str:
	if audio.size == 0:
	return ""

	async with self._model_lock:
	if settings.stt_backend == "parakeet-tdt-v3" and not self._prefer_whisper_transcription():
	return ""

	whisper = self._ensure_whisper_ready()
	if whisper is None:
	return ""

	def _run() -> str:
	prepared_audio = self._prepare_audio_for_whisper(audio)
	language = self._resolved_stt_language()
	segments, _ = whisper.transcribe(
	prepared_audio,
	language=language,
	vad_filter=False,
	beam_size=1,
	best_of=1,
	temperature=0.0,
	condition_on_previous_text=False,
	without_timestamps=True,
	log_prob_threshold=settings.whisper_log_prob_threshold,
	no_speech_threshold=settings.whisper_no_speech_threshold,
	)
	transcript = " ".join(segment.text.strip() for segment in segments).strip()
	return self._normalize_transcript(transcript)

	return await asyncio.to_thread(_run)

	async def generate_reply(self, transcript: str) -> str:
	sentences = []
	async for sentence in self.stream_reply_sentences(transcript):
	sentences.append(sentence)
	if not sentences:
	cleaned = transcript.strip()
	return "I didn't catch that." if not cleaned else "Sorry, give me a second."
	return " ".join(sentences).strip()

	async def stream_reply_sentences(
	self,
	transcript: str,
	*,
	conversation_history: list[dict[str, str]] \| None = None,
	response_language: str \| None = None,
	) -> AsyncIterator[str]:
	cleaned = transcript.strip()
	if not cleaned:
	yield "I didn't catch that."
	return

	try:
	if settings.assistant_backend == "hf-local":
	async for sentence in self._stream_hf_local_sentences(
	cleaned,
	conversation_history=conversation_history,
	response_language=response_language,
	):
	yield sentence
	return

	if settings.assistant_backend == "llama-server":
	async for sentence in self._stream_openai_compatible_sentences(
	transcript=cleaned,
	conversation_history=conversation_history,
	response_language=response_language,
	base_url=settings.llama_base_url,
	api_key=settings.llama_api_key,
	model=settings.llama_model,
	system_prompt=settings.llama_system_prompt,
	max_tokens=settings.llama_max_tokens,
	temperature=settings.llama_temperature,
	top_p=settings.llama_top_p,
	top_k=settings.llama_top_k,
	repetition_penalty=settings.llama_repetition_penalty,
	stop_tokens=[token.strip() for token in settings.llama_stop_tokens.split(",") if token.strip()],
	):
	yield sentence
	return

	api_key = os.getenv("OPENROUTER_API_KEY") or settings.openrouter_api_key
	if api_key and api_key.startswith("$OPENROUTER_API_KEY"):
	api_key = None
	if not api_key:
	yield "Sorry, give me a second."
	return

	headers = {
	"Authorization": f"Bearer {api_key}",
	"HTTP-Referer": settings.openrouter_site_url,
	"X-Title": settings.openrouter_app_name,
	}
	async for sentence in self._stream_openai_compatible_sentences(
	transcript=cleaned,
	conversation_history=conversation_history,
	response_language=response_language,
	base_url=settings.openrouter_base_url,
	api_key=api_key,
	model=settings.openrouter_model,
	system_prompt=settings.openrouter_system_prompt,
	max_tokens=settings.openrouter_max_tokens,
	temperature=settings.openrouter_temperature,
	top_p=1.0,
	top_k=0,
	repetition_penalty=1.0,
	stop_tokens=[],
	extra_headers=headers,
	):
	yield sentence
	except Exception as exc:
	print(f"Assistant backend failure backend={settings.assistant_backend}: {exc}", file=sys.stderr)
	yield "Sorry, give me a second."

	async def _stream_hf_local_sentences(
	self,
	transcript: str,
	*,
	conversation_history: list[dict[str, str]] \| None = None,
	response_language: str \| None = None,
	) -> AsyncIterator[str]:
	text = await asyncio.to_thread(
	self._generate_hf_local_reply,
	transcript,
	conversation_history,
	response_language,
	)
	if not text:
	return

	buffer = text.strip()
	sentences, remainder = self._split_complete_sentences(buffer)
	for sentence in sentences:
	yield sentence
	if remainder.strip():
	yield remainder.strip()

	def _generate_hf_local_reply(
	self,
	transcript: str,
	conversation_history: list[dict[str, str]] \| None = None,
	response_language: str \| None = None,
	) -> str:
	runtime = self.hf_local_generator
	torch = runtime["torch"]
	tokenizer = runtime["tokenizer"]
	model = runtime["model"]
	device = runtime["device"]

	encoded = self._encode_hf_local_prompt(
	tokenizer,
	transcript,
	conversation_history=conversation_history,
	response_language=response_language,
	)
	tokenized = encoded["input_ids"]
	attention_mask = encoded["attention_mask"]

	if device == "cuda":
	tokenized = tokenized.to("cuda")
	attention_mask = attention_mask.to("cuda")

	generate_kwargs = {
	"input_ids": tokenized,
	"attention_mask": attention_mask,
	"max_new_tokens": settings.hf_local_max_new_tokens,
	"pad_token_id": tokenizer.pad_token_id,
	"eos_token_id": tokenizer.eos_token_id,
	}
	if settings.hf_local_do_sample:
	generate_kwargs.update(
	{
	"do_sample": True,
	"temperature": settings.hf_local_temperature,
	"top_p": settings.hf_local_top_p,
	}
	)
	else:
	generate_kwargs["do_sample"] = False

	with torch.inference_mode():
	generated = model.generate(**generate_kwargs)

	new_tokens = generated[:, tokenized.shape[-1]:]
	text = tokenizer.decode(new_tokens[0], skip_special_tokens=True)
	normalized = self._normalize_hf_local_reply(text)
	print(f"HF local raw reply={text!r}", file=sys.stderr)
	print(f"HF local normalized reply={normalized!r}", file=sys.stderr)
	return normalized

	def _encode_hf_local_prompt(
	self,
	tokenizer,
	transcript: str,
	*,
	conversation_history: list[dict[str, str]] \| None = None,
	response_language: str \| None = None,
	):
	prefix = self._augment_system_prompt(settings.hf_local_prompt_prefix, response_language)
	messages = []
	if prefix:
	messages.append({"role": "system", "content": prefix})
	for message in conversation_history or []:
	role = (message.get("role") or "").strip().lower()
	content = (message.get("content") or "").strip()
	if role in {"user", "assistant"} and content:
	messages.append({"role": role, "content": content})
	messages.append({"role": "user", "content": transcript})

	if hasattr(tokenizer, "apply_chat_template"):
	try:
	return tokenizer.apply_chat_template(
	messages,
	tokenize=True,
	add_generation_prompt=True,
	return_tensors="pt",
	return_dict=True,
	)
	except Exception:
	pass

	prompt = self._build_hf_local_prompt(
	transcript,
	conversation_history=conversation_history,
	response_language=response_language,
	)
	return tokenizer(
	prompt,
	return_tensors="pt",
	truncation=True,
	max_length=1024,
	padding=False,
	)

	async def _stream_openai_compatible_sentences(
	self,
	*,
	transcript: str,
	conversation_history: list[dict[str, str]] \| None,
	response_language: str \| None,
	base_url: str,
	api_key: str \| None,
	model: str,
	system_prompt: str,
	max_tokens: int,
	temperature: float,
	top_p: float,
	top_k: int,
	repetition_penalty: float,
	stop_tokens: list[str],
	extra_headers: dict[str, str] \| None = None,
	) -> AsyncIterator[str]:
	headers = {"Content-Type": "application/json"}
	if api_key:
	headers["Authorization"] = f"Bearer {api_key}"
	if extra_headers:
	headers.update(extra_headers)

	payload = {
	"model": model,
	"messages": self._build_chat_messages(
	system_prompt,
	model,
	transcript,
	conversation_history=conversation_history,
	response_language=response_language,
	),
	"max_tokens": max_tokens,
	"temperature": temperature,
	"top_p": top_p,
	"top_k": top_k,
	"repeat_penalty": repetition_penalty,
	"stream": True,
	}
	if stop_tokens:
	payload["stop"] = stop_tokens

	async with httpx.AsyncClient(timeout=20.0) as client:
	async with client.stream(
	"POST",
	f"{base_url.rstrip('/')}/chat/completions",
	headers=headers,
	json=payload,
	) as response:
	response.raise_for_status()
	buffer = ""
	async for raw_line in response.aiter_lines():
	line = raw_line.strip()
	if not line.startswith("data:"):
	continue
	data = line[5:].strip()
	if data == "[DONE]":
	break
	try:
	event = json.loads(data)
	except json.JSONDecodeError:
	continue
	delta = self._extract_stream_delta(event)
	if not delta:
	continue
	buffer += delta
	sentences, buffer = self._split_complete_sentences(buffer)
	for sentence in sentences:
	yield sentence
	if buffer.strip():
	yield buffer.strip()

	async def stream_agent_cli_events(self, transcript: str, session_id: str \| None = None) -> AsyncIterator[dict]:
	async for event in self._agent_cli.stream_events(transcript, session_id):
	yield event

	def _build_chat_messages(
	self,
	system_prompt: str,
	model: str,
	transcript: str,
	*,
	conversation_history: list[dict[str, str]] \| None = None,
	response_language: str \| None = None,
	) -> list[dict[str, str]]:
	normalized_prompt = self._augment_system_prompt(system_prompt, response_language)
	model_name = model.lower()
	if "gemma" in model_name:
	prompt_parts = [normalized_prompt]
	for message in conversation_history or []:
	role = (message.get("role") or "").strip().lower()
	content = (message.get("content") or "").strip()
	if role == "user" and content:
	prompt_parts.append(f"User: {content}")
	elif role == "assistant" and content:
	prompt_parts.append(f"Assistant: {content}")
	prompt_parts.append(f"User: {transcript}")
	prompt_parts.append("Assistant:")
	prompt = "\n\n".join(prompt_parts)
	return [{"role": "user", "content": prompt}]
	messages = [{"role": "system", "content": normalized_prompt}]
	for message in conversation_history or []:
	role = (message.get("role") or "").strip().lower()
	content = (message.get("content") or "").strip()
	if role in {"user", "assistant"} and content:
	messages.append({"role": role, "content": content})
	messages.append({"role": "user", "content": transcript})
	return messages

	def _build_hf_local_prompt(
	self,
	transcript: str,
	*,
	conversation_history: list[dict[str, str]] \| None = None,
	response_language: str \| None = None,
	) -> str:
	prefix = self._augment_system_prompt(settings.hf_local_prompt_prefix, response_language)
	if not prefix:
	return transcript
	prompt_parts = [prefix]
	for message in conversation_history or []:
	role = (message.get("role") or "").strip().lower()
	content = (message.get("content") or "").strip()
	if role == "user" and content:
	prompt_parts.append(f"User: {content}")
	elif role == "assistant" and content:
	prompt_parts.append(f"Assistant: {content}")
	prompt_parts.append(f"User: {transcript}")
	prompt_parts.append("Assistant:")
	return "\n\n".join(prompt_parts)

	def _augment_system_prompt(self, system_prompt: str, response_language: str \| None) -> str:
	prompt = system_prompt.strip()
	language_hint = self._language_instruction(response_language)
	if not language_hint:
	return prompt
	if not prompt:
	return language_hint
	return f"{prompt} {language_hint}"

	def _language_instruction(self, language_code: str \| None) -> str:
	if not language_code or language_code == "auto":
	return (
	"By default, reply in the same language as the user's latest message. "
	"If the user explicitly asks for translation, comparison, or output in two or more languages, include all requested languages."
	)
	language_names = {
	"en": "English",
	"es": "Spanish",
	"fr": "French",
	"de": "German",
	"it": "Italian",
	"pt": "Portuguese",
	"nl": "Dutch",
	"ru": "Russian",
	"uk": "Ukrainian",
	"pl": "Polish",
	"tr": "Turkish",
	"ar": "Arabic",
	"hi": "Hindi",
	"ja": "Japanese",
	"ko": "Korean",
	"zh": "Chinese",
	}
	label = language_names.get(language_code.lower(), language_code)
	return (
	f"By default, reply in {label}. "
	"If the user explicitly asks for translation, comparison, or output in two or more languages, include all requested languages. "
	"Keep the answer natural and concise."
	)

	async def stream_synthesized_chunks(self, text: str, voice_prompt_path: str \| None = None) -> AsyncIterator[np.ndarray]:
	chunks = self._split_tts_chunks(text)
	if not chunks:
	chunks = [text]

	async with self._model_lock:
	tts = self._ensure_tts_ready()
	if tts is None:
	yield self._beep()
	return

	for chunk in chunks:
	audio = await asyncio.to_thread(self._generate_tts, tts, chunk, voice_prompt_path)
	yield audio

	async def synthesize_sentences(self, text: str, voice_prompt_path: str \| None = None) -> list[np.ndarray]:
	return [chunk async for chunk in self.stream_synthesized_chunks(text, voice_prompt_path=voice_prompt_path)]

	async def stream_reply_audio(self, text: str, transcript: str, voice_prompt_path: str \| None = None) -> AsyncIterator[np.ndarray]:
	if (
	not self._prefer_low_vram_gpu_swap
	and self.tts is not None
	and voice_prompt_path is None
	and settings.tts_prefill_enabled
	and len(text.strip()) >= settings.tts_prefill_min_chars
	):
	prefill = self._choose_tts_prefill(text, transcript)
	if prefill:
	cached = self.tts_prefill_clips.get(prefill.lower())
	if cached is not None:
	yield cached.copy()

	async for chunk in self.stream_synthesized_chunks(text, voice_prompt_path=voice_prompt_path):
	yield chunk

	async def synthesize_reply(self, text: str, transcript: str, voice_prompt_path: str \| None = None) -> list[np.ndarray]:
	return [
	chunk
	async for chunk in self.stream_reply_audio(text, transcript, voice_prompt_path=voice_prompt_path)
	]

	async def synthesize_backchannel(self, text: str, voice_prompt_path: str \| None = None) -> list[np.ndarray]:
	if not self._prefer_low_vram_gpu_swap and not voice_prompt_path:
	normalized = text.strip().lower()
	cached = self.backchannel_clips.get(normalized)
	if cached is not None:
	return [cached.copy()]
	return await self.synthesize_sentences(text, voice_prompt_path=voice_prompt_path)

	def _generate_tts(self, tts, text: str, voice_prompt_path: str \| None) -> np.ndarray:
	if not self._tts_runtime_logged:
	backend = type(tts).__name__
	details = [f"class={backend}"]
	provider = getattr(tts, "_provider", None)
	dtype = getattr(tts, "_dtype", None)
	model_id = getattr(tts, "_model_id", None)
	if provider:
	details.append(f"provider={provider}")
	if dtype:
	details.append(f"dtype={dtype}")
	if model_id:
	details.append(f"model={model_id}")
	print(f"TTS generate {' '.join(details)}", file=sys.stderr)
	self._tts_runtime_logged = True
	kwargs = {"audio_prompt_path": voice_prompt_path} if voice_prompt_path else {}
	wav = tts.generate(text, **kwargs)
	if hasattr(wav, "detach"):
	wav = wav.detach().cpu().numpy()
	return np.asarray(wav, dtype=np.float32).flatten()

	def _beep(self) -> np.ndarray:
	duration_s = 0.25
	sample_rate = 24000
	time = np.linspace(0, duration_s, int(sample_rate * duration_s), endpoint=False)
	return (0.15 * np.sin(2 * np.pi * 660 * time)).astype(np.float32)

	def _extract_stream_delta(self, event: dict) -> str:
	choices = event.get("choices") or []
	if not choices:
	return ""
	delta = choices[0].get("delta") or {}
	content = delta.get("content") or ""
	if isinstance(content, str):
	return content
	if isinstance(content, list):
	parts: list[str] = []
	for item in content:
	if isinstance(item, dict) and item.get("type") == "text":
	parts.append(item.get("text") or "")
	return "".join(parts)
	return ""

	def render_assistant_text(self, text: str, transcript: str) -> tuple[str, str]:
	tts_text = self._prepare_tts_text(text, transcript)
	display_text = self._strip_paralinguistic_tags(tts_text)
	return display_text, tts_text

	def _split_complete_sentences(self, buffer: str) -> tuple[list[str], str]:
	chunks: list[str] = []
	remainder = buffer.lstrip()
	while remainder:
	end_index = self._next_stream_boundary_end(remainder)
	if end_index is None:
	break
	chunk = remainder[:end_index].strip()
	if chunk:
	chunks.append(chunk)
	remainder = remainder[end_index:].lstrip()
	return chunks, remainder

	def _next_stream_boundary_end(self, text: str) -> int \| None:
	split_match = self._find_chunk_boundary(text)
	if split_match is not None:
	return split_match.end()
	return None

	def _find_chunk_boundary(self, text: str) -> re.Match[str] \| None:
	clause_match = re.search(r".{18,}?[,:;](?:\s+\|$)", text, flags=re.S)
	soft_clause_match = re.search(
	r".{22,}?\b(?:and\|but\|so\|because\|then\|while\|which)\b(?:\s+\|$)",
	text,
	flags=re.S \| re.I,
	)
	sentence_match = re.search(r".*?[.!?](?:\s+\|$)", text, flags=re.S)
	clause_match = clause_match or soft_clause_match
	if clause_match is None:
	return sentence_match
	if sentence_match is None:
	return clause_match
	return clause_match if clause_match.end() <= sentence_match.end() else sentence_match

	def _find_early_stream_boundary(self, text: str) -> int \| None:
	if len(text) < settings.assistant_stream_chunk_min_chars:
	return None

	max_chars = max(settings.assistant_stream_chunk_min_chars, settings.assistant_stream_chunk_max_chars)
	search_limit = min(len(text), max_chars)
	dangling_words = {
	"a",
	"an",
	"the",
	"and",
	"or",
	"but",
	"so",
	"because",
	"then",
	"while",
	"which",
	"who",
	"what",
	"when",
	"where",
	"why",
	"how",
	"if",
	"that",
	"this",
	"these",
	"those",
	"to",
	"of",
	"for",
	"with",
	"at",
	"from",
	"in",
	"on",
	"is",
	"are",
	"was",
	"were",
	"be",
	"been",
	"being",
	"do",
	"does",
	"did",
	"can",
	"could",
	"should",
	"would",
	"will",
	"have",
	"has",
	"had",
	}
	boundary = None
	for match in re.finditer(r"\s+", text[:search_limit]):
	boundary = match.end()

	if boundary is None:
	return None

	candidate = text[:boundary].strip(" \t\r\n,;:")
	if len(candidate) < settings.assistant_stream_chunk_min_chars:
	return None

	words = re.findall(r"\b[\w'-]+\b", candidate)
	if len(words) < settings.assistant_stream_chunk_min_words:
	return None
	if words[-1].lower() in dangling_words:
	return None
	return boundary

	def _prepare_tts_text(self, text: str, transcript: str) -> str:
	cleaned = self._normalize_reply_text(text)
	if not cleaned:
	return ""
	cleaned = self._normalize_existing_tags(cleaned)
	transcript_word_count = len(re.findall(r"\w+", transcript))
	if (
	settings.tts_auto_ack_prefix_enabled
	and transcript_word_count >= 10
	and not re.match(r"(?i)^(yeah\|right\|mm-hmm\|got it\|okay\|ok\|sure)\b", cleaned)
	):
	if len(cleaned) > 1:
	cleaned = f"Mm-hmm, {cleaned[0].lower() + cleaned[1:]}"
	else:
	cleaned = f"Mm-hmm, {cleaned.lower()}"
	return cleaned

	def _split_tts_chunks(self, text: str) -> list[str]:
	cleaned = text.strip()
	if not cleaned:
	return []
	return [cleaned]

	def _extract_short_lead_chunk(self, text: str) -> str:
	words = text.split()
	if len(words) <= settings.tts_first_chunk_max_words and len(text) <= settings.tts_first_chunk_max_chars:
	return text

	clause_match = re.search(rf"^(.{{1,{settings.tts_first_chunk_max_chars}}}[,;:])(?=\s\|$)", text)
	if clause_match:
	candidate = clause_match.group(1).strip()
	if len(candidate.split()) <= settings.tts_first_chunk_max_words + 2:
	return candidate

	candidate = " ".join(words[: settings.tts_first_chunk_max_words]).strip()
	return re.sub(r"[,:;]+$", "", candidate).strip() or text

	def _choose_tts_prefill(self, text: str, transcript: str) -> str:
	if re.match(r"(?i)^(okay\|yeah\|right\|got it\|mm-hmm\|uh-huh)\b", text.strip()):
	return ""
	choices = [item.strip() for item in settings.tts_prefill_choices.split(",") if item.strip()]
	if not choices:
	return ""
	seed = f"{transcript.strip().lower()}::{text.strip().lower()}"
	return choices[abs(hash(seed)) % len(choices)]

	def _normalize_reply_text(self, text: str) -> str:
	cleaned = text
	for pattern in INTERNAL_REPLY_PATTERNS:
	cleaned = pattern.sub(" ", cleaned)
	if settings.hf_local_hide_thinking:
	cleaned = THINK_BLOCK_PATTERN.sub(" ", cleaned)
	cleaned = THINK_TAG_PATTERN.sub(" ", cleaned)
	cleaned = re.sub(r"\s+", " ", cleaned).strip()
	cleaned = re.sub(r"^\s[,.:;!?-]+\s", "", cleaned)
	cleaned = re.sub(r"\s+([,.:;!?])", r"\1", cleaned)
	return cleaned

	def _normalize_hf_local_reply(self, text: str) -> str:
	cleaned = self._normalize_reply_text(text)
	cleaned = re.sub(r"(?i)^assistant:\s*", "", cleaned)
	cleaned = re.sub(r"(?i)\buser:\s.$", "", cleaned).strip()
	role_match = ROLE_CONTINUATION_PATTERN.search(cleaned)
	if role_match:
	cleaned = cleaned[: role_match.start()].strip()
	cleaned = META_TAIL_PATTERN.sub("", cleaned).strip()
	cleaned = re.sub(r"[🙂-🙏🤖😊😂🤣😍😘😉😎😄😁😃]+", "", cleaned)
	cleaned = self._dedupe_repeated_reply(cleaned)
	cleaned = self._limit_spoken_sentences(cleaned, max_sentences=2)
	return cleaned

	def _dedupe_repeated_reply(self, text: str) -> str:
	cleaned = text.strip()
	if not cleaned:
	return cleaned

	if len(cleaned) % 2 == 0:
	half = len(cleaned) // 2
	left = cleaned[:half].strip(" \t\r\n,.;:!?")
	right = cleaned[half:].strip(" \t\r\n,.;:!?")
	if left and left.lower() == right.lower():
	return left

	sentence_parts = re.split(r"(?<=[.!?])\s+", cleaned)
	deduped: list[str] = []
	for part in sentence_parts:
	normalized = part.strip()
	if not normalized:
	continue
	if deduped and deduped[-1].strip().lower() == normalized.lower():
	continue
	if normalized.endswith("?"):
	if any(existing.strip().lower() == normalized.lower() for existing in deduped):
	continue
	deduped.append(normalized)
	return " ".join(deduped).strip()

	def _limit_spoken_sentences(self, text: str, max_sentences: int) -> str:
	cleaned = text.strip()
	if not cleaned or max_sentences <= 0:
	return cleaned
	parts = re.split(r"(?<=[.!?])\s+", cleaned)
	kept: list[str] = []
	for part in parts:
	normalized = part.strip()
	if not normalized:
	continue
	kept.append(normalized)
	if len(kept) >= max_sentences:
	break
	if kept:
	return " ".join(kept).strip()
	return cleaned

	def _normalize_existing_tags(self, text: str) -> str:
	return PARALINGUISTIC_TAG_PATTERN.sub(lambda match: match.group(0).lower(), text)

	def _strip_paralinguistic_tags(self, text: str) -> str:
	stripped = PARALINGUISTIC_TAG_PATTERN.sub("", text)
	stripped = re.sub(r"\s+", " ", stripped)
	stripped = re.sub(r"\s+([,.:;!?])", r"\1", stripped)
	return stripped.strip()

	def _normalize_transcript(self, transcript: str) -> str:
	cleaned = transcript.strip()
	normalized = re.sub(r"[^\w\s']", "", cleaned.lower())
	normalized = re.sub(r"\s+", " ", normalized).strip()
	if normalized in {
	"",
	"thank you for watching",
	"thanks for watching",
	}:
	return ""
	return cleaned

	def is_likely_hallucination(self, transcript: str, audio_rms: float) -> bool:
	normalized = re.sub(r"[^\w\s']", "", transcript.lower())
	normalized = re.sub(r"\s+", " ", normalized).strip()
	if not normalized:
	return False
	if audio_rms > settings.hallucination_max_rms:
	return False
	words = [word for word in normalized.split(" ") if word]
	if len(words) > settings.hallucination_max_words:
	return False
	blocked = {phrase.strip() for phrase in settings.hallucination_phrases.split(",") if phrase.strip()}
	return normalized in blocked

	def _resolve_torch_device(self, requested_device: str, component: str) -> tuple[str, str \| None]:
	return self._resolve_torch_device_static(requested_device, component)

	def _resolved_stt_language(self) -> str \| None:
	language = settings.stt_language.strip().lower()
	if not language or language == "auto":
	return None
	return language

	def _whisper_model_supports_multilingual(self) -> bool:
	return not settings.whisper_model.strip().lower().endswith(".en")

	def _prefer_whisper_transcription(self) -> bool:
	if settings.stt_backend != "parakeet-tdt-v3":
	return True
	if not settings.stt_multilingual_enabled:
	return False
	return self._whisper_model_supports_multilingual()

	def _prepare_audio_for_whisper(self, audio: np.ndarray) -> np.ndarray:
	duration_ms = (audio.size / settings.sample_rate) * 1000.0
	if duration_ms > settings.short_utterance_ms:
	return audio

	pad_samples = int(settings.sample_rate * (settings.short_utterance_pad_ms / 1000.0))
	prepared = np.pad(audio, (pad_samples, pad_samples), mode="constant")
	min_samples = int(settings.sample_rate * (settings.short_utterance_min_transcription_ms / 1000.0))
	if prepared.size >= min_samples:
	return prepared.astype(np.float32, copy=False)

	extra = min_samples - prepared.size
	left = extra // 2
	right = extra - left
	return np.pad(prepared, (left, right), mode="constant").astype(np.float32, copy=False)

	def _run_transcription(
	self,
	whisper,
	audio: np.ndarray,
	beam_size: int,
	best_of: int,
	log_prob_threshold: float \| None,
	no_speech_threshold: float \| None,
	) -> TranscriptionResult:
	prepared_audio = self._prepare_audio_for_whisper(audio)
	language = self._resolved_stt_language()
	kwargs = {
	"vad_filter": False,
	"beam_size": beam_size,
	"best_of": best_of,
	"temperature": settings.whisper_temperature,
	"condition_on_previous_text": settings.whisper_condition_on_previous_text,
	"without_timestamps": True,
	}
	if language is not None:
	kwargs["language"] = language
	if log_prob_threshold is not None:
	kwargs["log_prob_threshold"] = log_prob_threshold
	if no_speech_threshold is not None:
	kwargs["no_speech_threshold"] = no_speech_threshold
	segments, info = whisper.transcribe(prepared_audio, **kwargs)
	transcript = " ".join(segment.text.strip() for segment in segments).strip()
	return TranscriptionResult(
	text=self._normalize_transcript(transcript),
	language=getattr(info, "language", None),
	language_probability=getattr(info, "language_probability", None),
	backend="whisper",
	)

	def _run_parakeet_transcription(self, parakeet, audio: np.ndarray) -> TranscriptionResult:
	prepared_audio = self._prepare_audio_for_whisper(audio)
	wav_bytes = wav_bytes_from_float32(prepared_audio, settings.sample_rate)
	temp_path: str \| None = None
	try:
	with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as handle:
	handle.write(wav_bytes)
	temp_path = handle.name
	results = parakeet.transcribe([temp_path])
	if not results:
	return TranscriptionResult(text="", language="en", backend="parakeet")
	first = results[0]
	transcript = getattr(first, "text", None)
	if transcript is None:
	transcript = str(first)
	return TranscriptionResult(
	text=self._normalize_transcript(str(transcript).strip()),
	language="en",
	backend="parakeet",
	)
	finally:
	if temp_path:
	try:
	os.unlink(temp_path)
	except FileNotFoundError:
	pass


	pipeline = SpeechPipeline()