Spaces:

onitsche
/

recognizer

Running

Oliver Nitsche Claude Sonnet 4.6 commited on 27 days ago

Commit

be17ec0

1 Parent(s): f7c60d9

Make TTS robust: fallback to espeak, catch play_sound exceptions

Previously speak() silently returned when espeak-ng was missing (only
a log warning) and left play_sound() exceptions uncaught, which would
crash the state machine and leave the robot mute.

Changes:
- Auto-detect espeak-ng or espeak via shutil.which (cached per process);
logs clearly at startup which engine is found or that none is available.
- Wrap play_sound() in its own try/except so an audio driver error no
longer propagates and crashes the GREETING/ENROLLING state.
- Switch sleep calculation from words_per_second to words_per_minute to
match the espeak -s flag unit; use 2.0 WPS (conservative at 140 WPM)
+ 1 s buffer so short phrases like "Hi Oliver!" are never cut off.
- Wrap the entire body in a broad except so any unexpected error is
logged rather than silently swallowed or propagated.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (1) hide show

recognizer/tts.py +59 -19

recognizer/tts.py CHANGED Viewed

@@ -1,39 +1,79 @@
-"""Text-to-speech via espeak-ng → WAV file → Reachy Mini audio device."""
 import logging
 import os
 import subprocess
 import tempfile
 import time
 logger = logging.getLogger(__name__)
-def speak(text: str, reachy_mini, words_per_second: float = 2.5) -> None:
-    """Synthesize *text* with espeak-ng and play it through the robot's speakers.
-    Blocks until playback should be finished.
-    Requires: sudo apt-get install espeak-ng
     """
-    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
-        wav_path = f.name
     try:
         subprocess.run(
-            ["espeak-ng", "-s", "140", "-w", wav_path, "--", text],
             check=True,
             timeout=15,
             capture_output=True,
         )
-        reachy_mini.media.play_sound(wav_path)
-        # play_sound() returns immediately; wait for GStreamer playback to finish.
-        estimated = len(text.split()) / words_per_second + 0.8
-        time.sleep(max(estimated, 1.0))
-    except FileNotFoundError:
-        logger.warning("espeak-ng not found — install with: sudo apt-get install espeak-ng")
     except subprocess.CalledProcessError as exc:
-        logger.warning("espeak-ng failed: %s", exc.stderr.decode(errors="replace"))
     finally:
-        try:
-            os.unlink(wav_path)
-        except OSError:
-            pass

+"""Text-to-speech via espeak-ng (or espeak) → WAV → Reachy Mini audio."""
 import logging
 import os
+import shutil
 import subprocess
 import tempfile
 import time
+from typing import Optional
 logger = logging.getLogger(__name__)
+# Cached path to the espeak binary (checked once per process).
+_ESPEAK_CMD: Optional[str] = None
+_ESPEAK_CHECKED = False
+def _find_espeak() -> Optional[str]:
+    """Return the path to espeak-ng or espeak, or None if neither is available."""
+    global _ESPEAK_CMD, _ESPEAK_CHECKED
+    if not _ESPEAK_CHECKED:
+        _ESPEAK_CMD = shutil.which("espeak-ng") or shutil.which("espeak")
+        if _ESPEAK_CMD:
+            logger.info("TTS engine: %s", _ESPEAK_CMD)
+        else:
+            logger.warning(
+                "No TTS engine found. Install one with: "
+                "sudo apt-get install espeak-ng"
+            )
+        _ESPEAK_CHECKED = True
+    return _ESPEAK_CMD
+def speak(text: str, reachy_mini, words_per_minute: int = 140) -> None:
+    """Synthesize *text* and play it through the robot's speakers.
+    Tries espeak-ng first, falls back to espeak.
+    Blocks until playback should be complete.
     """
+    cmd = _find_espeak()
+    if cmd is None:
+        return  # warning already logged at startup
+    wav_path: Optional[str] = None
     try:
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
+            wav_path = f.name
         subprocess.run(
+            [cmd, "-s", str(words_per_minute), "-w", wav_path, "--", text],
             check=True,
             timeout=15,
             capture_output=True,
         )
+        try:
+            reachy_mini.media.play_sound(wav_path)
+        except Exception as exc:
+            logger.warning("play_sound failed: %s", exc)
+            return
+        # play_sound() is async — wait for playback to finish.
+        # Use 2.0 WPS (conservative for 140 WPM) + 1 s buffer.
+        wps = words_per_minute / 60.0
+        estimated = len(text.split()) / wps + 1.0
+        time.sleep(max(estimated, 1.5))
     except subprocess.CalledProcessError as exc:
+        logger.warning("espeak failed: %s", exc.stderr.decode(errors="replace"))
+    except subprocess.TimeoutExpired:
+        logger.warning("espeak timed out synthesising: %r", text)
+    except Exception as exc:
+        logger.warning("TTS error: %s", exc)
     finally:
+        if wav_path:
+            try:
+                os.unlink(wav_path)
+            except OSError:
+                pass