Spaces:

ronedgecomb
/

KittenTTS

Sleeping

App Files Files Community

ronedgecomb commited on Aug 20, 2025

Commit

1fb7c23

verified ·

1 Parent(s): ec33a78

fixes

Browse files

Files changed (4) hide show

app.py +85 -5
pyproject.toml +1 -0
requirements.txt +1 -0
uv.lock +23 -0

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ from __future__ import annotations
 import json
 import os
 import re
-from typing import Dict, List, Optional, Tuple
 import gradio as gr
 import numpy as np
@@ -108,6 +108,11 @@ class KittenTTS_1_Onnx:
             providers=chosen_providers,
         )
     def _prepare_inputs(
         self, text: str, voice: str, speed: float
     ) -> Dict[str, np.ndarray]:
@@ -131,6 +136,61 @@ class KittenTTS_1_Onnx:
         return {"input_ids": input_ids, "style": style_vec, "speed": speed_arr}
     def generate(
         self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0
     ) -> np.ndarray:
@@ -174,10 +234,30 @@ class KittenTTS:
             repo_id=repo_id, cache_dir=cache_dir, providers=providers
         )
-    def generate(
-        self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0
-    ) -> np.ndarray:
-        return self._model.generate(text, voice=voice, speed=speed)
     def generate_to_file(
         self,

 import json
 import os
 import re
+from typing import Dict, List, Tuple, Optional, Iterator
 import gradio as gr
 import numpy as np
             providers=chosen_providers,
         )
+        self.max_seq_len = self._infer_max_seq_len() or int(os.getenv("KITTEN_MAX_SEQ_LEN", "512"))
+        # reserve 2 slots for BOS/EOS tokens inserted below
+        self._chunk_budget = max(1, self.max_seq_len - 2)
     def _prepare_inputs(
         self, text: str, voice: str, speed: float
     ) -> Dict[str, np.ndarray]:
         return {"input_ids": input_ids, "style": style_vec, "speed": speed_arr}
+    def _infer_max_seq_len(self) -> Optional[int]:
+        """Try to read positional-embedding length from the ONNX initializers.
+        Falls back to env var or 512 if unavailable. Optional dependency on 'onnx'.
+        """
+        try:
+            import onnx # optional
+        except Exception:
+            return None
+        try:
+            model = onnx.load(self.model_path)
+        except Exception:
+            return None
+        for tensor in model.graph.initializer:
+            name = tensor.name.lower()
+            if "position" in name and len(tensor.dims) == 2:
+                # dims[0] = max positions, dims[1] = hidden dim
+                return int(tensor.dims[0])
+        return None
+    def _phonemize_to_clean(self, text: str) -> str:
+        """Phonemize once and keep only characters present in the symbol set."""
+        phonemes = self._phonemizer.phonemize([text])[0]
+        token_str = " ".join(basic_english_tokenize(phonemes))
+        # keep only symbols known to the TextCleaner
+        return "".join(c for c in token_str if c in self._cleaner._dict)
+    def _run_onnx(self, token_ids: List[int], voice: str, speed: float) -> np.ndarray:
+        """One inference call with trimming identical to original behavior."""
+        input_ids = np.asarray([token_ids], dtype=np.int64)
+        style_vec = self.voices[voice]
+        speed_arr = np.asarray([speed], dtype=np.float32)
+        outputs = self.session.run(None, {"input_ids": input_ids, "style": style_vec, "speed": speed_arr})
+        audio = np.asarray(outputs[0], dtype=np.float32)
+        if audio.size > 15000:
+            audio = audio[5000:-10000]
+        return audio
+    def _chunk_token_ids(self, clean: str) -> Iterator[List[int]]:
+        """Yield BOS/segment/EOS token-id sequences within model capacity."""
+        n = len(clean)
+        i = 0
+        while i < n:
+            j = min(i + self._chunk_budget, n)
+            # prefer to cut at a space when possible, to keep phrasing natural
+            cut = clean.rfind(" ", i, j)
+            if cut != -1 and cut > i + int(0.6 * self._chunk_budget):
+                j = cut + 1  # include the space
+            seg = clean[i:j]
+            ids = self._cleaner(seg)            # segment ids
+            ids.insert(0, 0)                     # BOS
+            ids.append(0)                        # EOS
+            yield ids
+            i = j
     def generate(
         self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0
     ) -> np.ndarray:
             repo_id=repo_id, cache_dir=cache_dir, providers=providers
         )
+    def generate(self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0) -> np.ndarray:
+        """Synthesize speech with automatic chunking at the model's max length."""
+        if voice not in self.available_voices:
+            raise ValueError(f"Voice '{voice}' not available. Choose from: {self.available_voices}")
+        # Phonemize once, then either run single-shot or chunked
+        clean = self._phonemize_to_clean(text)
+        # Fast path: fits in one pass
+        if len(clean) + 2 <= self.max_seq_len:
+            ids = self._cleaner(clean)
+            ids.insert(0, 0)     # BOS
+            ids.append(0)        # EOS
+            return self._run_onnx(ids, voice, speed)
+        # Chunked path: concatenate per-chunk audio
+        pieces: List[np.ndarray] = []
+        for ids in self._chunk_token_ids(clean):
+            pieces.append(self._run_onnx(ids, voice, speed))
+        if not pieces:
+            return np.array([], dtype=np.float32)
+        return pieces[0] if len(pieces) == 1 else np.concatenate(pieces)
     def generate_to_file(
         self,

pyproject.toml CHANGED Viewed

@@ -8,6 +8,7 @@ dependencies = [
     "gradio>=5.43.1",
     "huggingface-hub[hf-xet]>=0.34.4",
     "numpy>=2.3.2",
     "onnxruntime>=1.22.1",
     "phonemizer>=3.3.0",
     "soundfile>=0.13.1",

     "gradio>=5.43.1",
     "huggingface-hub[hf-xet]>=0.34.4",
     "numpy>=2.3.2",
+    "onnx>=1.18.0",
     "onnxruntime>=1.22.1",
     "phonemizer>=3.3.0",
     "soundfile>=0.13.1",

requirements.txt CHANGED Viewed

@@ -39,6 +39,7 @@ markupsafe==3.0.2
 mdurl==0.1.2
 mpmath==1.3.0
 numpy==2.3.2
 onnxruntime==1.22.1
 orjson==3.11.2
 packaging==25.0

 mdurl==0.1.2
 mpmath==1.3.0
 numpy==2.3.2
+onnx==1.18.0
 onnxruntime==1.22.1
 orjson==3.11.2
 packaging==25.0

uv.lock CHANGED Viewed

@@ -532,6 +532,7 @@ dependencies = [
     { name = "gradio" },
     { name = "huggingface-hub", extra = ["hf-xet"] },
     { name = "numpy" },
     { name = "onnxruntime" },
     { name = "phonemizer" },
     { name = "soundfile" },
@@ -542,6 +543,7 @@ requires-dist = [
     { name = "gradio", specifier = ">=5.43.1" },
     { name = "huggingface-hub", extras = ["hf-xet"], specifier = ">=0.34.4" },
     { name = "numpy", specifier = ">=2.3.2" },
     { name = "onnxruntime", specifier = ">=1.22.1" },
     { name = "phonemizer", specifier = ">=3.3.0" },
     { name = "soundfile", specifier = ">=0.13.1" },
@@ -666,6 +668,27 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/c1/9e/1652778bce745a67b5fe05adde60ed362d38eb17d919a540e813d30f6874/numpy-2.3.2-cp314-cp314t-win_arm64.whl", hash = "sha256:092aeb3449833ea9c0bf0089d70c29ae480685dd2377ec9cdbbb620257f84631", size = 10544226, upload-time = "2025-07-24T20:56:34.509Z" },
 ]
 [[package]]
 name = "onnxruntime"
 version = "1.22.1"

     { name = "gradio" },
     { name = "huggingface-hub", extra = ["hf-xet"] },
     { name = "numpy" },
+    { name = "onnx" },
     { name = "onnxruntime" },
     { name = "phonemizer" },
     { name = "soundfile" },
     { name = "gradio", specifier = ">=5.43.1" },
     { name = "huggingface-hub", extras = ["hf-xet"], specifier = ">=0.34.4" },
     { name = "numpy", specifier = ">=2.3.2" },
+    { name = "onnx", specifier = ">=1.18.0" },
     { name = "onnxruntime", specifier = ">=1.22.1" },
     { name = "phonemizer", specifier = ">=3.3.0" },
     { name = "soundfile", specifier = ">=0.13.1" },
     { url = "https://files.pythonhosted.org/packages/c1/9e/1652778bce745a67b5fe05adde60ed362d38eb17d919a540e813d30f6874/numpy-2.3.2-cp314-cp314t-win_arm64.whl", hash = "sha256:092aeb3449833ea9c0bf0089d70c29ae480685dd2377ec9cdbbb620257f84631", size = 10544226, upload-time = "2025-07-24T20:56:34.509Z" },
 ]
+[[package]]
+name = "onnx"
+version = "1.18.0"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "numpy" },
+    { name = "protobuf" },
+    { name = "typing-extensions" },
+]
+sdist = { url = "https://files.pythonhosted.org/packages/3d/60/e56e8ec44ed34006e6d4a73c92a04d9eea6163cc12440e35045aec069175/onnx-1.18.0.tar.gz", hash = "sha256:3d8dbf9e996629131ba3aa1afd1d8239b660d1f830c6688dd7e03157cccd6b9c", size = 12563009, upload-time = "2025-05-12T22:03:09.626Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/45/da/9fb8824513fae836239276870bfcc433fa2298d34ed282c3a47d3962561b/onnx-1.18.0-cp313-cp313-macosx_12_0_universal2.whl", hash = "sha256:030d9f5f878c5f4c0ff70a4545b90d7812cd6bfe511de2f3e469d3669c8cff95", size = 18285906, upload-time = "2025-05-12T22:02:45.01Z" },
+    { url = "https://files.pythonhosted.org/packages/05/e8/762b5fb5ed1a2b8e9a4bc5e668c82723b1b789c23b74e6b5a3356731ae4e/onnx-1.18.0-cp313-cp313-manylinux_2_17_aarch64.manylinux2014_aarch64.whl", hash = "sha256:8521544987d713941ee1e591520044d35e702f73dc87e91e6d4b15a064ae813d", size = 17421486, upload-time = "2025-05-12T22:02:48.467Z" },
+    { url = "https://files.pythonhosted.org/packages/12/bb/471da68df0364f22296456c7f6becebe0a3da1ba435cdb371099f516da6e/onnx-1.18.0-cp313-cp313-manylinux_2_17_x86_64.manylinux2014_x86_64.whl", hash = "sha256:3c137eecf6bc618c2f9398bcc381474b55c817237992b169dfe728e169549e8f", size = 17583581, upload-time = "2025-05-12T22:02:51.784Z" },
+    { url = "https://files.pythonhosted.org/packages/76/0d/01a95edc2cef6ad916e04e8e1267a9286f15b55c90cce5d3cdeb359d75d6/onnx-1.18.0-cp313-cp313-win32.whl", hash = "sha256:6c093ffc593e07f7e33862824eab9225f86aa189c048dd43ffde207d7041a55f", size = 15734621, upload-time = "2025-05-12T22:02:54.62Z" },
+    { url = "https://files.pythonhosted.org/packages/64/95/253451a751be32b6173a648b68f407188009afa45cd6388780c330ff5d5d/onnx-1.18.0-cp313-cp313-win_amd64.whl", hash = "sha256:230b0fb615e5b798dc4a3718999ec1828360bc71274abd14f915135eab0255f1", size = 15850472, upload-time = "2025-05-12T22:02:57.54Z" },
+    { url = "https://files.pythonhosted.org/packages/0a/b1/6fd41b026836df480a21687076e0f559bc3ceeac90f2be8c64b4a7a1f332/onnx-1.18.0-cp313-cp313-win_arm64.whl", hash = "sha256:6f91930c1a284135db0f891695a263fc876466bf2afbd2215834ac08f600cfca", size = 15823808, upload-time = "2025-05-12T22:03:00.305Z" },
+    { url = "https://files.pythonhosted.org/packages/70/f3/499e53dd41fa7302f914dd18543da01e0786a58b9a9d347497231192001f/onnx-1.18.0-cp313-cp313t-macosx_12_0_universal2.whl", hash = "sha256:2f4d37b0b5c96a873887652d1cbf3f3c70821b8c66302d84b0f0d89dd6e47653", size = 18316526, upload-time = "2025-05-12T22:03:03.691Z" },
+    { url = "https://files.pythonhosted.org/packages/84/dd/6abe5d7bd23f5ed3ade8352abf30dff1c7a9e97fc1b0a17b5d7c726e98a9/onnx-1.18.0-cp313-cp313t-win_amd64.whl", hash = "sha256:a69afd0baa372162948b52c13f3aa2730123381edf926d7ef3f68ca7cec6d0d0", size = 15865055, upload-time = "2025-05-12T22:03:06.663Z" },
+]
 [[package]]
 name = "onnxruntime"
 version = "1.22.1"