Spaces:

Corin1998
/

multimodal-elements-to-assets

Sleeping

App Files Files Community

Corin1998 commited on Aug 31, 2025

Commit

71bd215

verified ·

1 Parent(s): 13fec14

Update tts_subtitles.py

Browse files

Files changed (1) hide show

tts_subtitles.py +28 -19

tts_subtitles.py CHANGED Viewed

@@ -1,4 +1,6 @@
 import os
 import requests
 OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
@@ -6,6 +8,24 @@ OPENAI_BASE_URL = os.getenv("OPENAI_BASE_URL", "https://api.openai.com/v1")
 HEADERS_AUTH = {"Authorization": f"Bearer {OPENAI_API_KEY}"}
 def synthesize_tts_openai(text: str, out_path: str, voice: str = "alloy", model: str = "tts-1", format: str = "mp3"):
     url = f"{OPENAI_BASE_URL}/audio/speech"
     payload = {
@@ -14,29 +34,18 @@ def synthesize_tts_openai(text: str, out_path: str, voice: str = "alloy", model:
         "input": text,
         "format": format,
     }
-    headers = {**HEADERS_AUTH, "Content-Type": "application/json"}
-    r = requests.post(url, headers=headers, json=payload, timeout=300)
-    r.raise_for_status()
     with open(out_path, "wb") as f:
         f.write(r.content)
     return out_path
 def transcribe_to_srt_openai(audio_path: str, model: str = "whisper-1") -> str:
     url = f"{OPENAI_BASE_URL}/audio/transcriptions"
-    headers = HEADERS_AUTH
-    with open(audio_path, "rb") as af:
-        files = {"file": af}
-        data = {"model": model, "response_format": "srt"}
-        r = requests.post(url, headers=headers, files=files, data=data, timeout=600)
-    r.raise_for_status()
     return r.text
-# --- Optional: pyannote による VAD/クリーンアップ（重いモデルのためデフォルト無効） ---
-# from pyannote.audio import Pipeline
-# def refine_srt_with_pyannote(audio_path: str, srt_text: str) -> str:
-#     token = os.getenv("HUGGINGFACE_TOKEN")
-#     if not token:
-#         return srt_text
-#     pipeline = Pipeline.from_pretrained("pyannote/segmentation", use_auth_token=token)
-#     # ここで音声区間検出→SRTのタイミングを補正する処理を実装（省略）
-#     return srt_text

 import os
+import time
+import random
 import requests
 OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
 HEADERS_AUTH = {"Authorization": f"Bearer {OPENAI_API_KEY}"}
+def _request_with_retry(method: str, url: str, *, json=None, files=None, data=None, stream=False):
+    timeout = int(os.getenv("OPENAI_TIMEOUT", "600"))
+    max_retries = int(os.getenv("OPENAI_RETRY_MAX", "5"))
+    backoff_base = float(os.getenv("OPENAI_BACKOFF_BASE", "1.7"))
+    for attempt in range(max_retries):
+        try:
+            r = requests.request(method, url, headers=HEADERS_AUTH, json=json, files=files, data=data, stream=stream, timeout=timeout)
+            r.raise_for_status()
+            return r
+        except (requests.exceptions.ReadTimeout, requests.exceptions.ConnectionError) as e:
+            if attempt == max_retries - 1:
+                raise
+        except requests.exceptions.HTTPError as e:
+            status = e.response.status_code if e.response is not None else None
+            if status not in (429, 500, 502, 503, 504):
+                raise
+        time.sleep((backoff_base ** attempt) + random.uniform(0, 0.5))
 def synthesize_tts_openai(text: str, out_path: str, voice: str = "alloy", model: str = "tts-1", format: str = "mp3"):
     url = f"{OPENAI_BASE_URL}/audio/speech"
     payload = {
         "input": text,
         "format": format,
     }
+    r = _request_with_retry("post", url, json=payload, stream=False)
     with open(out_path, "wb") as f:
         f.write(r.content)
     return out_path
 def transcribe_to_srt_openai(audio_path: str, model: str = "whisper-1") -> str:
     url = f"{OPENAI_BASE_URL}/audio/transcriptions"
+    # files は毎回開き直す（リトライで再利用不可のため）
+    def _call():
+        with open(audio_path, "rb") as af:
+            files = {"file": af}
+            data = {"model": model, "response_format": "srt"}
+            return _request_with_retry("post", url, files=files, data=data)
+    r = _call()
     return r.text