Spaces:

rairo
/

sozo-api

Sleeping

App Files Files

rairo commited on Mar 19, 2025

Commit

4932c99

verified ·

1 Parent(s): 9903c4d

Update audio_gen.py

Browse files

Files changed (1) hide show

audio_gen.py +81 -0

audio_gen.py CHANGED Viewed

	@@ -0,0 +1,81 @@

+# -----------------------
+# Audio Generation Function
+# -----------------------
+import os
+import re
+import time
+import tempfile
+import requests
+import json
+import io
+import base64
+import cv2
+import logging
+import uuid
+import subprocess
+from pathlib import Path
+import urllib.parse
+from io import BytesIO
+def generate_audio(text, voice_model, audio_model="deepgram"):
+    """
+    Generate audio from text using either DeepGram or Pollinations OpenAI-Audio.
+    Args:
+        text (str): The text to convert to speech.
+        voice_model (str): The voice/model to use.
+            - For DeepGram, e.g., "aura-asteria-en" or "aura-helios-en".
+            - For Pollinations, e.g., "sage" (female) or "echo" (male).
+        audio_model (str): Which audio generation service to use ("deepgram" or "openai-audio").
+    Returns:
+        str or None: The path to the generated audio file, or None if generation failed.
+    """
+    if audio_model == "deepgram":
+        deepgram_api_key = os.getenv("DeepGram")
+        if not deepgram_api_key:
+            st.error("Deepgram API Key is missing.")
+            return None
+        headers_tts = {
+            "Authorization": f"Token {deepgram_api_key}",
+            "Content-Type": "text/plain"
+        }
+        url = f"https://api.deepgram.com/v1/speak?model={voice_model}"
+        response = requests.post(url, headers=headers_tts, data=text)
+        if response.status_code == 200:
+            temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+            temp_file.write(response.content)
+            temp_file.close()
+            return temp_file.name
+        else:
+            st.error(f"DeepGram TTS error: {response.status_code}")
+            return None
+    elif audio_model == "openai-audio":
+        # URL encode the text and call Pollinations TTS endpoint for openai-audio
+        encoded_text = urllib.parse.quote(text)
+        url = f"https://text.pollinations.ai/{encoded_text}?model=openai-audio&voice={voice_model}"
+        response = requests.get(url)
+        if response.status_code == 200:
+            temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+            temp_file.write(response.content)
+            temp_file.close()
+            return temp_file.name
+        else:
+            print(f"OpenAI Audio TTS error: {response.status_code}")
+            return None
+    else:
+        st.error("Unsupported audio model selected.")
+        return None
+def get_audio_duration(audio_file):
+    import subprocess
+    try:
+        cmd = ['ffprobe', '-v', 'error', '-show_entries', 'format=duration',
+               '-of', 'default=noprint_wrappers=1:nokey=1', audio_file]
+        result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
+        if result.returncode != 0:
+            return 5.0
+        return float(result.stdout.strip())
+    except Exception:
+        return 5.0