TTS_API_Image_fallback

Sleeping

khurrameycon commited on Feb 1, 2025

Commit

908288f

verified ·

1 Parent(s): c870bf1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,34 @@ import os
 import numpy as np
 import torch
 app = FastAPI()
 # Initialize pipeline once at startup
@@ -13,9 +41,12 @@ pipeline = KPipeline(lang_code='a')
 @app.post("/generate")
 async def generate_audio(text: str, voice: str = "af_heart", speed: float = 1.0):
     # Generate audio
     generator = pipeline(
-        text,
         voice=voice,
         speed=speed,
         split_pattern=r'\n+'

 import numpy as np
 import torch
+def llm_chat_response(text):
+    HF_TOKEN = os.getenv("HF_TOKEN")
+    client = InferenceClient(api_key=HF_TOKEN)
+    messages = [
+	{
+		"role": "user",
+		"content": [
+			{
+				"type": "text",
+				"text": text + str('describe in one line only')
+			} #,
+			# {
+			# 	"type": "image_url",
+			# 	"image_url": {
+			# 		"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
+			# 	}
+			# }
+            ]
+	}
+    ]
+    response_from_llama = client.chat.completions.create(
+    model="meta-llama/Llama-3.2-11B-Vision-Instruct",
+	messages=messages,
+	max_tokens=500)
+    return response_from_llama.choices[0].message['content']
 app = FastAPI()
 # Initialize pipeline once at startup
 @app.post("/generate")
 async def generate_audio(text: str, voice: str = "af_heart", speed: float = 1.0):
+    text_reply = llm_chat_response(text)
     # Generate audio
     generator = pipeline(
+        text_reply,
         voice=voice,
         speed=speed,
         split_pattern=r'\n+'