comfortool

Sleeping

App Files Files Community

Sandra Sanchez commited on Nov 28, 2025

Commit

bcade95

1 Parent(s): 8736894

Add TTS functionality, adapt files accordingly

Browse files

Files changed (3) hide show

.gitignore +2 -1
app.py +37 -2
mcp_server/server.py +30 -7

.gitignore CHANGED Viewed

@@ -14,7 +14,8 @@ wheels/
 .env
 venv/
-# Generated images
 generated_images/
 images/
 *.png

 .env
 venv/
+# Generated data
 generated_images/
 images/
 *.png
+temp/

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ import io
 from PIL import Image
 import asyncio
 from mcp_server.server import create_mcp_server
@@ -26,6 +27,8 @@ models = client.models.list()
 TEMPLATES_DIR = Path(__file__).resolve().parent / "mcp_server" / "templates"
 GENERATED_IMAGES_DIR = Path(__file__).resolve().parent / "generated_images"
 GENERATED_IMAGES_DIR.mkdir(exist_ok=True)
 def load_scenarios():
@@ -81,6 +84,12 @@ async def call_translate_and_adapt_tool(story, language, culture):
     result = await server.request_handlers["translate_and_adapt"](context, story, language, culture)
     return result["adapted_story"]
 def show_translation(story, language, culture):
     return asyncio.run(call_translate_and_adapt_tool(story, language, culture))
@@ -95,6 +104,7 @@ def main():
     with gr.Blocks() as demo:
         gr.Markdown("# 🧸 Comfortool\n### Social stories with comforting illustrations to support autistic kids with daily challenges")
         # Inputs arriba: escenario, idioma, cultura, edad, vibe, personaje
         with gr.Row():
@@ -121,18 +131,43 @@ def main():
             image_out = gr.Image(label="Illustration")
         def on_generate(scenario_name, language, culture, age, gender, vibe, comfort_character):
             print("Generating story for:", scenario_name, language, culture, age, vibe, comfort_character)# 1. Genera la historia en inglés
             story = generate_story(scenario_name, language, culture, age, gender, vibe, comfort_character)
             print("Story generated:", story)
             image = generate_image(scenario_name, culture, age, gender, vibe, comfort_character)
-            return format_story(story), image
         generate_btn.click(
             fn=on_generate,
             inputs=[dropdown, language_input, culture_input, age_input, vibe_input, comfort_character_input, gender_input],
-            outputs=[story_out, image_out]
         )
     print("Gradio app initialized.")
     return demo

 from PIL import Image
 import asyncio
 from mcp_server.server import create_mcp_server
+import tempfile
 TEMPLATES_DIR = Path(__file__).resolve().parent / "mcp_server" / "templates"
 GENERATED_IMAGES_DIR = Path(__file__).resolve().parent / "generated_images"
 GENERATED_IMAGES_DIR.mkdir(exist_ok=True)
+TEMP_DIR = Path(__file__).resolve().parent / "temp"
+TEMP_DIR.mkdir(exist_ok=True)
 def load_scenarios():
     result = await server.request_handlers["translate_and_adapt"](context, story, language, culture)
     return result["adapted_story"]
+async def call_voice_tool(story, language):
+    server = await create_mcp_server()  # Solo para pruebas locales
+    context = {}
+    result = await server.request_handlers["generate_voice"](context, story, language)
+    return result.get("audio", None)
 def show_translation(story, language, culture):
     return asyncio.run(call_translate_and_adapt_tool(story, language, culture))
     with gr.Blocks() as demo:
         gr.Markdown("# 🧸 Comfortool\n### Social stories with comforting illustrations to support autistic kids with daily challenges")
+        story_state = gr.State("")
         # Inputs arriba: escenario, idioma, cultura, edad, vibe, personaje
         with gr.Row():
             image_out = gr.Image(label="Illustration")
         def on_generate(scenario_name, language, culture, age, gender, vibe, comfort_character):
+            global generated_story
             print("Generating story for:", scenario_name, language, culture, age, vibe, comfort_character)# 1. Genera la historia en inglés
             story = generate_story(scenario_name, language, culture, age, gender, vibe, comfort_character)
             print("Story generated:", story)
             image = generate_image(scenario_name, culture, age, gender, vibe, comfort_character)
+            formated_story = format_story(story)
+            return formated_story, image, story
         generate_btn.click(
             fn=on_generate,
             inputs=[dropdown, language_input, culture_input, age_input, vibe_input, comfort_character_input, gender_input],
+            outputs=[story_out, image_out, story_state]
         )
+        def on_voice(story, language):
+            if not story or story.strip() == "":
+                return None
+            audio_bytes = asyncio.run(call_voice_tool(story, language))
+            if audio_bytes:
+                with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3", dir=str(TEMP_DIR)) as tmp_file:
+                    tmp_file.write(audio_bytes)
+                    audio_path = tmp_file.name
+                return audio_path
+            else:
+                return None
+        voice_btn = gr.Button("Listen to the story")
+        voice_out = gr.Audio(label="Story audio", type="filepath")
+        voice_btn.click(
+            fn=on_voice,
+            inputs=[story_state, language_input],
+            outputs=voice_out
+        )
     print("Gradio app initialized.")
     return demo

mcp_server/server.py CHANGED Viewed

@@ -3,6 +3,9 @@ from mcp.server import Server
 from mcp.server.stdio import stdio_server
 import os
 from openai import OpenAI
 async def create_mcp_server():
     server = Server(
@@ -16,18 +19,12 @@ async def create_mcp_server():
     if hasattr(server, "set_version"):
         server.set_version("0.1.0")
-    # Tool única: echo
-    async def echo(context, text):
-        return {"result": f"Echo: {text}"}
-    server.request_handlers["echo"] = echo
     # Tool: Translate and culturally adapt a story
     async def translate_and_adapt(context, story, language="en", culture="default", age="7", gender="female", vibe="Cartoon", comfort_character="Koala"):
         prompt = (
             f"Translate the following social story to {language} and adapt names, places, race, gender identity, customs, and style to {culture} culture. "
             f"Make it suitable for a child of age {age}. Do separate sentences with new lines. Use the illustration style '{vibe}' and include the comfort character '{comfort_character}' in the story if possible but without infringing copyright. "
-            "Return only the adapted story text.\n\n"
             f"Story:\n{story}"
         )
         openai_api_key = os.environ.get("OPENAI_API_KEY")
@@ -38,9 +35,35 @@ async def create_mcp_server():
         )
         adapted_story = response.choices[0].message.content.strip()
         return {"adapted_story": adapted_story}
     server.request_handlers["translate_and_adapt"] = translate_and_adapt
     return server

 from mcp.server.stdio import stdio_server
 import os
 from openai import OpenAI
+import requests
+import asyncio
+import time
 async def create_mcp_server():
     server = Server(
     if hasattr(server, "set_version"):
         server.set_version("0.1.0")
     # Tool: Translate and culturally adapt a story
     async def translate_and_adapt(context, story, language="en", culture="default", age="7", gender="female", vibe="Cartoon", comfort_character="Koala"):
         prompt = (
             f"Translate the following social story to {language} and adapt names, places, race, gender identity, customs, and style to {culture} culture. "
             f"Make it suitable for a child of age {age}. Do separate sentences with new lines. Use the illustration style '{vibe}' and include the comfort character '{comfort_character}' in the story if possible but without infringing copyright. "
+            "Return only the adapted story text without excessive emotion (no exclamation marks).\n\n"
             f"Story:\n{story}"
         )
         openai_api_key = os.environ.get("OPENAI_API_KEY")
         )
         adapted_story = response.choices[0].message.content.strip()
         return {"adapted_story": adapted_story}
+    # Tool: TTS
+    async def generate_voice(context, story, language="en"):
+        openai_api_key = os.environ.get("OPENAI_API_KEY")
+        client = OpenAI(api_key=openai_api_key)
+        # Selección simple de voz según idioma
+        voice_map = {
+            "en": "nova",
+            "es": "onyx",
+            "fr": "fable",
+            "de": "echo",
+            "it": "alloy"
+            # Añade más según tus pruebas y preferencias
+        }
+        voice = voice_map.get(language, "nova")  # Por defecto "nova"
+        response = client.audio.speech.create(
+            model="tts-1",
+            voice=voice,
+            input=story,
+            response_format="mp3"
+        )
+        audio_bytes = response.content
+        return {"audio": audio_bytes}
     server.request_handlers["translate_and_adapt"] = translate_and_adapt
+    server.request_handlers["generate_voice"] = generate_voice
     return server