Spaces:

Kashif12334
/

test5

Runtime error

App Files Files Community

Kashif12334 commited on Mar 11

Commit

deca404

verified ·

1 Parent(s): 7333ef7

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -216

app.py CHANGED Viewed

@@ -1,93 +1,48 @@
-import os
-import json
-import tempfile
-import torch
-import soundfile as sf
 import gradio as gr
 import requests
-import io
-from dotenv import load_dotenv
 from groq import Groq
-from PIL import Image
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
-load_dotenv()
-# =============================
 # API KEYS
-# =============================
-GROQ_API_KEY = os.getenv("GROQ_API_KEY")
 HF_TOKEN = os.getenv("HF_TOKEN")
-client = Groq(api_key=GROQ_API_KEY)
-CHAT_FILE = "chat_history.json"
-PREF_FILE = "preferences.json"
-# =============================
-# JSON HELPERS
-# =============================
-def load_json(file, default):
-    if os.path.exists(file):
-        try:
-            with open(file, "r") as f:
-                return json.load(f)
-        except:
-            return default
-    return default
-def save_json(file, data):
-    with open(file, "w") as f:
-        json.dump(data, f, indent=4)
-conversation_history = load_json(CHAT_FILE, [])
-user_preferences = load_json(PREF_FILE, {"style": "Default"})
-# =============================
-# LOAD TTS MODEL
-# =============================
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-tts_model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
-vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-speaker_embeddings = torch.randn(1, 512)
-# =============================
-# HUGGING FACE IMAGE API
-# =============================
-HF_API_URL = "https://api-inference.huggingface.co/models/stabilityai/sdxl-turbo"
-headers = {
-    "Authorization": f"Bearer {HF_TOKEN}"
-}
-# =============================
-# SPEECH TO TEXT
-# =============================
-def transcribe_audio(audio_path):
-    with open(audio_path, "rb") as audio_file:
-        transcription = client.audio.transcriptions.create(
-            file=audio_file,
-            model="whisper-large-v3"
-        )
-    return transcription.text
-# =============================
-# TEXT TO SPEECH
-# =============================
 def text_to_speech(text):
@@ -111,41 +66,23 @@ def text_to_speech(text):
     return temp_audio.name
-# =============================
-# IMAGE TRIGGER
-# =============================
-def should_generate_image(user_prompt):
-    keywords = [
-        "draw",
-        "diagram",
-        "visualize",
-        "show me",
-        "illustration",
-        "picture",
-        "image",
-        "architecture"
-    ]
-    for word in keywords:
-        if word in user_prompt.lower():
-            return True
-    return False
-# =============================
-# IMAGE GENERATION
-# =============================
-def generate_image(prompt):
-    response = requests.post(
-        HF_API_URL,
-        headers=headers,
-        json={"inputs": prompt}
-    )
     print("HF STATUS:", response.status_code)
@@ -153,157 +90,83 @@ def generate_image(prompt):
         print(response.text)
         return None
-    image = Image.open(io.BytesIO(response.content))
-    return image
-# =============================
-# CHAT FUNCTION
-# =============================
-def chat_with_memory(user_message, preference_text):
-    global conversation_history, user_preferences
-    if preference_text and preference_text.strip():
-        user_preferences["style"] = preference_text
-        save_json(PREF_FILE, user_preferences)
-    system_prompt = f"""
-You are a helpful AI assistant.
-User Preferences:
-{user_preferences.get("style", "Default")}
-Maintain conversational memory.
-"""
-    messages = [{"role": "system", "content": system_prompt}]
-    messages.extend(conversation_history)
-    messages.append({"role": "user", "content": user_message})
-    response = client.chat.completions.create(
         model="llama-3.1-8b-instant",
         max_tokens=200,
-        messages=messages
     )
-    assistant_reply = response.choices[0].message.content
-    conversation_history.append({"role": "user", "content": user_message})
-    conversation_history.append({"role": "assistant", "content": assistant_reply})
-    save_json(CHAT_FILE, conversation_history)
-    return assistant_reply
-# =============================
-# PROCESS TEXT
-# =============================
-def process_text(user_message, preference_text, chat_display):
-    if not user_message.strip():
-        return "", chat_display, None, None
-    assistant_reply = chat_with_memory(user_message, preference_text)
-    chat_display.append({"role": "user", "content": user_message})
-    chat_display.append({"role": "assistant", "content": assistant_reply})
-    audio_output = text_to_speech(assistant_reply)
-    image_output = None
-    if should_generate_image(user_message):
-        image_output = generate_image(user_message)
-    return "", chat_display, audio_output, image_output
-# =============================
-# PROCESS VOICE
-# =============================
-def process_voice(audio_file, preference_text, chat_display):
-    user_text = transcribe_audio(audio_file)
-    assistant_reply = chat_with_memory(user_text, preference_text)
-    chat_display.append({"role": "user", "content": user_text})
-    chat_display.append({"role": "assistant", "content": assistant_reply})
-    audio_output = text_to_speech(assistant_reply)
-    image_output = None
-    if should_generate_image(user_text):
-        image_output = generate_image(user_text)
-    return chat_display, audio_output, image_output
-# =============================
-# CLEAR MEMORY
-# =============================
-def clear_memory():
-    global conversation_history
-    conversation_history = []
-    save_json(CHAT_FILE, [])
-    return []
-# =============================
 # GRADIO UI
-# =============================
 with gr.Blocks() as demo:
-    gr.Markdown("# 🤖 Version 5 — Multimodal AI Assistant (Voice + Images)")
-    chatbot = gr.Chatbot(label="Conversation", value=conversation_history)
-    preference_input = gr.Textbox(label="User Preferences")
-    user_message = gr.Textbox(label="Type message")
-    audio_input = gr.Audio(
-        sources=["microphone"],
-        type="filepath",
-        label="Voice Input"
     )
-    audio_output = gr.Audio(label="Voice Response")
-    image_output = gr.Image(label="Generated Image")
-    send_btn = gr.Button("Send Text")
-    voice_btn = gr.Button("Send Voice")
-    clear_btn = gr.Button("Clear Memory")
-    send_btn.click(
-        process_text,
-        inputs=[user_message, preference_input, chatbot],
-        outputs=[user_message, chatbot, audio_output, image_output]
     )
-    voice_btn.click(
-        process_voice,
-        inputs=[audio_input, preference_input, chatbot],
-        outputs=[chatbot, audio_output, image_output]
     )
-    clear_btn.click(
-        clear_memory,
-        outputs=chatbot
     )
 demo.launch()

 import gradio as gr
 import requests
+import os
+import tempfile
 from groq import Groq
+import torch
+import soundfile as sf
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
+from datasets import load_dataset
+# ==============================
 # API KEYS
+# ==============================
 HF_TOKEN = os.getenv("HF_TOKEN")
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+groq_client = Groq(api_key=GROQ_API_KEY)
+# ==============================
+# LOAD TTS MODELS
+# ==============================
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+tts_model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+embeddings_dataset = load_dataset(
+    "Matthijs/cmu-arctic-xvectors",
+    split="validation"
+)
+speaker_embeddings = torch.tensor(
+    embeddings_dataset[7306]["xvector"]
+).unsqueeze(0)
+# ==============================
+# TEXT → SPEECH
+# ==============================
 def text_to_speech(text):
     return temp_audio.name
+# ==============================
+# IMAGE GENERATION
+# ==============================
+def generate_image(prompt):
+    API_URL = "https://router.huggingface.co/hf-inference/models/stabilityai/stable-diffusion-xl-base-1.0"
+    headers = {
+        "Authorization": f"Bearer {HF_TOKEN}"
+    }
+    payload = {
+        "inputs": prompt
+    }
+    response = requests.post(API_URL, headers=headers, json=payload)
     print("HF STATUS:", response.status_code)
         print(response.text)
         return None
+    image_bytes = response.content
+    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".png")
+    temp_file.write(image_bytes)
+    temp_file.close()
+    return temp_file.name
+# ==============================
+# GROQ CHATBOT
+# ==============================
+def ask_llm(question):
+    response = groq_client.chat.completions.create(
         model="llama-3.1-8b-instant",
         max_tokens=200,
+        messages=[
+            {"role": "user", "content": question}
+        ]
     )
+    return response.choices[0].message.content
+# ==============================
+# MAIN ASSISTANT FUNCTION
+# ==============================
+def ai_assistant(user_input):
+    reply = ask_llm(user_input)
+    image = None
+    if "image" in user_input.lower() or "generate" in user_input.lower():
+        image = generate_image(user_input)
+    audio = text_to_speech(reply)
+    return reply, audio, image
+# ==============================
 # GRADIO UI
+# ==============================
 with gr.Blocks() as demo:
+    gr.Markdown("# 🤖 AI Assistant (Chat + Voice + Image)")
+    user_input = gr.Textbox(
+        label="Ask something or request an image"
     )
+    text_output = gr.Textbox(
+        label="Assistant Response"
+    )
+    audio_output = gr.Audio(
+        label="Voice Response"
     )
+    image_output = gr.Image(
+        label="Generated Image"
     )
+    submit_btn = gr.Button("Submit")
+    submit_btn.click(
+        fn=ai_assistant,
+        inputs=user_input,
+        outputs=[text_output, audio_output, image_output]
     )
 demo.launch()