Spaces:

kemo2003
/

Kemo_Chat

Runtime error

App Files Files Community

kemo2003 commited on May 7, 2025

Commit

9f2e5fb

verified ·

1 Parent(s): ab3c3d3

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -13

app.py CHANGED Viewed

@@ -1,21 +1,24 @@
 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, Blip2Processor, Blip2ForConditionalGeneration, WhisperProcessor, WhisperForConditionalGeneration
 import numpy as np
 from PIL import Image
 # Initialize device
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # Text model: Mistral 7B
-mistral_model_name = "mistralai/Mixtral-8x7B-Instruct-v0.1"
 mistral_tokenizer = AutoTokenizer.from_pretrained(mistral_model_name)
-mistral_model = AutoModelForCausalLM.from_pretrained(mistral_model_name).to(device)
 # Image model: BLIP-2
 blip_model_name = "Salesforce/blip2-opt-2.7b"
 blip_processor = Blip2Processor.from_pretrained(blip_model_name)
-blip_model = Blip2ForConditionalGeneration.from_pretrained(blip_model_name).to(device)
 # Speech-to-text: Whisper
 whisper_model_name = "openai/whisper-small"
@@ -25,23 +28,28 @@ whisper_model = WhisperForConditionalGeneration.from_pretrained(whisper_model_na
 # Text-to-speech: Coqui TTS
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False)
 def generate_text_response(prompt):
     try:
-        inputs = mistral_tokenizer(prompt, return_tensors="pt").to(device)
         outputs = mistral_model.generate(**inputs, max_length=200, num_return_sequences=1)
         return mistral_tokenizer.decode(outputs[0], skip_special_tokens=True)
     except Exception as e:
         return f"خطأ في معالجة النص: {str(e)}"
 def analyze_image(image, question=None):
     try:
         image = Image.fromarray(image).convert("RGB")
-        inputs = blip_processor(images=image, text=question if question else "", return_tensors="pt").to(device)
         outputs = blip_model.generate(**inputs)
         return blip_processor.decode(outputs[0], skip_special_tokens=True)
     except Exception as e:
         return f"خطأ في تحليل الصورة: {str(e)}"
 def process_audio(audio):
     try:
         sample_rate, audio_data = audio
@@ -56,26 +64,46 @@ def process_audio(audio):
     except Exception as e:
         return f"خطأ في معالجة الصوت: {str(e)}", "", None
-# Gradio interface
-with gr.Blocks(css=".gradio-container {background-color: #f0f4f8; font-family: Arial; color: #333; padding: 20px;} .textbox {border-radius: 5px;}") as demo:
-    gr.Markdown("# Kemo Chat - مساعد ذكي متعدد الوسائط")
-    gr.Markdown("تفاعل بالنصوص، الصور، أو الصوت. يدعم العربية والإنجليزية.")
-    gr.Markdown("⏳ جاري تحميل النماذج، برجاء الانتظار...", visible=True)
-    with gr.Tab("المحادثة النصية"):
         text_input = gr.Textbox(label="اكتب سؤالك أو رسالتك")
         text_output = gr.Textbox(label="الرد")
         text_submit = gr.Button("إرسال")
         text_submit.click(fn=generate_text_response, inputs=text_input, outputs=text_output)
-    with gr.Tab("تحليل الصور"):
         image_input = gr.Image(label="ارفع صورة")
         image_question = gr.Textbox(label="اختياري: اسأل سؤال عن الصورة")
         image_output = gr.Textbox(label="الوصف أو الإجابة")
         image_submit = gr.Button("تحليل الصورة")
         image_submit.click(fn=analyze_image, inputs=[image_input, image_question], outputs=image_output)
-    with gr.Tab("التفاعل الصوتي"):
         audio_input = gr.Audio(source="microphone", label="سجّل رسالتك")
         audio_transcription = gr.Textbox(label="النص المستخرج")
         audio_text_response = gr.Textbox(label="الرد النصي")
@@ -83,4 +111,10 @@ with gr.Blocks(css=".gradio-container {background-color: #f0f4f8; font-family: A
         audio_submit = gr.Button("معالجة الصوت")
         audio_submit.click(fn=process_audio, inputs=audio_input, outputs=[audio_transcription, audio_text_response, audio_output])
 demo.launch()

 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, Blip2Processor, Blip2ForConditionalGeneration, WhisperProcessor, WhisperForConditionalGeneration
+from TTS.api import TTS
 import numpy as np
 from PIL import Image
+import fitz  # PyMuPDF
+import pandas as pd
 # Initialize device
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # Text model: Mistral 7B
+mistral_model_name = "mistralai/Mistral-7B-Instruct-v0.1"
 mistral_tokenizer = AutoTokenizer.from_pretrained(mistral_model_name)
+mistral_model = AutoModelForCausalLM.from_pretrained(mistral_model_name, torch_dtype=torch.float16 if device == "cuda" else torch.float32).to(device)
 # Image model: BLIP-2
 blip_model_name = "Salesforce/blip2-opt-2.7b"
 blip_processor = Blip2Processor.from_pretrained(blip_model_name)
+blip_model = Blip2ForConditionalGeneration.from_pretrained(blip_model_name, torch_dtype=torch.float16 if device == "cuda" else torch.float32).to(device)
 # Speech-to-text: Whisper
 whisper_model_name = "openai/whisper-small"
 # Text-to-speech: Coqui TTS
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False)
+# === Text generation ===
 def generate_text_response(prompt):
     try:
+        friendly_prompt = f"أجب على السؤال التالي بطريقة ودية وواضحة:\n{prompt}"
+        inputs = mistral_tokenizer(friendly_prompt, return_tensors="pt").to(device)
         outputs = mistral_model.generate(**inputs, max_length=200, num_return_sequences=1)
         return mistral_tokenizer.decode(outputs[0], skip_special_tokens=True)
     except Exception as e:
         return f"خطأ في معالجة النص: {str(e)}"
+# === Image analysis ===
 def analyze_image(image, question=None):
     try:
         image = Image.fromarray(image).convert("RGB")
+        prompt = question if question else "صف محتوى الصورة بالتفصيل"
+        inputs = blip_processor(images=image, text=prompt, return_tensors="pt").to(device)
         outputs = blip_model.generate(**inputs)
         return blip_processor.decode(outputs[0], skip_special_tokens=True)
     except Exception as e:
         return f"خطأ في تحليل الصورة: {str(e)}"
+# === Audio processing ===
 def process_audio(audio):
     try:
         sample_rate, audio_data = audio
     except Exception as e:
         return f"خطأ في معالجة الصوت: {str(e)}", "", None
+# === File processing ===
+def process_file(file):
+    try:
+        if file.name.endswith(".pdf"):
+            with fitz.open(file.name) as doc:
+                text = "\n".join(page.get_text() for page in doc)
+        elif file.name.endswith((".xlsx", ".xls")):
+            df = pd.read_excel(file.name)
+            text = df.to_string()
+        elif file.name.endswith(".csv"):
+            df = pd.read_csv(file.name)
+            text = df.to_string()
+        else:
+            return "❌ نوع الملف غير مدعوم حالياً."
+        response = generate_text_response(f"الملف يحتوي على:\n{text}\n\nلخص المحتوى.")
+        return response
+    except Exception as e:
+        return f"خطأ في قراءة الملف: {str(e)}"
+# === Gradio Interface ===
+with gr.Blocks(css=".gradio-container {background-color: #f0f4f8; font-family: Arial; color: #333; padding: 20px;}") as demo:
+    gr.Markdown("# 🤖 Kemo Chat - مساعد ذكي متعدد الوسائط")
+    gr.Markdown("🎯 تفاعل معي عبر النصوص، الصور، الصوت أو الملفات! يدعم العربية والإنجليزية.")
+    gr.Markdown("📁 يدعم الملفات: PDF، Excel، CSV\n🖼️ يدعم الوصف الذكي للصور\n🎙️ تحويل الصوت إلى نص والرد صوتياً")
+    with gr.Tab("💬 المحادثة النصية"):
         text_input = gr.Textbox(label="اكتب سؤالك أو رسالتك")
         text_output = gr.Textbox(label="الرد")
         text_submit = gr.Button("إرسال")
         text_submit.click(fn=generate_text_response, inputs=text_input, outputs=text_output)
+    with gr.Tab("🖼️ تحليل الصور"):
         image_input = gr.Image(label="ارفع صورة")
         image_question = gr.Textbox(label="اختياري: اسأل سؤال عن الصورة")
         image_output = gr.Textbox(label="الوصف أو الإجابة")
         image_submit = gr.Button("تحليل الصورة")
         image_submit.click(fn=analyze_image, inputs=[image_input, image_question], outputs=image_output)
+    with gr.Tab("🎤 التفاعل الصوتي"):
         audio_input = gr.Audio(source="microphone", label="سجّل رسالتك")
         audio_transcription = gr.Textbox(label="النص المستخرج")
         audio_text_response = gr.Textbox(label="الرد النصي")
         audio_submit = gr.Button("معالجة الصوت")
         audio_submit.click(fn=process_audio, inputs=audio_input, outputs=[audio_transcription, audio_text_response, audio_output])
+    with gr.Tab("📄 تحليل الملفات"):
+        file_input = gr.File(label="ارفع ملفك (PDF, Excel, CSV)")
+        file_output = gr.Textbox(label="الرد على محتوى الملف")
+        file_submit = gr.Button("تحليل الملف")
+        file_submit.click(fn=process_file, inputs=file_input, outputs=file_output)
 demo.launch()