Spaces:

Abdalkaderdev
/

ORA

Paused

App Files Files Community

Abdalkaderdev commited on Jan 12

Commit

efcab75

1 Parent(s): 3688b19

Remove vision features, focus on voice and response quality

Browse files

Files changed (1) hide show

app/ora_server.py +10 -55

app/ora_server.py CHANGED Viewed

@@ -29,10 +29,8 @@ model = None
 tokenizer = None
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# Advanced AI Models
 whisper_model = None
-vision_model = None
-vision_processor = None
 emotion_classifier = None
 class ChatRequest(BaseModel):
@@ -78,39 +76,31 @@ async def load_model():
 @app.on_event("startup")
 async def load_advanced_ai():
-    global whisper_model, vision_model, vision_processor, emotion_classifier
     try:
-        print("Loading Advanced AI Models...")
-        from transformers import pipeline, AutoModelForCausalLM, AutoProcessor
-        # Whisper V3 for Speech-to-Text
-        print("Loading Whisper V3...")
         whisper_model = pipeline(
             "automatic-speech-recognition",
             model="openai/whisper-large-v3",
             device=0 if device == "cuda" else -1
         )
-        print("✓ Whisper V3 loaded")
-        # Moondream2 for Vision
-        print("Loading Moondream2 Vision...")
-        vision_model = AutoModelForCausalLM.from_pretrained("vikhyatk/moondream2", trust_remote_code=True)
-        vision_processor = AutoProcessor.from_pretrained("vikhyatk/moondream2")
-        if device == "cuda":
-            vision_model = vision_model.to("cuda")
-        print("✓ Moondream2 loaded")
-        # Emotion Detection
         print("Loading Emotion Detector...")
         emotion_classifier = pipeline(
             "text-classification",
             model="j-hartmann/emotion-english-distilroberta-base",
             device=0 if device == "cuda" else -1
         )
-        print("✓ Emotion Detector loaded")
-        print("All Advanced AI Models Ready!")
     except Exception as e:
         print(f"Warning: Could not load some AI models: {e}")
@@ -180,41 +170,6 @@ async def transcribe_audio(req: TranscribeRequest):
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"Transcription failed: {str(e)}")
-class VisionRequest(BaseModel):
-    image_data: str  # Base64 encoded image
-    question: str = "What spiritual meaning does this image convey?"
-@app.post("/api/analyze-image")
-async def analyze_image(req: VisionRequest):
-    global vision_model, vision_processor
-    if vision_model is None or vision_processor is None:
-        raise HTTPException(status_code=503, detail="Vision model not loaded")
-    try:
-        import base64
-        from PIL import Image
-        import io
-        # Decode base64 image
-        image_bytes = base64.b64decode(req.image_data)
-        image = Image.open(io.BytesIO(image_bytes))
-        # Process with Moondream2
-        inputs = vision_processor(images=image, text=req.question, return_tensors="pt")
-        if device == "cuda":
-            inputs = {k: v.to("cuda") for k, v in inputs.items()}
-        with torch.no_grad():
-            output = vision_model.generate(**inputs, max_new_tokens=256)
-        analysis = vision_processor.decode(output[0], skip_special_tokens=True)
-        return {"analysis": analysis}
-    except Exception as e:
-        raise HTTPException(status_code=500, detail=f"Vision analysis failed: {str(e)}")
 class EmotionRequest(BaseModel):
     text: str

 tokenizer = None
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# Advanced AI Models (Voice & Response Quality)
 whisper_model = None
 emotion_classifier = None
 class ChatRequest(BaseModel):
 @app.on_event("startup")
 async def load_advanced_ai():
+    global whisper_model, emotion_classifier
     try:
+        print("Loading Voice & Response Quality AI...")
+        from transformers import pipeline
+        # Whisper V3 for Speech-to-Text (Professional quality)
+        print("Loading Whisper V3 STT...")
         whisper_model = pipeline(
             "automatic-speech-recognition",
             model="openai/whisper-large-v3",
             device=0 if device == "cuda" else -1
         )
+        print("✓ Whisper V3 loaded - Professional STT ready")
+        # Emotion Detection for Compassionate Responses
         print("Loading Emotion Detector...")
         emotion_classifier = pipeline(
             "text-classification",
             model="j-hartmann/emotion-english-distilroberta-base",
             device=0 if device == "cuda" else -1
         )
+        print("✓ Emotion Detector loaded - Empathetic responses enabled")
+        print("Voice & Response Quality AI Ready!")
     except Exception as e:
         print(f"Warning: Could not load some AI models: {e}")
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"Transcription failed: {str(e)}")
 class EmotionRequest(BaseModel):
     text: str