Spaces:

Trainera
/

foodrecognitionapi

Sleeping

App Files Files Community

har1zarD commited on Oct 8, 2025

Commit

2936e62

1 Parent(s): 4ea8ae0

Remove app_ultimate.py and requirements_ultimate.txt files

Browse files

Files changed (2) hide show

app.py +243 -386
requirements.txt +11 -20

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ from typing import Optional, Dict, Any, List
 import base64
 import re
 import requests
 import uvicorn
 from fastapi import FastAPI, File, UploadFile, HTTPException, Query
@@ -13,55 +14,93 @@ from fastapi.responses import JSONResponse
 from fastapi.middleware.cors import CORSMiddleware
 from PIL import Image
 import torch
-from transformers import AutoProcessor, LlavaNextForConditionalGeneration
 # --- Configuration ---
-# LLaVA-NeXT: NAJBOLJI stabilni open-source model za food recognition
-# Superiorna preciznost, brza inferenca, 100% stabilan
-MODEL_NAME = "llava-hf/llava-v1.6-mistral-7b-hf"  # 🏆 NAJBOLJI MODEL - Perfektna preciznost
-# Alternative opcije (sve izvrsne):
-# - "llava-hf/llava-v1.6-vicuna-7b-hf" - Također odličan
-# - "llava-hf/llava-v1.6-vicuna-13b-hf" - Za maksimalnu preciznost (sporiji)
 # --- Helper Functions ---
 def load_model():
     """
-    Učitava LLaVA-NeXT vision-language model iz Hugging Face.
-    LLaVA-NeXT je trenutno NAJBOLJI open-source multimodal model sa:
-    - Superiornom vizuelnom razumijevanju
-    - Odličnim performansama na food recognition taskovima
-    - 100% stabilnim API-jem
-    - Brzom inferencom
     """
     try:
-        print(f"Loading ULTIMATE model: {MODEL_NAME}...")
-        # Koristi GPU ako je dostupan, inače CPU
-        device = "cuda" if torch.cuda.is_available() else "cpu"
-        print(f"Using device: {device}")
-        # Učitaj processor (FIXOVANO: bez trust_remote_code za stabilnost)
-        processor = AutoProcessor.from_pretrained(
-            MODEL_NAME
-        )
-        # Učitaj model sa optimizacijama (FIXOVANO: bez trust_remote_code)
-        model = LlavaNextForConditionalGeneration.from_pretrained(
-            MODEL_NAME,
-            torch_dtype=torch.float16 if device == "cuda" else torch.float32,
-            device_map="auto" if device == "cuda" else None
-        )
-        if device == "cpu":
-            model.to(device)
         model.eval()
-        print("✅ ULTIMATIVNI MODEL učitan uspješno!")
-        return processor, model, device
     except Exception as e:
-        print(f"❌ Greška pri učitavanju modela: {e}")
         raise
 def is_image_file(file: UploadFile):
@@ -229,231 +268,128 @@ def get_estimated_nutrition(food_name: str) -> Dict[str, Any]:
         "note": "Nutritivne vrijednosti su procijenjene na osnovu kategorije hrane"
     }
-def analyze_image_with_llava(
-    image: Image.Image,
-    processor,
-    model,
-    device
-) -> Dict[str, Any]:
-    """
-    Analizira sliku koristeći LLaVA-NeXT za sveobuhvatnu food recognition analizu.
-    LLaVA-NeXT mogućnosti:
-    - Ultra-detaljna detekcija hrane
-    - Identifikacija sastojaka
-    - Procjena porcija
-    - Nutritivni kontekst
-    - Detekcija više objekata
-    - Visual question answering
-    - OCR i razumijevanje teksta
-    - Kontekstualno razumijevanje
-    Args:
-        image: PIL Image objekat
-        processor: LLaVA procesor
-        model: LLaVA model
-        device: Device za izvršavanje (cuda/cpu)
-    Returns:
-        Dictionary sa sveobuhvatnim rezultatima analize
-    """
-    results = {}
-    # Task 1: Sveobuhvatna Food Analiza
-    try:
-        prompt = """[INST] <image>
-Analiziraj ovu sliku detaljno. Opiši koju hranu ili objekte vidiš, njihove približne porcije,
-sastojke koje možeš identificirati, i bilo koji vidljivi tekst. Budi veoma specifičan i detaljan. [/INST]"""
-        inputs = processor(prompt, image, return_tensors="pt").to(device)
-        with torch.no_grad():
-            output = model.generate(
-                **inputs,
-                max_new_tokens=512,
-                temperature=0.1,
-                top_p=0.9,
-                do_sample=False
-            )
-        response = processor.decode(output[0], skip_special_tokens=True)
-        # Izvuci samo odgovor (skip prompt)
-        response = response.split("[/INST]")[-1].strip()
-        results["detailed_analysis"] = response
-    except Exception as e:
-        print(f"Greška u detaljnoj analizi: {e}")
-        results["detailed_analysis"] = ""
-    # Task 2: Specifična Identifikacija Hrane
-    try:
-        prompt = """[INST] <image>
-Nabroj sve namirnice koje možeš identificirati na ovoj slici. Za svaku stavku navedite:
-1) Naziv
-2) Procijenjena porcija/količina
-3) Glavni sastojci ako su vidljivi
-Formatiraj kao numerisanu listu. [/INST]"""
-        inputs = processor(prompt, image, return_tensors="pt").to(device)
-        with torch.no_grad():
-            output = model.generate(
-                **inputs,
-                max_new_tokens=512,
-                temperature=0.1,
-                top_p=0.9,
-                do_sample=False
-            )
-        response = processor.decode(output[0], skip_special_tokens=True)
-        response = response.split("[/INST]")[-1].strip()
-        results["food_items"] = response
-    except Exception as e:
-        print(f"Greška u identifikaciji hrane: {e}")
-        results["food_items"] = ""
-    # Task 3: Nutritivni Kontekst
-    try:
-        prompt = """[INST] <image>
-Na osnovu onoga što vidiš, daj kratak nutritivni pregled: Da li je ovaj obrok bogat proteinima,
-ugljenim hidratima ili mastima? Da li je to zdrav izbor? Bilo kakve dijetetske napomene? [/INST]"""
-        inputs = processor(prompt, image, return_tensors="pt").to(device)
-        with torch.no_grad():
-            output = model.generate(
-                **inputs,
-                max_new_tokens=256,
-                temperature=0.1,
-                top_p=0.9,
-                do_sample=False
-            )
-        response = processor.decode(output[0], skip_special_tokens=True)
-        response = response.split("[/INST]")[-1].strip()
-        results["nutritional_context"] = response
-    except Exception as e:
-        print(f"Greška u nutritivnoj analizi: {e}")
-        results["nutritional_context"] = ""
-    # Task 4: OCR - Izvuci vidljivi tekst
-    try:
-        prompt = """[INST] <image>
-Izvuci bilo koji vidljivi tekst na ovoj slici (etikete, nutritivne informacije, menije, znakove, itd.).
-Ako nema teksta, reci 'Tekst nije detektovan'. [/INST]"""
-        inputs = processor(prompt, image, return_tensors="pt").to(device)
-        with torch.no_grad():
-            output = model.generate(
-                **inputs,
-                max_new_tokens=256,
-                temperature=0.1,
-                top_p=0.9,
-                do_sample=False
-            )
-        response = processor.decode(output[0], skip_special_tokens=True)
-        response = response.split("[/INST]")[-1].strip()
-        results["ocr_text"] = response
-    except Exception as e:
-        print(f"Greška u OCR-u: {e}")
-        results["ocr_text"] = ""
-    return results
-def extract_food_info(analysis_results: Dict[str, Any]) -> Dict[str, Any]:
-    """
-    Izvlači strukturirane food informacije iz LLaVA rezultata analize.
-    Args:
-        analysis_results: Sirovi rezultati iz LLaVA analize
-    Returns:
-        Formatirane food informacije
-    """
-    detailed_analysis = analysis_results.get("detailed_analysis", "").lower()
-    food_items = analysis_results.get("food_items", "")
-    # Provjeri da li je prisutna hrana
-    food_keywords = [
-        "food", "meal", "dish", "plate", "bowl", "fruit", "vegetable", "hrana", "jelo",
-        "meat", "chicken", "beef", "fish", "pasta", "rice", "bread", "meso", "piletina",
-        "salad", "sandwich", "pizza", "burger", "dessert", "cake", "salata", "sendvič",
-        "cookie", "snack", "breakfast", "lunch", "dinner", "drink", "doručak", "ručak",
-        "beverage", "coffee", "tea", "juice", "kafa", "čaj", "sok"
     ]
-    has_food = any(keyword in detailed_analysis for keyword in food_keywords)
-    # Izvuci primarni label iz food items
-    primary_label = "unknown"
-    alternative_labels = []
-    if food_items and len(food_items) > 10:
-        # Pokušaj izvući nazive stavki
-        lines = food_items.split('\n')
-        for line in lines:
-            if line.strip() and (line.strip()[0].isdigit() or line.strip().startswith('-')):
-                # Izvuci naziv hrane iz numerisane ili bullet liste
-                parts = line.split('.', 1) if '.' in line else line.split(')', 1)
-                if len(parts) > 1:
-                    food_name = parts[1].split(':')[0].split('-')[0].strip()
-                    if food_name:
-                        if primary_label == "unknown":
-                            primary_label = food_name
-                        else:
-                            alternative_labels.append(food_name)
-    if primary_label == "unknown" and detailed_analysis:
-        # Pokušaj izvući iz detaljne analize
-        for keyword in food_keywords:
-            if keyword in detailed_analysis:
-                primary_label = keyword
-                break
     return {
         "primary_label": primary_label.title(),
-        "alternative_labels": alternative_labels[:5],  # Do 5 alternativa
-        "detailed_analysis": analysis_results.get("detailed_analysis", ""),
-        "food_items": food_items,
-        "nutritional_context": analysis_results.get("nutritional_context", ""),
-        "ocr_text": analysis_results.get("ocr_text", ""),
-        "has_food": has_food,
-        "confidence": 0.9 if has_food and primary_label != "unknown" else 0.5
     }
 # --- Učitaj Model pri Pokretanju Aplikacije ---
-print("🚀 Pokrećem ULTIMATIVNI Food Scanner API sa LLaVA-NeXT...")
-processor, model, device = load_model()
 # --- FastAPI Aplikacija ---
 app = FastAPI(
-    title="🍎 ULTIMATIVNI Food Scanner API - Nutrition Edition",
     description="""
-    **🏆 KOMPLETNO Production-Grade Food Recognition + Nutrition Analysis API**
-    Kombinuje LLaVA-NeXT vision model sa Open Food Facts nutrition bazom podataka.
     ### 🌟 Glavne Mogućnosti:
-    - 🍕 **AI Food Recognition** - LLaVA-NeXT prepoznaje hranu iz slike sa visokom preciznošću
     - 📊 **REALNI Nutritivni Podaci** - Automatski vraća kalorije, makroe, mikronutrijente
     - 🔍 **Open Food Facts Integracija** - 700,000+ proizvoda u bazi
     - 🤖 **AI Fallback Estimation** - Inteligentna procjena za nepoznatu hranu
     - 🔎 **Manual Nutrition Lookup** - Pretraži nutrition po imenu hrane
     - 📝 **Analiza Sastojaka** - Identificira vidljive sastojke i komponente
-    - 📄 **OCR Podrška** - Čita nutritivne etikete, menije, recepte
-    - 🎯 **Visual Question Answering** - Postavi bilo koje pitanje o slici
-    - 🌍 **Višejezična Podrška** - Radi sa tekstom na više jezika
     ### 🎯 Kako Radi:
     1. **Upload** - Pošalji sliku hrane na `/analyze` endpoint
-    2. **AI Detection** - LLaVA-NeXT identificira koja je hrana na slici
     3. **Nutrition Lookup** - Automatski pretraži Open Food Facts bazu
     4. **Response** - Primiš naziv hrane + kompletan nutrition breakdown
@@ -476,7 +412,7 @@ app = FastAPI(
     - 🤖 Inteligentna procjena za nepoznatu hranu
     - ✅ Production-ready i stabilan
     """,
-    version="8.0.0 - NUTRITION EDITION"
 )
 # Dodaj CORS middleware za web aplikacije
@@ -490,8 +426,8 @@ app.add_middleware(
 @app.post("/analyze",
     summary="Analiziraj Food Sliku",
-    description="Upload-uj sliku da dobiješ sveobuhvatnu food analizu sa LLaVA-NeXT",
-    response_description="Detaljni rezultati food recognition i analize"
 )
 async def analyze(file: UploadFile = File(...)):
     """
@@ -528,13 +464,10 @@ async def analyze(file: UploadFile = File(...)):
         raise HTTPException(status_code=500, detail=f"Greška pri čitanju slike: {e}")
     try:
-        # Izvrši sveobuhvatnu analizu sa LLaVA-NeXT
-        print("🔍 Analiziram sliku sa LLaVA-NeXT...")
-        analysis_results = analyze_image_with_llava(image, processor, model, device)
-        # Izvuci strukturirane food informacije
-        food_info = extract_food_info(analysis_results)
     except Exception as e:
         print(f"Greška tokom analize: {e}")
         raise HTTPException(status_code=500, detail=f"Greška tokom analize: {e}")
@@ -567,12 +500,12 @@ async def analyze(file: UploadFile = File(...)):
         # Alternative
         "alternatives": food_info["alternative_labels"],
-        # Dodatne informacije iz AI analize
-        "ai_analysis": {
             "detailed_description": food_info["detailed_analysis"],
             "food_items": food_info["food_items"],
-            "nutritional_context": food_info["nutritional_context"],
-            "ocr_text": food_info["ocr_text"]
         },
         "image_info": {
@@ -584,14 +517,10 @@ async def analyze(file: UploadFile = File(...)):
         "model_info": {
             "vision_model": MODEL_NAME,
             "nutrition_source": nutrition_data["source"],
-            "type": "Vision-Language Model (VLM) + Nutrition Database",
             "capabilities": [
-                "Food Recognition",
-                "Nutrition Data Lookup",
-                "Ingredient Analysis",
-                "Portion Estimation",
-                "Multi-Object Detection",
-                "OCR & Text Understanding"
             ]
         }
     }
@@ -599,66 +528,14 @@ async def analyze(file: UploadFile = File(...)):
     return JSONResponse(content=final_response)
 @app.post("/ask",
-    summary="Postavi Pitanje o Slici",
-    description="Upload-uj sliku i postavi specifično pitanje o njoj"
 )
 async def ask_about_image(
     file: UploadFile = File(...),
     question: str = Query(..., description="Tvoje pitanje o slici")
 ):
-    """
-    **Visual Question Answering Endpoint**
-    Upload-uj sliku i postavi BILO KOJE pitanje o njoj:
-    - "Koje sastojke vidiš?"
-    - "Da li je ovo zdrav obrok?"
-    - "Koliko približno kalorija?"
-    - "Koja je ovo kuhinja?"
-    - "Može li vegetarijanac ovo jesti?"
-    """
-    if not file:
-        raise HTTPException(status_code=400, detail="Slika nije poslata.")
-    if not is_image_file(file):
-        raise HTTPException(
-            status_code=400,
-            detail="Nepodržan format slike. Koristi JPEG, PNG ili WebP."
-        )
-    try:
-        contents = await file.read()
-        image = Image.open(BytesIO(contents))
-        if image.mode != "RGB":
-            image = image.convert("RGB")
-        # Pripremi VQA prompt
-        prompt = f"[INST] <image>\n{question} [/INST]"
-        inputs = processor(prompt, image, return_tensors="pt").to(device)
-        with torch.no_grad():
-            output = model.generate(
-                **inputs,
-                max_new_tokens=512,
-                temperature=0.2,
-                top_p=0.9,
-                do_sample=True
-            )
-        response = processor.decode(output[0], skip_special_tokens=True)
-        answer = response.split("[/INST]")[-1].strip()
-        return JSONResponse(content={
-            "success": True,
-            "question": question,
-            "answer": answer,
-            "model": MODEL_NAME
-        })
-    except Exception as e:
-        print(f"Greška tokom VQA: {e}")
-        raise HTTPException(status_code=500, detail=f"Greška tokom analize: {e}")
 @app.get("/search-nutrition/{food_name}",
     summary="Pretraži Nutritivne Podatke",
@@ -714,33 +591,33 @@ async def search_nutrition(food_name: str):
 def root():
     """Root endpoint sa API informacijama."""
     return {
-        "message": "🍎 Ultimativni Food Scanner API v8.0 - LLaVA-NeXT + Nutrition Edition",
         "status": "🟢 Online",
         "tagline": "🏆 Najbolji Self-Hosted Food Recognition + Nutrition API",
         "model": {
             "vision_model": MODEL_NAME,
             "nutrition_source": "Open Food Facts + AI Estimation",
-            "type": "Vision-Language Model (VLM) + Nutrition Database",
-            "provider": "LLaVA Team / Haotian Liu + Open Food Facts",
-            "generation": "LLaVA-NeXT (v1.6)",
             "device": device.upper(),
-            "rank": "🥇 #1 Kompletno Food Recognition Rješenje"
         },
         "capabilities": {
-            "food_recognition": "✅ Ultra-Detaljno (AI Vision)",
             "nutrition_data": "✅ Realne Nutritivne Vrijednosti",
             "nutrition_lookup": "✅ Manual Search po Imenu",
-            "ingredient_analysis": "✅ Napredno",
-            "portion_estimation": "✅ Precizno",
-            "multi_object_detection": "✅ Neograničeno",
-            "ocr": "✅ Višejezično",
-            "visual_qa": "✅ Konverzaciono",
-            "offline_mode": "✅ Puna Podrška (za vision)",
             "database": "✅ Open Food Facts (700K+ proizvoda)"
         },
         "endpoints": {
             "POST /analyze": "🍕 Upload food sliku - AI prepozna + vrati nutritivne podatke",
-            "POST /ask": "❓ Upload sliku i postavi bilo koje pitanje o njoj",
             "GET /search-nutrition/{food_name}": "🔍 Pretraži nutritivne podatke po imenu hrane",
             "GET /health": "💚 Provjeri API i model health status",
             "GET /capabilities": "📋 Lista svih mogućnosti modela",
@@ -750,11 +627,11 @@ def root():
         "advantages": {
             "cost": "💰 100% Besplatno - Nikad nema API troškova",
             "privacy": "🔒 Self-hosted - Tvoji podaci ostaju privatni",
-            "performance": "⚡ State-of-the-art preciznost",
             "nutrition_accuracy": "📊 Realni podaci iz Open Food Facts baze",
             "fallback": "🤖 AI procjena ako hrana nije u bazi",
-            "offline": "📡 Vision model radi bez interneta",
-            "stability": "✅ 100% stabilno i production-ready",
             "updates": "🔄 Open-source - Uvijek se poboljšava"
         },
         "documentation": "Posjeti /docs za interaktivno API testiranje"
@@ -781,12 +658,12 @@ def health_check():
         "model_loaded": model_status,
         "vision_model": MODEL_NAME,
         "nutrition_api": nutrition_api_status,
-        "model_type": "LLaVA-NeXT Vision-Language Model + Nutrition Database",
         "device": device,
         "device_available": torch.cuda.is_available() if device == "cuda" else True,
-        "version": "8.0.0 - NUTRITION EDITION",
         "timestamp": "2025-10-08",
-        "ranking": "🥇 #1 Kompletno Food Recognition + Nutrition Rješenje"
     }
 @app.get("/capabilities",
@@ -798,13 +675,13 @@ def get_capabilities():
     return {
         "vision_model": MODEL_NAME,
         "nutrition_source": "Open Food Facts",
-        "generation": "LLaVA-NeXT (v1.6) + Nutrition Database",
-        "release": "2024 (Latest Stable)",
         "vision_tasks": {
             "food_recognition": {
-                "description": "Identificira specifična jela, kuhinje i stilove kuvanja",
-                "accuracy": "State-of-the-art",
-                "features": ["Multi-food detection", "Ingredient identification", "Cuisine classification"]
             },
             "nutrition_data": {
                 "description": "Vraća REALNE nutritivne vrijednosti iz baze podataka",
@@ -813,30 +690,10 @@ def get_capabilities():
                 "data_includes": ["Kalorije", "Proteini", "Ugljeni hidrati", "Masti", "Vlakna", "Šećeri", "Natrijum"],
                 "per_serving": "100g (standardno)"
             },
-            "nutritional_analysis": {
-                "description": "AI analiza nutritivnog konteksta iz slike",
-                "capabilities": ["Macro estimation", "Portion analysis", "Dietary recommendations"]
-            },
-            "visual_understanding": {
-                "description": "Sveobuhvatno razumijevanje i opis slike",
-                "output": "Detaljni opisi na prirodnom jeziku",
-                "depth": "Ultra-detaljno sa kontekstom"
-            },
-            "ocr": {
-                "description": "Izvlači i razumije tekst sa slika",
-                "languages": "Višejezično (100+ jezika)",
-                "applications": ["Nutrition labels", "Menus", "Recipes", "Signs"]
-            },
-            "visual_qa": {
-                "description": "Odgovara na bilo koje pitanje o slici",
-                "interaction": "Konverzacijski",
-                "examples": [
-                    "Koje sastojke vidiš?",
-                    "Da li je ovo zdrav obrok?",
-                    "Koliko približno kalorija?",
-                    "Koja je ovo kuhinja?"
-                ]
-            }
         },
         "use_cases": [
             "Profesionalno nutrition tracking sa realnim podacima",
@@ -846,32 +703,31 @@ def get_capabilities():
             "Sistemi za dijetetske preporuke",
             "Food delivery aplikacije sa nutrition labels",
             "Health i fitness platforme",
-            "Analiza recepata sa nutritivnim vrijednostima",
-            "Prepoznavanje i analiza sastojaka",
-            "Kontrola porcija i kalorija",
             "Edukativne food i nutrition aplikacije",
             "Medical i healthcare nutrition tracking"
         ],
         "advantages": [
-            "🏆 Najbolji stabilni open-source vision model",
             "📊 REALNI nutritivni podaci iz Open Food Facts",
-            "💯 State-of-the-art preciznost u food recognition",
             "🆓 Potpuno besplatno za korištenje",
             "🔒 Self-hostable za privatnost",
             "⚡ Brza inferenca",
             "🤖 AI fallback estimation za nepoznatu hranu",
             "📡 Vision model radi offline",
             "🌍 Višejezična podrška",
-            "🎯 Specijalizovan za hranu + nutrition",
             "💪 Robustan i pouzdan",
             "🔄 Aktivno održavan",
-            "✅ 100% stabilan i production-ready",
             "🔬 700,000+ proizvoda u bazi"
         ],
         "technical_specs": {
-            "parameters": "7 Billion",
-            "architecture": "Vision-Language Transformer (LLaVA-NeXT)",
-            "training_data": "Masivni multimodalni dataset",
             "supported_formats": ["JPEG", "PNG", "WebP"],
             "max_resolution": "Podrška za visoke rezolucije",
             "batch_processing": "Podržano",
@@ -885,28 +741,29 @@ def get_capabilities():
 # --- Pokreni API ---
 if __name__ == "__main__":
     print("=" * 80)
-    print("🍎 ULTIMATIVNI FOOD SCANNER API v8.0 - NUTRITION EDITION")
     print("=" * 80)
     print(f"🤖 Vision Model: {MODEL_NAME}")
     print(f"📊 Nutrition Source: Open Food Facts + AI Estimation")
-    print(f"🏢 Provider: LLaVA Team / Haotian Liu")
-    print(f"🔧 Type: Vision-Language Model (VLM) + Nutrition Database")
     print(f"💻 Device: {device.upper()}")
-    print(f"🎯 Rank: #1 Kompletno Food Recognition + Nutrition Rješenje")
     print(f"✨ Status: Production Ready - NUTRITION EDITION")
     print(f"💰 Cost: $0 - 100% Besplatno Self-Hosted")
     print("=" * 80)
     print("🌟 NOVE MOGUĆNOSTI:")
-    print("   ✅ AI prepoznavanje hrane iz slike")
     print("   ✅ Automatsko vraćanje nutritivnih vrijednosti")
     print("   ✅ 700,000+ proizvoda u Open Food Facts bazi")
     print("   ✅ AI procjena za nepoznatu hranu")
     print("   ✅ Manual nutrition lookup po imenu")
     print("=" * 80)
-    print("🌍 Pokrećem server na http://0.0.0.0:8000")
-    print("📚 API Docs: http://0.0.0.0:8000/docs")
-    print("🔥 Spreman za food recognition + nutrition analysis!")
     print("=" * 80)
-    uvicorn.run(app, host="0.0.0.0", port=8000)

 import base64
 import re
 import requests
+import contextlib
 import uvicorn
 from fastapi import FastAPI, File, UploadFile, HTTPException, Query
 from fastapi.middleware.cors import CORSMiddleware
 from PIL import Image
 import torch
+import torch.nn.functional as F
+from transformers import CLIPProcessor, CLIPModel
 # --- Configuration ---
+# LITE varijanta: CLIP zero-shot klasifikacija nad Food-101 labelama (CPU-friendly)
+# Zadano koristi ViT-L/14 model; može se promijeniti preko env varijable MODEL_NAME
+MODEL_NAME = os.environ.get("MODEL_NAME", "openai/clip-vit-large-patch14")
 # --- Helper Functions ---
+def select_device() -> str:
+    """Odabire najbolji dostupni uređaj: CUDA > MPS (Apple) > CPU."""
+    if torch.cuda.is_available():
+        return "cuda"
+    # MPS (Apple Silicon)
+    try:
+        if hasattr(torch.backends, "mps") and torch.backends.mps.is_available():
+            return "mps"
+    except Exception:
+        pass
+    return "cpu"
+def select_dtype(device: str):
+    """Odabire optimalni dtype za dati uređaj (za manju memoriju i bržu inferencu)."""
+    if device == "cuda":
+        return torch.float16
+    # MPS je najstabilniji sa float16 za CLIP u praksi
+    if device == "mps":
+        return torch.float16
+    return torch.float32
+def autocast_context(device: str, dtype):
+    """Vraća odgovarajući autocast kontekst za dati uređaj i dtype (ili no-op)."""
+    if device in ("cuda", "cpu", "mps"):
+        try:
+            return torch.autocast(device_type=device, dtype=dtype)
+        except Exception:
+            return contextlib.nullcontext()
+    return contextlib.nullcontext()
 def load_model():
     """
+    Učitava lagani CLIP model i processor za zero-shot klasifikaciju.
     """
     try:
+        print(f"Loading LITE model: {MODEL_NAME}...")
+        device = select_device()
+        dtype = select_dtype(device)
+        print(f"Using device: {device} | dtype: {dtype}")
+        processor = CLIPProcessor.from_pretrained(MODEL_NAME)
+        # Preferiraj sigurnije safetensors težine + učitaj direktno u niži dtype
+        model = CLIPModel.from_pretrained(MODEL_NAME, use_safetensors=True, torch_dtype=dtype)
+        model.to(device)
         model.eval()
+        # Opcionalni compile za dodatni throughput na CUDA
+        if device == "cuda" and os.environ.get("CLIP_COMPILE", "1") == "1" and hasattr(torch, "compile"):
+            try:
+                model = torch.compile(model, mode="reduce-overhead", fullgraph=False)
+                print("⚡ torch.compile omogućen (reduce-overhead)")
+            except Exception as _e:
+                print(f"ℹ️ torch.compile nije omogućen: {_e}")
+        print("✅ LITE CLIP model učitan uspješno!")
+        return processor, model, device, dtype
+    except ValueError as e:
+        # Jasnija poruka za CVE i torch>=2.6 zahtjev
+        if "upgrade torch to at least v2.6" in str(e) or "torch.load" in str(e):
+            msg = (
+                "Zbog CVE-2025-32434 potrebno je koristiti torch>=2.6. "
+                "Ažuriraj okruženje: pip install --upgrade 'torch>=2.6' 'safetensors>=0.4.3'\n"
+                "Ako radiš lokalno: pip install -r requirements.txt"
+            )
+            print(f"❌ {msg}")
+        raise
     except Exception as e:
+        # Pokušaj fallback bez safetensors (ako je dostupno i okruženje je sigurno)
+        print(f"⚠️ Primarni load sa safetensors nije uspio: {e}. Pokušavam fallback...")
+        try:
+            device = select_device()
+            dtype = select_dtype(device)
+            processor = CLIPProcessor.from_pretrained(MODEL_NAME)
+            model = CLIPModel.from_pretrained(MODEL_NAME, use_safetensors=False, torch_dtype=dtype)
+            model.to(device)
+            model.eval()
+            print("✅ LITE CLIP model učitan uspješno (fallback način)!")
+            return processor, model, device, dtype
+        except Exception as e2:
+            print(f"❌ Greška pri učitavanju CLIP modela (fallback): {e2}")
+        print(f"❌ Greška pri učitavanju CLIP modela: {e}")
         raise
 def is_image_file(file: UploadFile):
         "note": "Nutritivne vrijednosti su procijenjene na osnovu kategorije hrane"
     }
+def get_food101_labels() -> List[str]:
+    """Vraća listu Food-101 klasa (formatirano sa razmacima)."""
+    raw_labels = [
+        "apple_pie", "baby_back_ribs", "baklava", "beef_carpaccio", "beef_tartare",
+        "beet_salad", "beignets", "bibimbap", "bread_pudding", "breakfast_burrito",
+        "bruschetta", "caesar_salad", "cannoli", "caprese_salad", "carrot_cake",
+        "ceviche", "cheesecake", "cheese_plate", "chicken_curry", "chicken_quesadilla",
+        "chicken_wings", "chocolate_cake", "chocolate_mousse", "churros", "clam_chowder",
+        "club_sandwich", "crab_cakes", "creme_brulee", "croque_madame", "cup_cakes",
+        "deviled_eggs", "donuts", "dumplings", "edamame", "eggs_benedict",
+        "escargots", "falafel", "filet_mignon", "fish_and_chips", "foie_gras",
+        "french_fries", "french_onion_soup", "french_toast", "fried_calamari", "fried_rice",
+        "frozen_yogurt", "garlic_bread", "gnocchi", "greek_salad", "grilled_cheese_sandwich",
+        "grilled_salmon", "guacamole", "gyoza", "hamburger", "hot_and_sour_soup",
+        "hot_dog", "huevos_rancheros", "hummus", "ice_cream", "lasagna",
+        "lobster_bisque", "lobster_roll_sandwich", "macaroni_and_cheese", "macarons", "miso_soup",
+        "mussels", "nachos", "omelette", "onion_rings", "oysters",
+        "pad_thai", "paella", "pancakes", "panna_cotta", "peking_duck",
+        "pho", "pizza", "pork_chop", "poutine", "prime_rib",
+        "pulled_pork_sandwich", "ramen", "ravioli", "red_velvet_cake", "risotto",
+        "samosa", "sashimi", "scallops", "seaweed_salad", "shrimp_and_grits",
+        "spaghetti_bolognese", "spaghetti_carbonara", "spring_rolls", "steak", "strawberry_shortcake",
+        "sushi", "tacos", "takoyaki", "tiramisu", "tuna_tartare",
+        "waffles"
     ]
+    return [label.replace("_", " ") for label in raw_labels]
+def build_text_cache(labels: List[str], processor: CLIPProcessor, model: CLIPModel, device: str, dtype) -> torch.Tensor:
+    """Prekompajlira i kešira CLIP tekstualne embeddinge za Food-101 labele (L2-normalizovane)."""
+    with torch.no_grad():
+        text_inputs = processor(text=labels, return_tensors="pt", padding=True, truncation=True)
+        text_inputs = {k: v.to(device) for k, v in text_inputs.items()}
+        with autocast_context(device, dtype):
+            text_features = model.get_text_features(**text_inputs)
+        text_features = text_features / text_features.norm(dim=-1, keepdim=True)
+    return text_features
+def warmup_model(processor: CLIPProcessor, model: CLIPModel, device: str, dtype):
+    """Kratki warmup da se popune keševi i stabilizuje latency (posebno uz torch.compile)."""
+    try:
+        img = Image.new("RGB", (224, 224), color=(127, 127, 127))
+        img_inputs = processor(images=img, return_tensors="pt")
+        img_inputs = {k: v.to(device) for k, v in img_inputs.items()}
+        with torch.no_grad(), autocast_context(device, dtype):
+            _ = model.get_image_features(**img_inputs)
+        if device == "cuda":
+            torch.cuda.synchronize()
+        print("🔥 Warmup završen")
+    except Exception as _e:
+        print(f"ℹ️ Warmup preskočen: {_e}")
+def classify_image_with_clip(image: Image.Image, processor: CLIPProcessor, model: CLIPModel, device: str) -> Dict[str, Any]:
+    """Zero-shot klasifikacija slike nad Food-101 labelama koristeći CLIP sa keširanim tekst embedding-ima."""
+    global TEXT_FEATURES, TEXT_LABELS, CURRENT_DTYPE
+    labels = TEXT_LABELS
+    img_inputs = processor(images=image, return_tensors="pt")
+    img_inputs = {k: v.to(device) for k, v in img_inputs.items()}
+    with torch.no_grad(), autocast_context(device, CURRENT_DTYPE):
+        image_features = model.get_image_features(**img_inputs)
+        image_features = image_features / image_features.norm(dim=-1, keepdim=True)
+        logits = (image_features @ TEXT_FEATURES.t()) * 100.0
+        probs = F.softmax(logits, dim=1).cpu().numpy()[0]
+    # Top-5
+    top_indices = probs.argsort()[-5:][::-1]
+    top_labels = [labels[i] for i in top_indices]
+    top_probs = [float(probs[i]) for i in top_indices]
+    primary_label = top_labels[0]
     return {
         "primary_label": primary_label.title(),
+        "alternatives": [l.title() for l in top_labels[1:]],
+        "confidence": top_probs[0],
+        "top5": list(zip(top_labels, top_probs))
+    }
+def extract_clip_food_info(classification: Dict[str, Any]) -> Dict[str, Any]:
+    """Formatira rezultat CLIP klasifikacije u zajedničku strukturu."""
+    primary = classification["primary_label"]
+    alts = classification["alternatives"]
+    conf = classification["confidence"]
+    # Jednostavan tekstualni rezime umjesto LLaVA eseja
+    detailed = f"Detektovano: {primary} (povjerenje {conf:.2f}). Top-5: " + \
+               ", ".join([f"{l.title()} ({p:.2f})" for l, p in classification["top5"]])
+    items = f"1) {primary}"
+    return {
+        "primary_label": primary,
+        "alternative_labels": alts,
+        "detailed_analysis": detailed,
+        "food_items": items,
+        "nutritional_context": "",
+        "ocr_text": "",
+        "has_food": True,
+        "confidence": conf
     }
 # --- Učitaj Model pri Pokretanju Aplikacije ---
+print("🚀 Pokrećem LITE Food Scanner API (CLIP)...")
+processor, model, device, dtype = load_model()
+CURRENT_DTYPE = dtype
+TEXT_LABELS = get_food101_labels()
+TEXT_FEATURES = build_text_cache(TEXT_LABELS, processor, model, device, dtype)
+warmup_model(processor, model, device, dtype)
 # --- FastAPI Aplikacija ---
 app = FastAPI(
+    title="🍎 LITE Food Scanner API - Nutrition Edition (CLIP)",
     description="""
+    **🏆 Lako i brzo prepoznavanje hrane + Nutrition Lookup (CPU-friendly)**
+    Koristi CLIP zero-shot klasifikaciju nad Food-101 klasama i Open Food Facts bazu.
     ### 🌟 Glavne Mogućnosti:
+    - 🍕 **AI Food Recognition** - CLIP zero-shot prepoznaje hranu iz slike
     - 📊 **REALNI Nutritivni Podaci** - Automatski vraća kalorije, makroe, mikronutrijente
     - 🔍 **Open Food Facts Integracija** - 700,000+ proizvoda u bazi
     - 🤖 **AI Fallback Estimation** - Inteligentna procjena za nepoznatu hranu
     - 🔎 **Manual Nutrition Lookup** - Pretraži nutrition po imenu hrane
     - 📝 **Analiza Sastojaka** - Identificira vidljive sastojke i komponente
+    - 📄 **OCR / VQA** - Onemogućeno u LITE modu radi uštede memorije
     ### 🎯 Kako Radi:
     1. **Upload** - Pošalji sliku hrane na `/analyze` endpoint
+    2. **AI Detection** - CLIP model identificira koja je hrana na slici
     3. **Nutrition Lookup** - Automatski pretraži Open Food Facts bazu
     4. **Response** - Primiš naziv hrane + kompletan nutrition breakdown
     - 🤖 Inteligentna procjena za nepoznatu hranu
     - ✅ Production-ready i stabilan
     """,
+    version="9.0.0 - LITE (CLIP)"
 )
 # Dodaj CORS middleware za web aplikacije
 @app.post("/analyze",
     summary="Analiziraj Food Sliku",
+    description="Upload-uj sliku da dobiješ food label + nutritivne podatke (CLIP LITE)",
+    response_description="Rezultati food recognition i nutritivnih podataka"
 )
 async def analyze(file: UploadFile = File(...)):
     """
         raise HTTPException(status_code=500, detail=f"Greška pri čitanju slike: {e}")
     try:
+        # Zero-shot klasifikacija sa CLIP-om
+        print("🔍 Analiziram sliku sa CLIP (zero-shot Food-101)...")
+        classification = classify_image_with_clip(image, processor, model, device)
+        food_info = extract_clip_food_info(classification)
     except Exception as e:
         print(f"Greška tokom analize: {e}")
         raise HTTPException(status_code=500, detail=f"Greška tokom analize: {e}")
         # Alternative
         "alternatives": food_info["alternative_labels"],
+    # Dodatne informacije (LITE)
+    "ai_analysis": {
             "detailed_description": food_info["detailed_analysis"],
             "food_items": food_info["food_items"],
+            "nutritional_context": "",
+            "ocr_text": ""
         },
         "image_info": {
         "model_info": {
             "vision_model": MODEL_NAME,
             "nutrition_source": nutrition_data["source"],
+            "type": "CLIP Zero-shot Classifier + Nutrition Database",
             "capabilities": [
+                "Food Recognition (Food-101)",
+                "Nutrition Data Lookup"
             ]
         }
     }
     return JSONResponse(content=final_response)
 @app.post("/ask",
+    summary="Postavi Pitanje o Slici (LITE onemogućeno)",
+    description="U LITE modu VQA je onemogućeno radi uštede memorije"
 )
 async def ask_about_image(
     file: UploadFile = File(...),
     question: str = Query(..., description="Tvoje pitanje o slici")
 ):
+    raise HTTPException(status_code=501, detail="VQA je onemogućeno u LITE modu. Koristi /analyze za prepoznavanje hrane.")
 @app.get("/search-nutrition/{food_name}",
     summary="Pretraži Nutritivne Podatke",
 def root():
     """Root endpoint sa API informacijama."""
     return {
+        "message": "🍎 LITE Food Scanner API v9.0 - CLIP + Nutrition Edition",
         "status": "🟢 Online",
         "tagline": "🏆 Najbolji Self-Hosted Food Recognition + Nutrition API",
         "model": {
             "vision_model": MODEL_NAME,
             "nutrition_source": "Open Food Facts + AI Estimation",
+            "type": "CLIP Zero-shot Classifier + Nutrition Database",
+            "provider": "OpenAI CLIP + Open Food Facts",
+            "generation": "CLIP (ViT-L/14)",
             "device": device.upper(),
+            "rank": "🥇 LITE rješenje za Food Recognition"
         },
         "capabilities": {
+            "food_recognition": "✅ Food-101 Zero-shot (CLIP)",
             "nutrition_data": "✅ Realne Nutritivne Vrijednosti",
             "nutrition_lookup": "✅ Manual Search po Imenu",
+            "ingredient_analysis": "❌ (LITE)",
+            "portion_estimation": "❌ (LITE)",
+            "multi_object_detection": "❌ (LITE)",
+            "ocr": "❌ (LITE)",
+            "visual_qa": "❌ (LITE)",
+            "offline_mode": "✅",
             "database": "✅ Open Food Facts (700K+ proizvoda)"
         },
         "endpoints": {
             "POST /analyze": "🍕 Upload food sliku - AI prepozna + vrati nutritivne podatke",
+            "POST /ask": "❌ Onemogućeno u LITE modu",
             "GET /search-nutrition/{food_name}": "🔍 Pretraži nutritivne podatke po imenu hrane",
             "GET /health": "💚 Provjeri API i model health status",
             "GET /capabilities": "📋 Lista svih mogućnosti modela",
         "advantages": {
             "cost": "💰 100% Besplatno - Nikad nema API troškova",
             "privacy": "🔒 Self-hosted - Tvoji podaci ostaju privatni",
+            "performance": "⚡ Brza inferenca (CPU-friendly)",
             "nutrition_accuracy": "📊 Realni podaci iz Open Food Facts baze",
             "fallback": "🤖 AI procjena ako hrana nije u bazi",
+            "offline": "📡 Radi offline (model)",
+            "stability": "✅ Stabilno i production-ready",
             "updates": "🔄 Open-source - Uvijek se poboljšava"
         },
         "documentation": "Posjeti /docs za interaktivno API testiranje"
         "model_loaded": model_status,
         "vision_model": MODEL_NAME,
         "nutrition_api": nutrition_api_status,
+        "model_type": "CLIP Zero-shot Classifier + Nutrition Database",
         "device": device,
         "device_available": torch.cuda.is_available() if device == "cuda" else True,
+        "version": "9.0.0 - LITE (CLIP)",
         "timestamp": "2025-10-08",
+        "ranking": "🥇 LITE Food Recognition + Nutrition Rješenje"
     }
 @app.get("/capabilities",
     return {
         "vision_model": MODEL_NAME,
         "nutrition_source": "Open Food Facts",
+        "generation": "CLIP (ViT-L/14) + Nutrition Database",
+        "release": "2024 (Stable)",
         "vision_tasks": {
             "food_recognition": {
+                "description": "Zero-shot klasifikacija nad Food-101 listom klasa",
+                "accuracy": "Visoka (zavisno od scene)",
+                "features": ["Top-5 predlozi", "CPU-friendly"]
             },
             "nutrition_data": {
                 "description": "Vraća REALNE nutritivne vrijednosti iz baze podataka",
                 "data_includes": ["Kalorije", "Proteini", "Ugljeni hidrati", "Masti", "Vlakna", "Šećeri", "Natrijum"],
                 "per_serving": "100g (standardno)"
             },
+            "nutritional_analysis": {"description": "(LITE) Onemogućeno"},
+            "visual_understanding": {"description": "(LITE) Onemogućeno"},
+            "ocr": {"description": "(LITE) Onemogućeno"},
+            "visual_qa": {"description": "(LITE) Onemogućeno"}
         },
         "use_cases": [
             "Profesionalno nutrition tracking sa realnim podacima",
             "Sistemi za dijetetske preporuke",
             "Food delivery aplikacije sa nutrition labels",
             "Health i fitness platforme",
+            "Analiza recepata (preko naziva)",
+            "Kontrola porcija (ručno)",
             "Edukativne food i nutrition aplikacije",
             "Medical i healthcare nutrition tracking"
         ],
         "advantages": [
+            "🏆 Lagano i brzo rješenje",
             "📊 REALNI nutritivni podaci iz Open Food Facts",
+            "💯 Dobra preciznost u food recognition (Food-101)",
             "🆓 Potpuno besplatno za korištenje",
             "🔒 Self-hostable za privatnost",
             "⚡ Brza inferenca",
             "🤖 AI fallback estimation za nepoznatu hranu",
             "📡 Vision model radi offline",
             "🌍 Višejezična podrška",
+            "🎯 Fokus na hranu + nutrition",
             "💪 Robustan i pouzdan",
             "🔄 Aktivno održavan",
+            "✅ Stabilan i production-ready",
             "🔬 700,000+ proizvoda u bazi"
         ],
         "technical_specs": {
+            "parameters": "~427M",
+            "architecture": "CLIP (ViT-L/14)",
+            "training_data": "WIT + zero-shot na Food-101",
             "supported_formats": ["JPEG", "PNG", "WebP"],
             "max_resolution": "Podrška za visoke rezolucije",
             "batch_processing": "Podržano",
 # --- Pokreni API ---
 if __name__ == "__main__":
     print("=" * 80)
+    print("🍎 LITE FOOD SCANNER API v9.0 - NUTRITION EDITION (CLIP)")
     print("=" * 80)
     print(f"🤖 Vision Model: {MODEL_NAME}")
     print(f"📊 Nutrition Source: Open Food Facts + AI Estimation")
+    print(f"🏢 Provider: OpenAI CLIP + Open Food Facts")
+    print(f"🔧 Type: CLIP Zero-shot Classifier + Nutrition Database")
     print(f"💻 Device: {device.upper()}")
+    print(f"🎯 Rank: LITE Food Recognition + Nutrition Rješenje")
     print(f"✨ Status: Production Ready - NUTRITION EDITION")
     print(f"💰 Cost: $0 - 100% Besplatno Self-Hosted")
     print("=" * 80)
     print("🌟 NOVE MOGUĆNOSTI:")
+    print("   ✅ Zero-shot prepoznavanje hrane (Food-101)")
     print("   ✅ Automatsko vraćanje nutritivnih vrijednosti")
     print("   ✅ 700,000+ proizvoda u Open Food Facts bazi")
     print("   ✅ AI procjena za nepoznatu hranu")
     print("   ✅ Manual nutrition lookup po imenu")
     print("=" * 80)
+    run_port = int(os.environ.get("PORT", "8000"))
+    print(f"🌍 Pokrećem server na http://0.0.0.0:{run_port}")
+    print(f"📚 API Docs: http://0.0.0.0:{run_port}/docs")
+    print("🔥 Spreman za food recognition + nutrition analysis (LITE)!")
     print("=" * 80)
+    uvicorn.run(app, host="0.0.0.0", port=run_port)

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
-# ULTIMATIVNI Food Scanner API - LLaVA-NeXT Edition
-# Requirements za NAJBOLJI stabilni food recognition model
 # Core API Framework
 fastapi==0.115.0
@@ -9,26 +9,17 @@ python-multipart==0.0.12
 # Image Processing
 pillow==11.0.0
-# Deep Learning Framework
-torch>=2.0.0
-torchvision>=0.15.0
-# Transformers & Model (FIXOVANO: Najnovije verzije za potpunu LLaVA-NeXT podršku)
-transformers>=4.41.0
-accelerate>=0.31.0
-# Vision Processing
-timm>=0.9.0
-einops>=0.7.0
-# Utilities
-numpy>=1.24.0
-sentencepiece>=0.2.0
-protobuf>=4.25.0
 requests>=2.32.0
-httpx>=0.27.0
-# NOTE: Ovaj model je 100% stabilan i radi na svim verzijama!
-# LLaVA-NeXT ne zahtijeva dodatne biblioteke kao Qwen2-VL
-# Sve dependencies su standardne i provjerene za production

+# LITE Food Scanner API - CLIP Edition
+# Minimalni requirements za CPU-friendly food recognition
 # Core API Framework
 fastapi==0.115.0
 # Image Processing
 pillow==11.0.0
+# Deep Learning / Transformers
+# NOTE: Due to CVE-2025-32434, torch must be >=2.6 to allow torch.load() via transformers
+torch>=2.6.0
+safetensors>=0.4.3
+# Transformers (CLIP)
+transformers>=4.44.2
+# HTTP util
 requests>=2.32.0
+# Napomena: LITE varijanta ne zahtijeva torchvision/timm/accelerate/einops
+# CLIP radi preko transformers + torch