Spaces:

ludoveltz
/

autocaption-app

Sleeping

App Files Files Community

Ludovic commited on May 19, 2025

Commit

4474779

1 Parent(s): 58f0122

cor 4

Browse files

Files changed (1) hide show

app/processing.py +55 -36

app/processing.py CHANGED Viewed

@@ -1,16 +1,17 @@
 import torch
 from PIL import Image, ImageDraw # ImageDraw pour la section de test
 import os
-import traceback
 # Imports spécifiques pour LLaVA
 from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
 # --- Configuration du modèle LLaVA-NeXT ---
 LLAVA_MODEL_NAME = "llava-hf/llava-v1.6-mistral-7b-hf"
-# Hash de commit de la branche 'main' de LLaVA au moment des tests.
-# Vérifiez le plus récent sur https://huggingface.co/llava-hf/llava-v1.6-mistral-7b-hf/commits/main
-LLAVA_REVISION = "082142fd2997099498027732cf8e945044bf48c3"
 llava_processor = None
 llava_model = None
@@ -25,37 +26,39 @@ else:
     device = "cpu"
 print(f"Utilisation du device : {device} pour les modèles d'IA.")
 def load_llava_model():
     global llava_processor, llava_model, llava_model_loaded, device
     if llava_model_loaded:
-        print(f"Modèle LLaVA ({LLAVA_MODEL_NAME} rev {LLAVA_REVISION}) déjà chargé.")
         return
     try:
         print(f"Chargement du processor pour LLaVA ({LLAVA_MODEL_NAME}, depuis branche 'main')...")
         llava_processor = LlavaNextProcessor.from_pretrained(
             LLAVA_MODEL_NAME
-            # PAS DE revision=LLAVA_REVISION ICI POUR LE PROCESSEUR
         )
         print("Processor LLaVA chargé.")
-        print(f"Chargement du modèle LLaVA ({LLAVA_MODEL_NAME} rev {LLAVA_REVISION}) sur '{device}'...")
         model_args = {
-            "revision": LLAVA_REVISION, # Épinglage de la révision
-            "low_cpu_mem_usage": True,
         }
         if device == "cpu":
-            # Pas de torch_dtype pour CPU, utilise float32 par défaut pour plus de stabilité
             print(f"Configuration de LLaVA pour CPU (float32 par défaut).")
         elif device == "cuda":
             model_args["torch_dtype"] = torch.float16 # ou torch.bfloat16 si GPU récent (Ampere+)
-            print(f"Configuration de LLaVA pour CUDA ({model_args['torch_dtype']}).")
         elif device == "mps":
-            # Pour MPS, float16 est souvent utilisé, mais float32 est plus sûr pour commencer.
-            # Laisser float32 par défaut (pas de torch_dtype) est une option.
-            # Ou essayez float16 :
-            model_args["torch_dtype"] = torch.float16
-            print(f"Configuration de LLaVA pour MPS ({model_args['torch_dtype']}).")
         llava_model = LlavaNextForConditionalGeneration.from_pretrained(
             LLAVA_MODEL_NAME,
@@ -63,10 +66,10 @@ def load_llava_model():
         ).to(device).eval()
         llava_model_loaded = True
-        print(f"Modèle LLaVA ({LLAVA_MODEL_NAME} rev {LLAVA_REVISION}) chargé avec succès sur '{device}'.")
     except Exception as e:
-        print(f"Erreur critique lors du chargement du modèle LLaVA ({LLAVA_MODEL_NAME} rev {LLAVA_REVISION}): {e}")
         traceback.print_exc()
         llava_model_loaded = False
@@ -75,10 +78,10 @@ def generate_description_llava(image_path: str) -> str:
     global llava_processor, llava_model, llava_model_loaded, device
     if not llava_model_loaded:
-        print("Modèle LLaVA non chargé. Tentative de chargement...")
         load_llava_model()
-        if not llava_model_loaded:
-            return "Erreur: Le modèle LLaVA n'a pas pu être chargé."
     if not os.path.exists(image_path):
         return f"Erreur: Le fichier image {image_path} n'existe pas."
@@ -86,13 +89,15 @@ def generate_description_llava(image_path: str) -> str:
     try:
         image = Image.open(image_path).convert("RGB")
-        # Choix du prompt (anglais par défaut, comme demandé)
         user_prompt = "Describe this image in English with precision and detail."
-        # user_prompt = "Décris cette image en français avec précision et de manière détaillée." # Si vous voulez du français
         prompt_text = f"<s>[INST] <image>\n{user_prompt} [/INST]"
-        print(f"Préparation des entrées pour LLaVA avec le prompt: {user_prompt}")
         inputs_on_cpu = llava_processor(text=prompt_text, images=image, return_tensors="pt")
         inputs = {}
@@ -100,8 +105,9 @@ def generate_description_llava(image_path: str) -> str:
             if torch.is_tensor(value):
                 inputs[key] = value.to(device)
             else:
-                inputs[key] = value
         if (device == "cuda" or device == "mps") and hasattr(llava_model, 'dtype') and \
            (llava_model.dtype == torch.float16 or llava_model.dtype == torch.bfloat16):
             for k_tensor, v_tensor in inputs.items():
@@ -114,18 +120,18 @@ def generate_description_llava(image_path: str) -> str:
         generation_kwargs = {
             "max_new_tokens": 768,
             "num_beams": 3,
-            "early_stopping": True
         }
         generated_ids = llava_model.generate(**inputs, **generation_kwargs)
         input_token_len = inputs.get('input_ids', torch.tensor([])).shape[-1]
-        generated_ids_only = generated_ids[0, input_token_len:]
         cleaned_text = llava_processor.decode(generated_ids_only, skip_special_tokens=True).strip()
-        # Nettoyage supplémentaire si nécessaire (ex: enlever des marqueurs résiduels)
-        inst_marker_space = " [/INST]" # Avec espace avant, comme souvent produit
         inst_marker_no_space = "[/INST]"
         if cleaned_text.startswith(inst_marker_space):
             cleaned_text = cleaned_text[len(inst_marker_space):].strip()
@@ -138,23 +144,30 @@ def generate_description_llava(image_path: str) -> str:
     except Exception as e:
         print(f"Erreur détaillée lors de la génération de la description avec LLaVA:")
         traceback.print_exc()
-        if torch.cuda.is_available() or device == "mps": # Vider le cache si GPU/MPS
             if device == "cuda": torch.cuda.empty_cache()
-            # if device == "mps": torch.mps.empty_cache() # Si disponible et nécessaire
         return f"Erreur lors de la génération de la description avec LLaVA: {type(e).__name__} - {str(e)}"
 ACTIVE_MODEL = "llava"
 def load_active_model():
     print(f"Tentative de chargement du modèle actif: {ACTIVE_MODEL}")
     if ACTIVE_MODEL == "llava":
         load_llava_model()
     else:
         print(f"Modèle actif inconnu: {ACTIVE_MODEL}. Aucun modèle ne sera chargé.")
 def generate_active_description(image_path: str) -> str:
     if ACTIVE_MODEL == "llava":
         return generate_description_llava(image_path)
     else:
         error_msg = f"Erreur: Modèle actif inconnu ({ACTIVE_MODEL}). Impossible de générer une description."
         print(error_msg)
@@ -163,25 +176,31 @@ def generate_active_description(image_path: str) -> str:
 def is_active_model_loaded() -> bool:
     if ACTIVE_MODEL == "llava":
         return llava_model_loaded
     return False
 if __name__ == '__main__':
     print("Début du test de processing.py...")
-    dummy_image_name = "dummy_test_image.png"
     if not os.path.exists(dummy_image_name):
         try:
             img = Image.new('RGB', (200, 150), color = 'skyblue')
             draw = ImageDraw.Draw(img)
             draw.text((10, 10), "Test Image", fill='black')
             img.save(dummy_image_name)
             print(f"Image de test '{dummy_image_name}' créée.")
         except Exception as e_img:
-            print(f"Impossible de créer l'image de test : {e_img}")
     if os.path.exists(dummy_image_name):
         print(f"Utilisation du modèle actif : {ACTIVE_MODEL}")
-        print("Chargement du modèle actif (peut prendre du temps)...")
-        load_active_model()
         if is_active_model_loaded():
             print(f"\nGénération de la description pour l'image de test '{dummy_image_name}'...")
             description = generate_active_description(dummy_image_name)
@@ -191,5 +210,5 @@ if __name__ == '__main__':
         else:
             print("Le modèle actif n'a pas pu être chargé. Test de description annulé.")
     else:
-        print(f"Image de test '{dummy_image_name}' non trouvée. Test de description annulé.")
     print("Fin du test de processing.py.")

 import torch
 from PIL import Image, ImageDraw # ImageDraw pour la section de test
 import os
+import traceback # Pour un log d'erreur plus détaillé
 # Imports spécifiques pour LLaVA
 from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
 # --- Configuration du modèle LLaVA-NeXT ---
 LLAVA_MODEL_NAME = "llava-hf/llava-v1.6-mistral-7b-hf"
+# La variable LLAVA_REVISION est définie ici au cas où nous voudrions épingler une version spécifique plus tard,
+# une fois que nous aurons confirmé que tout fonctionne bien avec la version 'main'.
+# Pour l'instant, elle n'est PAS utilisée dans les appels from_pretrained().
+LLAVA_REVISION = "082142fd2997099498027732cf8e945044bf48c3" # Exemple de hash, non utilisé ci-dessous
 llava_processor = None
 llava_model = None
     device = "cpu"
 print(f"Utilisation du device : {device} pour les modèles d'IA.")
+# --- Fonctions de chargement et de génération pour LLaVA ---
 def load_llava_model():
     global llava_processor, llava_model, llava_model_loaded, device
     if llava_model_loaded:
+        print(f"Modèle LLaVA ({LLAVA_MODEL_NAME}, depuis branche 'main') déjà chargé.")
         return
     try:
         print(f"Chargement du processor pour LLaVA ({LLAVA_MODEL_NAME}, depuis branche 'main')...")
         llava_processor = LlavaNextProcessor.from_pretrained(
             LLAVA_MODEL_NAME
+            # Pas de 'revision' ici, on charge depuis la branche 'main'
         )
         print("Processor LLaVA chargé.")
+        print(f"Chargement du modèle LLaVA ({LLAVA_MODEL_NAME}, depuis branche 'main') sur '{device}'...")
         model_args = {
+            # Pas de 'revision' ici non plus pour le moment
+            "low_cpu_mem_usage": True, # Utile pour réduire l'utilisation de la RAM CPU lors du chargement initial
         }
         if device == "cpu":
+            # Pas de torch_dtype spécifique, PyTorch utilisera float32 par défaut pour plus de stabilité
             print(f"Configuration de LLaVA pour CPU (float32 par défaut).")
         elif device == "cuda":
             model_args["torch_dtype"] = torch.float16 # ou torch.bfloat16 si GPU récent (Ampere+)
+            print(f"Configuration de LLaVA pour CUDA ({model_args.get('torch_dtype', 'par défaut')}).")
         elif device == "mps":
+            # Pour MPS, float16 peut offrir des gains de vitesse. float32 est plus sûr pour commencer.
+            # Laisser float32 par défaut (pas de torch_dtype) est une option, ou essayer float16.
+            model_args["torch_dtype"] = torch.float16 # Essayons float16 pour MPS
+            print(f"Configuration de LLaVA pour MPS ({model_args.get('torch_dtype', 'par défaut')}).")
         llava_model = LlavaNextForConditionalGeneration.from_pretrained(
             LLAVA_MODEL_NAME,
         ).to(device).eval()
         llava_model_loaded = True
+        print(f"Modèle LLaVA ET Processeur ({LLAVA_MODEL_NAME}, tous deux depuis branche 'main') chargés avec succès sur '{device}'.")
     except Exception as e:
+        print(f"Erreur critique lors du chargement du modèle LLaVA ({LLAVA_MODEL_NAME}): {e}")
         traceback.print_exc()
         llava_model_loaded = False
     global llava_processor, llava_model, llava_model_loaded, device
     if not llava_model_loaded:
+        print("Modèle LLaVA non chargé dans generate_description_llava. Tentative de chargement...")
         load_llava_model()
+        if not llava_model_loaded:
+            return "Erreur: Le modèle LLaVA n'a pas pu être chargé (échec lors de la tentative à la demande)."
     if not os.path.exists(image_path):
         return f"Erreur: Le fichier image {image_path} n'existe pas."
     try:
         image = Image.open(image_path).convert("RGB")
+        # Prompt en anglais par défaut
         user_prompt = "Describe this image in English with precision and detail."
+        # Pour du français :
+        # user_prompt = "Décris cette image en français avec précision et de manière détaillée."
+        # Format de prompt pour LLaVA v1.6
         prompt_text = f"<s>[INST] <image>\n{user_prompt} [/INST]"
+        print(f"Préparation des entrées pour LLaVA avec le prompt: \"{user_prompt}\"")
         inputs_on_cpu = llava_processor(text=prompt_text, images=image, return_tensors="pt")
         inputs = {}
             if torch.is_tensor(value):
                 inputs[key] = value.to(device)
             else:
+                inputs[key] = value # Conserver d'autres types si présents
+        # S'assurer que les types de tenseurs correspondent au modèle sur GPU/MPS
         if (device == "cuda" or device == "mps") and hasattr(llava_model, 'dtype') and \
            (llava_model.dtype == torch.float16 or llava_model.dtype == torch.bfloat16):
             for k_tensor, v_tensor in inputs.items():
         generation_kwargs = {
             "max_new_tokens": 768,
             "num_beams": 3,
+            "early_stopping": True
         }
         generated_ids = llava_model.generate(**inputs, **generation_kwargs)
         input_token_len = inputs.get('input_ids', torch.tensor([])).shape[-1]
+        generated_ids_only = generated_ids[0, input_token_len:] # Extraire seulement les tokens générés
         cleaned_text = llava_processor.decode(generated_ids_only, skip_special_tokens=True).strip()
+        # Nettoyage supplémentaire si le marqueur [/INST] est toujours présent (peu probable avec ce décodage)
+        inst_marker_space = " [/INST]"
         inst_marker_no_space = "[/INST]"
         if cleaned_text.startswith(inst_marker_space):
             cleaned_text = cleaned_text[len(inst_marker_space):].strip()
     except Exception as e:
         print(f"Erreur détaillée lors de la génération de la description avec LLaVA:")
         traceback.print_exc()
+        if torch.cuda.is_available() or device == "mps":
             if device == "cuda": torch.cuda.empty_cache()
+            # if device == "mps" and hasattr(torch, 'mps') and hasattr(torch.mps, 'empty_cache'): torch.mps.empty_cache() # Pour PyTorch >= 1.13
         return f"Erreur lors de la génération de la description avec LLaVA: {type(e).__name__} - {str(e)}"
+# --- Fonctions de gestion du modèle actif ---
 ACTIVE_MODEL = "llava"
 def load_active_model():
     print(f"Tentative de chargement du modèle actif: {ACTIVE_MODEL}")
     if ACTIVE_MODEL == "llava":
         load_llava_model()
+    # Ajoutez d'autres conditions ici si vous réactivez d'autres modèles
+    # elif ACTIVE_MODEL == "florence":
+    #     load_florence_model()
     else:
         print(f"Modèle actif inconnu: {ACTIVE_MODEL}. Aucun modèle ne sera chargé.")
 def generate_active_description(image_path: str) -> str:
     if ACTIVE_MODEL == "llava":
         return generate_description_llava(image_path)
+    # elif ACTIVE_MODEL == "florence":
+    #     return generate_description_florence(image_path)
     else:
         error_msg = f"Erreur: Modèle actif inconnu ({ACTIVE_MODEL}). Impossible de générer une description."
         print(error_msg)
 def is_active_model_loaded() -> bool:
     if ACTIVE_MODEL == "llava":
         return llava_model_loaded
+    # elif ACTIVE_MODEL == "florence":
+    #     return florence_model_loaded
     return False
+# --- Section de Test (pour exécution directe de ce fichier) ---
 if __name__ == '__main__':
     print("Début du test de processing.py...")
+    # Créer une image de test factice si elle n'existe pas
+    dummy_image_name = "dummy_test_image.png" # S'assure qu'elle est bien ignorée par .gitignore si elle est créée
     if not os.path.exists(dummy_image_name):
         try:
+            # ImageDraw a été importé en haut avec PIL
             img = Image.new('RGB', (200, 150), color = 'skyblue')
             draw = ImageDraw.Draw(img)
             draw.text((10, 10), "Test Image", fill='black')
             img.save(dummy_image_name)
             print(f"Image de test '{dummy_image_name}' créée.")
         except Exception as e_img:
+            print(f"Impossible de créer l'image de test (vérifiez Pillow) : {e_img}")
     if os.path.exists(dummy_image_name):
         print(f"Utilisation du modèle actif : {ACTIVE_MODEL}")
+        print("Chargement du modèle actif (peut prendre du temps, surtout la première fois)...")
+        load_active_model() # Tente de charger le modèle
         if is_active_model_loaded():
             print(f"\nGénération de la description pour l'image de test '{dummy_image_name}'...")
             description = generate_active_description(dummy_image_name)
         else:
             print("Le modèle actif n'a pas pu être chargé. Test de description annulé.")
     else:
+        print(f"Image de test '{dummy_image_name}' non trouvée pour le test.")
     print("Fin du test de processing.py.")