Spaces:

CoCoGames
/

CocoAi-Test

Runtime error

CoCoGames commited on Nov 30, 2025

Commit

fceae9a

verified ·

1 Parent(s): 10d3da5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -61,41 +61,39 @@ def convert_to_gradio_markdown(text):
     return text
-# --- 3. MODELL LADEN (SPEICHEROPTIMIERT) ---
-# Führen Sie den Ladevorgang nur einmal durch
 try:
-    print(f"--- Starte Ladevorgang für {MODEL_NAME} ---")
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-    # Lädt das Modell:
-    # - device_map="auto": Essentiell, um das Modell automatisch auf den begrenzten RAM aufzuteilen.
-    # - torch_dtype=DTYPE: Erzwingt das Laden mit halber Präzision (Float16) zur Speichereinsparung.
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
-        torch_dtype=DTYPE,
         device_map="auto",
-        # Falls Ihr Modell spezifische Konfigurationsdateien enthält
         trust_remote_code=True,
     )
-    # Erstellt eine Pipeline für die Textgenerierung
-    coco_pipe = pipeline(
-        "text-generation",
-        model=model,
-        tokenizer=tokenizer,
-        max_new_tokens=256,
-        model_kwargs={"torch_dtype": DTYPE, "device_map": "auto"}
-    )
     print(f"Modell '{MODEL_NAME}' erfolgreich geladen und Pipeline erstellt.")
 except Exception as e:
-    # DIESER BLOCK WIRD BEI SPEICHERFEHLERN AUSGELÖST
     print(f"FATALER FEHLER beim Laden des Modells {MODEL_NAME}: {e}")
     print("--- Verwende GPT-2 als langsamen Platzhalter ---")
-    # Sicherstellung eines funktionierenden Platzhalters
     coco_pipe = pipeline("text-generation", model="gpt2")
 # --- 4. CHAT-LOGIK ---

     return text
+# --- 3. MODELL LADEN (MAXIMALE SPEICHEROPTIMIERUNG) ---
 try:
+    print(f"--- Starte Ladevorgang für {MODEL_NAME} mit maximaler Optimierung ---")
+    # Konfiguration für 4-Bit Quantisierung
+    bnb_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_quant_type="nf4",
+        # Auf CPU ignorieren diese Parameter oft, aber sie helfen,
+        # das Laden explizit in den minimalen Speicherzustand zu versetzen
+        bnb_4bit_compute_dtype=DTYPE
+    )
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
+        quantization_config=bnb_config,  # Versucht, es als 4-Bit zu laden
         device_map="auto",
+        # Fügen Sie 'low_cpu_mem_usage=True' hinzu, um den CPU-Speicherverbrauch zu optimieren
+        low_cpu_mem_usage=True,
         trust_remote_code=True,
     )
+    # Erstellt die Pipeline... (Rest des Codes wie gehabt)
+    # ...
     print(f"Modell '{MODEL_NAME}' erfolgreich geladen und Pipeline erstellt.")
 except Exception as e:
+    # ... (Rest des except-Blocks wie gehabt)
     print(f"FATALER FEHLER beim Laden des Modells {MODEL_NAME}: {e}")
     print("--- Verwende GPT-2 als langsamen Platzhalter ---")
     coco_pipe = pipeline("text-generation", model="gpt2")
 # --- 4. CHAT-LOGIK ---