Spaces:

Astridkraft
/

Stable-ControlNet-GPU

Paused

App Files Files Community

Astridkraft commited on Dec 2, 2025

Commit

650a9c1

verified ·

1 Parent(s): 17755da

Update app.py

Browse files

Files changed (1) hide show

app.py +329 -157

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import gradio as gr
 from diffusers import StableDiffusionPipeline, StableDiffusionImg2ImgPipeline
-from diffusers import StableDiffusionInpaintPipeline
 from controlnet_module import controlnet_processor
 import torch
 from PIL import Image, ImageDraw
@@ -12,10 +12,103 @@ import random
 # === OPTIMIERTE EINSTELLUNGEN ===
 device = "cuda" if torch.cuda.is_available() else "cpu"
 torch_dtype = torch.float16 if device == "cuda" else torch.float32
-IMG_SIZE = 512  # Jetzt 512x512 für Realistic Vision
 print(f"Running on: {device}")
 # === GESICHTSMASKEN-FUNKTIONEN ===
 def create_face_mask(image, bbox_coords, face_preserve):
     """Erzeugt eine Gesichtsmaske - WEIßE Bereiche werden VERÄNDERT, SCHWARZE BLEIBEN"""
@@ -55,50 +148,82 @@ def auto_detect_face_area(image):
 # === PIPELINES ===
 pipe_txt2img = None
 pipe_img2img = None
-def load_txt2img():
-    global pipe_txt2img
-    if pipe_txt2img is None:
-        try:
-            print("Loading Realistic Vision V6.0 for high-quality 512x512...")
-            pipe_txt2img = StableDiffusionPipeline.from_pretrained(
-                "runwayml/stable-diffusion-v1-5",
-                torch_dtype=torch_dtype,
-                safety_checker=None,
-                requires_safety_checker=False,
-                add_watermarker=False,
-                use_safetensors=True,  # Sicherheitsproblem behoben
-                variant="fp16" if torch_dtype == torch.float16 else None,
-            ).to(device)
-            from diffusers import DPMSolverMultistepScheduler
-            pipe_txt2img.scheduler = DPMSolverMultistepScheduler.from_config(
-                pipe_txt2img.scheduler.config,
-                use_karras_sigmas=True,
-                algorithm_type="sde-dpmsolver++"
-            )
-            # T4 OPTIMIERUNGEN
-            pipe_txt2img.enable_attention_slicing()
-            pipe_txt2img.enable_vae_slicing()
-            if hasattr(pipe_txt2img, 'vae'):
-                pipe_txt2img.vae.enable_slicing()
-            print("✅ Realistic Vision V6.0 erfolgreich geladen")
-        except Exception as e:
-            print(f"❌ Fehler beim Laden von Realistic Vision: {e}")
-            print("🔄 Fallback auf SD 1.5...")
-            # Fallback auf Standard SD 1.5
-            pipe_txt2img = StableDiffusionPipeline.from_pretrained(
-                "runwayml/stable-diffusion-v1-5",
-                torch_dtype=torch_dtype,
-                use_safetensors=True,
-            ).to(device)
-            pipe_txt2img.enable_attention_slicing()
-    return pipe_txt2img
 def load_img2img():
     global pipe_img2img
@@ -108,7 +233,6 @@ def load_img2img():
             pipe_img2img = StableDiffusionInpaintPipeline.from_pretrained(
                 "runwayml/stable-diffusion-inpainting",
                 torch_dtype=torch_dtype,
-                #use_safetensors=True,  # Sicherheitsproblem behoben
                 allow_pickle=False,
                 safety_checker=None,
             ).to(device)
@@ -116,7 +240,6 @@ def load_img2img():
             print(f"Fehler beim Laden des Inpainting-Modells: {e}")
             raise
         from diffusers import DPMSolverMultistepScheduler
         pipe_img2img.scheduler = DPMSolverMultistepScheduler.from_config(
             pipe_img2img.scheduler.config,
@@ -132,7 +255,7 @@ def load_img2img():
     return pipe_img2img
-# === NEUE CALLBACK-FUNKTIONEN FÜR FORTSCHRITT (kompatibel mit neuer API) ===
 class TextToImageProgressCallback:
     def __init__(self, progress, total_steps):
         self.progress = progress
@@ -140,7 +263,6 @@ class TextToImageProgressCallback:
         self.current_step = 0
     def __call__(self, pipe, step, timestep, callback_kwargs):
-        """Neue Callback-Signatur für diffusers >= 1.0.0"""
         self.current_step = step + 1
         progress_percent = (step / self.total_steps) * 100
         self.progress(progress_percent / 100, desc="Generierung läuft...")
@@ -155,12 +277,9 @@ class ImageToImageProgressCallback:
         self.actual_total_steps = None
     def __call__(self, pipe, step, timestep, callback_kwargs):
-        """Neue Callback-Signatur für diffusers >= 1.0.0"""
         self.current_step = step + 1
-        # Korrekte Berechnung der tatsächlichen Steps
         if self.actual_total_steps is None:
-            # Bei Strength < 1.0 werden weniger Steps verwendet
             if self.strength < 1.0:
                 self.actual_total_steps = int(self.total_steps * self.strength)
             else:
@@ -178,41 +297,33 @@ def create_preview_image(image, bbox_coords, face_preserve, mode_color):
     if image is None:
         return None
-    # Erstelle eine Kopie für die Vorschau
     preview = image.copy()
     draw = ImageDraw.Draw(preview)
-    # Rahmenfarbe basierend auf Modus
     if mode_color == "red":
-        border_color = (255, 0, 0, 180)  # Rot mit Transparenz
         mode_text = "NUR BILDELEMENT VERÄNDERN"
     else:
-        border_color = (0, 255, 0, 180)  # Grün mit Transparenz
         mode_text = "BILDELEMENT BEIBEHALTEN"
-    # Zeichne den Rahmen um das gesamte Bild
     border_width = 8
     draw.rectangle([0, 0, preview.width-1, preview.height-1],
                   outline=border_color, width=border_width)
-    # Zeichne Bounding Box wenn Koordinaten vorhanden
     if bbox_coords and all(coord is not None for coord in bbox_coords):
         x1, y1, x2, y2 = bbox_coords
-        # Rahmen für Bounding Box
-        box_color = (255, 255, 0, 200)  # Gelb für Bounding Box
         draw.rectangle([x1, y1, x2, y2], outline=box_color, width=3)
-        # Text-Label für den Modus
         text_color = (255, 255, 255)
         bg_color = (0, 0, 0, 160)
-        # Hintergrund für Text
         text_bbox = draw.textbbox((x1, y1 - 25), mode_text)
         draw.rectangle([text_bbox[0]-5, text_bbox[1]-2, text_bbox[2]+5, text_bbox[3]+2],
                       fill=bg_color)
-        # Text zeichnen
         draw.text((x1, y1 - 25), mode_text, fill=text_color)
     return preview
@@ -223,8 +334,6 @@ def update_live_preview(image, bbox_x1, bbox_y1, bbox_x2, bbox_y2, face_preserve
         return None
     bbox_coords = [bbox_x1, bbox_y1, bbox_x2, bbox_y2]
-    # Bestimme Rahmenfarbe basierend auf Modus
     mode_color = "green" if face_preserve else "red"
     return create_preview_image(image, bbox_coords, face_preserve, mode_color)
@@ -238,39 +347,44 @@ def process_image_upload(image):
         image = image.resize((512, 512), Image.LANCZOS)
         print(f"Bild auf 512x512 skaliert")
-    # Auto-Koordinaten generieren
     bbox = auto_detect_face_area(image)
     bbox_x1, bbox_y1, bbox_x2, bbox_y2 = bbox
-    # Vorschau mit grünem Rahmen (Standard: Gesicht beibehalten)
     preview = create_preview_image(image, bbox, True, "green")
     return preview, bbox_x1, bbox_y1, bbox_x2, bbox_y2
-# === FUNKTIONEN ===
-def text_to_image(prompt, steps, guidance_scale, progress=gr.Progress()):
     try:
         if not prompt or not prompt.strip():
-            return None
-        print(f"Starting generation for: {prompt}")
         start_time = time.time()
         progress(0, desc="Lade Modell...")
-        pipe = load_txt2img()
-        # ZUFÄLLIGER SEED für Variation
         seed = random.randint(0, 2**32 - 1)
         generator = torch.Generator(device=device).manual_seed(seed)
-        print(f"Using seed: {seed}")
         callback = TextToImageProgressCallback(progress, steps)
-        # NEUE: 512x512 für Realistic Vision
         image = pipe(
             prompt=prompt,
-            height=512,  # ��� 512 statt IMG_SIZE (1024)
-            width=512,   # ← 512 statt IMG_SIZE (1024)
             num_inference_steps=int(steps),
             guidance_scale=guidance_scale,
             generator=generator,
@@ -279,15 +393,20 @@ def text_to_image(prompt, steps, guidance_scale, progress=gr.Progress()):
         ).images[0]
         end_time = time.time()
-        print(f"Bild generiert in {end_time - start_time:.2f} Sekunden")
-        return image
     except Exception as e:
-        print(f"Fehler in text_to_image: {e}")
         import traceback
         traceback.print_exc()
-        return None
 def img_to_image(image, prompt, neg_prompt, strength, steps, guidance_scale,
                  face_preserve, bbox_x1, bbox_y1, bbox_x2, bbox_y2,
@@ -306,12 +425,8 @@ def img_to_image(image, prompt, neg_prompt, strength, steps, guidance_scale,
         progress(0, desc="Starte Generierung mit ControlNet...")
-        # -------------------------------
-        # PARAMETER-TUNING
-        # -------------------------------
         adj_strength = min(0.85, strength * 1.25)
-        # CONTROLNET-STRENGTH ANPASSEN ABHÄNGIG VOM MODUS
         if face_preserve:
             controlnet_strength = adj_strength * 0.8
             print(f"🎯 ControlNet Modus: Umgebung beibehalten (Strength = {controlnet_strength:.3f})")
@@ -323,9 +438,6 @@ def img_to_image(image, prompt, neg_prompt, strength, steps, guidance_scale,
         print(f"🎯 Steps={steps}, ControlNet-Steps={controlnet_steps}, Strength={controlnet_strength:.3f}")
-        # -------------------------------
-        # CONTROLNET GENERIERUNG
-        # -------------------------------
         progress(0.05, desc="Erstelle ControlNet Maps...")
         controlnet_output, inpaint_input = controlnet_processor.generate_with_controlnet(
@@ -342,9 +454,6 @@ def img_to_image(image, prompt, neg_prompt, strength, steps, guidance_scale,
         print(f"✅ ControlNet Output erhalten: {type(controlnet_output)}")
         print(f"✅ Inpaint Input erhalten: {type(inpaint_input)}")
-        # -------------------------------
-        # INPAINT (STABLE DIFFUSION IMG2IMG)
-        # -------------------------------
         progress(0.3, desc="ControlNet abgeschlossen – starte Inpaint...")
         pipe = load_img2img()
@@ -356,9 +465,6 @@ def img_to_image(image, prompt, neg_prompt, strength, steps, guidance_scale,
         generator = torch.Generator(device=device).manual_seed(seed)
         print(f"Using seed: {seed}")
-        # -------------------------------
-        # GESICHTS-MASKE (falls Koordinaten)
-        # -------------------------------
         mask = None
         if bbox_x1 and bbox_y1 and bbox_x2 and bbox_y2:
             orig_w, orig_h = image.size
@@ -376,9 +482,6 @@ def img_to_image(image, prompt, neg_prompt, strength, steps, guidance_scale,
         else:
             print("⚠️ Keine gültigen Koordinaten – keine Maske")
-        # -------------------------------
-        # PIPELINE-AUFRUF
-        # -------------------------------
         from diffusers import EulerAncestralDiscreteScheduler
         if not isinstance(pipe.scheduler, EulerAncestralDiscreteScheduler):
             pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
@@ -418,6 +521,16 @@ def update_bbox_from_image(image):
     bbox = auto_detect_face_area(image)
     return bbox[0], bbox[1], bbox[2], bbox[3]
 def main_ui():
     with gr.Blocks(
         title="AI Image Generator",
@@ -444,16 +557,24 @@ def main_ui():
            background: #bbdefb;
            text-decoration: underline;
          }
-        #start-button {
             background-color: #0080FF !important;
             border: none !important;
-            margin: 50px auto !important;
             display: block !important;
             font-weight: 600;
             width: 280px;
         }
-        #start-button:hover {
-            background-color: #D3D3D3 !important;
         }
         .hint-box {
             margin-top: 20px;
@@ -487,57 +608,124 @@ def main_ui():
             font-weight: 600 !important;
             line-height: 1.4 !important;
         }
         """
     ) as demo:
         with gr.Column(visible=True) as content_area:
             with gr.Tab("Text zu Bild"):
-                gr.Markdown("**Beschreibe dein gewünschtes Bild:**")
                 with gr.Row():
-                    txt_input = gr.Textbox(
-                        placeholder="z.B. ultra realistic mountain landscape at sunrise, soft mist over the valley, detailed foliage, crisp textures, depth of field, sunlight rays through clouds, shot on medium format camera, 8k, HDR, hyper-detailed, natural lighting, masterpiece, Eingabe unten:(Schritt Inferenz:35, Prompt-Stärke:9)",
-                        lines=2,
-                        label="Prompt (Englisch)",
-                        info="Beschreibe detailliert, was du sehen möchtest. Verwende Kommas zur Trennung."
-                    )
                 with gr.Row():
                     with gr.Column():
                         txt_steps = gr.Slider(
                             minimum=10, maximum=100, value=35, step=1,
-                            label="Inferenz-Schritte",
                             info="Mehr Schritte = bessere Qualität, aber langsamer (20-50 empfohlen)"
                         )
                     with gr.Column():
                         txt_guidance = gr.Slider(
                             minimum=1.0, maximum=20.0, value=7.5, step=0.5,
-                            label="Prompt-Stärke",
                             info="Wie stark der Prompt befolgt wird (7-12 für gute Balance)"
                         )
-                generate_btn = gr.Button("Bild generieren", variant="primary")
-                txt_output = gr.Image(
-                    label="Generiertes Bild",
-                    show_download_button=True,
-                    type="pil"
                 )
                 generate_btn.click(
                     fn=text_to_image,
-                    inputs=[txt_input, txt_steps, txt_guidance],
-                    outputs=txt_output,
                     concurrency_limit=1
                 )
             with gr.Tab("Bild zu Bild"):
-                gr.Markdown("**Lade ein Bild hoch und beschreibe die gewünschte Veränderung:**")
                 with gr.Row():
                     with gr.Column():
                         img_input = gr.Image(
                             type="pil",
-                            label="Eingabebild",
                             height=300,
                             sources=["upload"],
                             elem_id="image-upload"
@@ -552,37 +740,37 @@ def main_ui():
                 with gr.Row():
                     face_preserve = gr.Checkbox(
-                        label="Schutz",
                         value=True,
-                        info="🟢 Checkbox AN: Alles AUSSERHALB des gelben Rahmens verändern | 🔴 Checkbox AUS: Nur INNERHALB des gelben Rahmens verändern"
                     )
                 with gr.Row():
-                    gr.Markdown("**Bildelementbereich anpassen**")
                 with gr.Row():
                     with gr.Column():
                         bbox_x1 = gr.Slider(
-                            label="Links (x1)",
                             minimum=0, maximum=512, value=100, step=1,
                             info="Linke Kante des Bildelementbereichs"
                         )
                     with gr.Column():
                         bbox_y1 = gr.Slider(
-                            label="Oben (y1)",
                             minimum=0, maximum=512, value=100, step=1,
                             info="Obere Kante des Bildelementbereichs"
                         )
                 with gr.Row():
                     with gr.Column():
                         bbox_x2 = gr.Slider(
-                            label="Rechts (x2)",
                             minimum=0, maximum=512, value=300, step=1,
                             info="Rechte Kante des Bildelementbereichs"
                         )
                     with gr.Column():
                         bbox_y2 = gr.Slider(
-                            label="Unten (y2)",
                             minimum=0, maximum=512, value=300, step=1,
                             info="Untere Kante des Bildelementbereichs"
                         )
@@ -592,14 +780,14 @@ def main_ui():
                         img_prompt = gr.Textbox(
                             placeholder="change background to beach with palm trees, keep person unchanged, sunny day",
                             lines=2,
-                            label="Transformations-Prompt (Englisch)",
                             info="Was soll verändert werden? Sei spezifisch."
                         )
                     with gr.Column():
                         img_neg_prompt = gr.Textbox(
                             placeholder="blurry, deformed, ugly, bad anatomy, extra limbs, poorly drawn hands",
                             lines=2,
-                            label="Negativ-Prompt (Englisch)",
                             info="Was soll vermieden werden? Unerwünschte Elemente auflisten."
                         )
@@ -607,38 +795,39 @@ def main_ui():
                     with gr.Column():
                         strength_slider = gr.Slider(
                             minimum=0.1, maximum=0.9, value=0.4, step=0.05,
-                            label="Veränderungs-Stärke",
                             info="0.1-0.3: Leichte Anpassungen, 0.4-0.6: Mittlere Veränderungen, 0.7-0.9: Starke Umgestaltung"
                         )
                     with gr.Column():
                         img_steps = gr.Slider(
                             minimum=10, maximum=100, value=35, step=1,
-                            label="Inferenz-Schritte",
                             info="Anzahl der Verarbeitungsschritte (25-45 für gute Ergebnisse)"
                         )
                     with gr.Column():
                         img_guidance = gr.Slider(
                             minimum=1.0, maximum=20.0, value=7.5, step=0.5,
-                            label="Prompt-Stärke",
                             info="Einfluss des Prompts auf das Ergebnis (6-10 für natürliche Ergebnisse)"
                         )
                 with gr.Row():
                    gr.Markdown(
-                     "**Achtung:**\n"
                      "• **🆕 Automatische Bildelementerkennung** setzt Koordinaten beim Upload\n"
                      "• **🆕 Live-Vorschau** zeigt farbige Rahmen je nach Modus (🔴 Rot / 🟢 Grün)\n"
                      "• **🆕 Koordinaten-Schieberegler** für präzise Anpassung mit Live-Update\n"
                      "• **Koordinaten nur bei erkennbaren Verzerrungen anpassen** (Bereiche leicht verschieben)"
                     )
-                transform_btn = gr.Button("Bild transformieren", variant="primary")
                 with gr.Row():
                     img_output = gr.Image(
-                        label="Transformiertes Bild",
                         show_download_button=True,
-                        type="pil"
                     )
                 img_input.change(
@@ -649,29 +838,12 @@ def main_ui():
                 coordinate_inputs = [img_input, bbox_x1, bbox_y1, bbox_x2, bbox_y2, face_preserve]
-                bbox_x1.change(
-                    fn=update_live_preview,
-                    inputs=coordinate_inputs,
-                    outputs=preview_output
-                )
-                bbox_y1.change(
-                    fn=update_live_preview,
-                    inputs=coordinate_inputs,
-                    outputs=preview_output
-                )
-                bbox_x2.change(
-                    fn=update_live_preview,
-                    inputs=coordinate_inputs,
-                    outputs=preview_output
-                )
-                bbox_y2.change(
-                    fn=update_live_preview,
-                    inputs=coordinate_inputs,
-                    outputs=preview_output
-                )
                 face_preserve.change(
                     fn=update_live_preview,
@@ -694,7 +866,7 @@ def main_ui():
 if __name__ == "__main__":
     demo = main_ui()
-    demo.queue(max_size=3)  # Beide Parameter
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,

 import gradio as gr
 from diffusers import StableDiffusionPipeline, StableDiffusionImg2ImgPipeline
+from diffusers import StableDiffusionInpaintPipeline, AutoencoderKL
 from controlnet_module import controlnet_processor
 import torch
 from PIL import Image, ImageDraw
 # === OPTIMIERTE EINSTELLUNGEN ===
 device = "cuda" if torch.cuda.is_available() else "cpu"
 torch_dtype = torch.float16 if device == "cuda" else torch.float32
+IMG_SIZE = 512
 print(f"Running on: {device}")
+# === MODELLKONFIGURATION ===
+MODEL_CONFIGS = {
+    "runwayml/stable-diffusion-v1-5": {
+        "name": "🏠 Stable Diffusion 1.5 (Universal)",
+        "description": "Universal model, good all-rounder, reliable results",
+        "requires_vae": False,
+        "recommended_steps": 35,
+        "recommended_cfg": 7.5
+    },
+    "SG161222/Realistic_Vision_V6.0_B1_noVAE": {
+        "name": "👤 Realistic Vision V6.0 (Portraits)",
+        "description": "Best for photorealistic faces, skin details, human portraits",
+        "requires_vae": True,
+        "vae_model": "stabilityai/sd-vae-ft-mse",
+        "recommended_steps": 40,
+        "recommended_cfg": 7.0
+    },
+    "RunDiffusion/Juggernaut-X-v10": {
+        "name": "🏢 Juggernaut X (Business)",
+        "description": "Ideal for corporate images, team photos, professional settings",
+        "requires_vae": False,
+        "recommended_steps": 35,
+        "recommended_cfg": 7.5
+    },
+    "Lykon/DreamShaper": {
+        "name": "🎨 DreamShaper (Artistic)",
+        "description": "Creative interpretations, artistic styles, illustrations",
+        "requires_vae": False,
+        "recommended_steps": 40,
+        "recommended_cfg": 8.0
+    },
+    "nitrosocke/redshift-diffusion": {
+        "name": "🖼️ Redshift Diffusion (Design)",
+        "description": "Clean CGI style, product visuals, design mockups",
+        "requires_vae": False,
+        "recommended_steps": 30,
+        "recommended_cfg": 8.5
+    }
+}
+# Aktuell ausgewähltes Modell (wird vom User gesetzt)
+current_model_id = "runwayml/stable-diffusion-v1-5"
+# === AUTOMATISCHE NEGATIVE PROMPT GENERIERUNG ===
+def auto_negative_prompt(positive_prompt):
+    """Generiert automatisch negative Prompts basierend auf dem positiven Prompt"""
+    p = positive_prompt.lower()
+    negatives = []
+    # Personen / Portraits
+    if any(w in p for w in ["person", "man", "woman", "face", "portrait", "team", "employee", "people", "crowd"]):
+        negatives.append(
+            "bad anatomy, malformed hands, extra fingers, uneven eyes, distorted face, unrealistic skin, mutated"
+        )
+    # Business / Corporate
+    if any(w in p for w in ["office", "business", "team", "meeting", "corporate", "company", "workplace"]):
+        negatives.append(
+            "overexposed, oversaturated, harsh lighting, watermark, text, logo, brand"
+        )
+    # Produkt / CGI
+    if any(w in p for w in ["product", "packshot", "mockup", "render", "3d", "cgi", "packaging"]):
+        negatives.append(
+            "plastic texture, noisy, overly reflective surfaces, watermark, text, low poly"
+        )
+    # Landschaft / Umgebung
+    if any(w in p for w in ["landscape", "nature", "mountain", "forest", "outdoor", "beach", "sky"]):
+        negatives.append(
+            "blurry, oversaturated, unnatural colors, distorted horizon, floating objects"
+        )
+    # Logos / Symbole
+    if any(w in p for w in ["logo", "symbol", "icon", "typography", "badge", "emblem"]):
+        negatives.append(
+            "watermark, signature, username, text, writing, scribble, messy"
+        )
+    # Architektur / Gebäude
+    if any(w in p for w in ["building", "architecture", "house", "interior", "room", "facade"]):
+        negatives.append(
+            "deformed, distorted perspective, floating objects, collapsing structure"
+        )
+    # Basis negative Prompts für alle Fälle
+    base_negatives = "low quality, worst quality, blurry, jpeg artifacts, ugly, deformed"
+    if negatives:
+        return base_negatives + ", " + ", ".join(negatives)
+    else:
+        return base_negatives
 # === GESICHTSMASKEN-FUNKTIONEN ===
 def create_face_mask(image, bbox_coords, face_preserve):
     """Erzeugt eine Gesichtsmaske - WEIßE Bereiche werden VERÄNDERT, SCHWARZE BLEIBEN"""
 # === PIPELINES ===
 pipe_txt2img = None
+current_pipe_model_id = None
 pipe_img2img = None
+def load_txt2img(model_id):
+    """Lädt das Text-to-Image Modell basierend auf der Auswahl"""
+    global pipe_txt2img, current_pipe_model_id
+    # Wenn bereits das richtige Modell geladen ist, nichts tun
+    if pipe_txt2img is not None and current_pipe_model_id == model_id:
+        print(f"✅ Modell {model_id} bereits geladen")
+        return pipe_txt2img
+    print(f"🔄 Lade Modell: {model_id}")
+    config = MODEL_CONFIGS[model_id]
+    print(f"📋 Modell-Konfiguration: {config['name']}")
+    print(f"📝 Beschreibung: {config['description']}")
+    try:
+        # VAE-Handling basierend auf Modellkonfiguration
+        vae = None
+        if config.get("requires_vae", False):
+            print(f"🔧 Lade externe VAE: {config['vae_model']}")
+            vae = AutoencoderKL.from_pretrained(
+                config["vae_model"],
+                torch_dtype=torch_dtype
+            ).to(device)
+            print("✅ VAE erfolgreich geladen")
+        # Modell laden
+        print(f"📥 Lade Hauptmodell von Hugging Face...")
+        pipe_txt2img = StableDiffusionPipeline.from_pretrained(
+            model_id,
+            torch_dtype=torch_dtype,
+            safety_checker=None,
+            requires_safety_checker=False,
+            add_watermarker=False,
+            use_safetensors=True,
+            variant="fp16" if torch_dtype == torch.float16 else None,
+            vae=vae
+        ).to(device)
+        # Scheduler konfigurieren
+        from diffusers import DPMSolverMultistepScheduler
+        pipe_txt2img.scheduler = DPMSolverMultistepScheduler.from_config(
+            pipe_txt2img.scheduler.config,
+            use_karras_sigmas=True,
+            algorithm_type="sde-dpmsolver++"
+        )
+        # Optimierungen
+        pipe_txt2img.enable_attention_slicing()
+        pipe_txt2img.enable_vae_slicing()
+        if hasattr(pipe_txt2img, 'vae'):
+            pipe_txt2img.vae.enable_slicing()
+        current_pipe_model_id = model_id
+        print(f"✅ {config['name']} erfolgreich geladen")
+        print(f"⚙️ Empfohlene Einstellungen: Steps={config['recommended_steps']}, CFG={config['recommended_cfg']}")
+        return pipe_txt2img
+    except Exception as e:
+        print(f"❌ Fehler beim Laden von {model_id}: {e}")
+        print("🔄 Fallback auf SD 1.5...")
+        # Fallback auf Standard SD 1.5
+        pipe_txt2img = StableDiffusionPipeline.from_pretrained(
+            "runwayml/stable-diffusion-v1-5",
+            torch_dtype=torch_dtype,
+            use_safetensors=True,
+        ).to(device)
+        pipe_txt2img.enable_attention_slicing()
+        current_pipe_model_id = "runwayml/stable-diffusion-v1-5"
+        return pipe_txt2img
 def load_img2img():
     global pipe_img2img
             pipe_img2img = StableDiffusionInpaintPipeline.from_pretrained(
                 "runwayml/stable-diffusion-inpainting",
                 torch_dtype=torch_dtype,
                 allow_pickle=False,
                 safety_checker=None,
             ).to(device)
             print(f"Fehler beim Laden des Inpainting-Modells: {e}")
             raise
         from diffusers import DPMSolverMultistepScheduler
         pipe_img2img.scheduler = DPMSolverMultistepScheduler.from_config(
             pipe_img2img.scheduler.config,
     return pipe_img2img
+# === NEUE CALLBACK-FUNKTIONEN FÜR FORTSCHRITT ===
 class TextToImageProgressCallback:
     def __init__(self, progress, total_steps):
         self.progress = progress
         self.current_step = 0
     def __call__(self, pipe, step, timestep, callback_kwargs):
         self.current_step = step + 1
         progress_percent = (step / self.total_steps) * 100
         self.progress(progress_percent / 100, desc="Generierung läuft...")
         self.actual_total_steps = None
     def __call__(self, pipe, step, timestep, callback_kwargs):
         self.current_step = step + 1
         if self.actual_total_steps is None:
             if self.strength < 1.0:
                 self.actual_total_steps = int(self.total_steps * self.strength)
             else:
     if image is None:
         return None
     preview = image.copy()
     draw = ImageDraw.Draw(preview)
     if mode_color == "red":
+        border_color = (255, 0, 0, 180)
         mode_text = "NUR BILDELEMENT VERÄNDERN"
     else:
+        border_color = (0, 255, 0, 180)
         mode_text = "BILDELEMENT BEIBEHALTEN"
     border_width = 8
     draw.rectangle([0, 0, preview.width-1, preview.height-1],
                   outline=border_color, width=border_width)
     if bbox_coords and all(coord is not None for coord in bbox_coords):
         x1, y1, x2, y2 = bbox_coords
+        box_color = (255, 255, 0, 200)
         draw.rectangle([x1, y1, x2, y2], outline=box_color, width=3)
         text_color = (255, 255, 255)
         bg_color = (0, 0, 0, 160)
         text_bbox = draw.textbbox((x1, y1 - 25), mode_text)
         draw.rectangle([text_bbox[0]-5, text_bbox[1]-2, text_bbox[2]+5, text_bbox[3]+2],
                       fill=bg_color)
         draw.text((x1, y1 - 25), mode_text, fill=text_color)
     return preview
         return None
     bbox_coords = [bbox_x1, bbox_y1, bbox_x2, bbox_y2]
     mode_color = "green" if face_preserve else "red"
     return create_preview_image(image, bbox_coords, face_preserve, mode_color)
         image = image.resize((512, 512), Image.LANCZOS)
         print(f"Bild auf 512x512 skaliert")
     bbox = auto_detect_face_area(image)
     bbox_x1, bbox_y1, bbox_x2, bbox_y2 = bbox
     preview = create_preview_image(image, bbox, True, "green")
     return preview, bbox_x1, bbox_y1, bbox_x2, bbox_y2
+# === HAUPTFUNKTIONEN ===
+def text_to_image(prompt, model_id, steps, guidance_scale, progress=gr.Progress()):
     try:
         if not prompt or not prompt.strip():
+            return None, "Bitte einen Prompt eingeben"
+        print(f"🚀 Starte Generierung mit Modell: {model_id}")
+        print(f"📝 Prompt: {prompt}")
+        # Automatische negative Prompts generieren
+        auto_negatives = auto_negative_prompt(prompt)
+        print(f"🤖 Automatisch generierte Negative Prompts: {auto_negatives}")
         start_time = time.time()
         progress(0, desc="Lade Modell...")
+        pipe = load_txt2img(model_id)
         seed = random.randint(0, 2**32 - 1)
         generator = torch.Generator(device=device).manual_seed(seed)
+        print(f"🌱 Seed: {seed}")
         callback = TextToImageProgressCallback(progress, steps)
+        print(f"⚙️ Einstellungen: Steps={steps}, CFG={guidance_scale}")
         image = pipe(
             prompt=prompt,
+            negative_prompt=auto_negatives,
+            height=512,
+            width=512,
             num_inference_steps=int(steps),
             guidance_scale=guidance_scale,
             generator=generator,
         ).images[0]
         end_time = time.time()
+        duration = end_time - start_time
+        print(f"✅ Bild generiert in {duration:.2f} Sekunden")
+        config = MODEL_CONFIGS.get(model_id, MODEL_CONFIGS["runwayml/stable-diffusion-v1-5"])
+        status_msg = f"✅ Generiert mit {config['name']} in {duration:.1f}s"
+        return image, status_msg
     except Exception as e:
+        error_msg = f"❌ Fehler: {str(e)}"
+        print(f"❌ Fehler in text_to_image: {e}")
         import traceback
         traceback.print_exc()
+        return None, error_msg
 def img_to_image(image, prompt, neg_prompt, strength, steps, guidance_scale,
                  face_preserve, bbox_x1, bbox_y1, bbox_x2, bbox_y2,
         progress(0, desc="Starte Generierung mit ControlNet...")
         adj_strength = min(0.85, strength * 1.25)
         if face_preserve:
             controlnet_strength = adj_strength * 0.8
             print(f"🎯 ControlNet Modus: Umgebung beibehalten (Strength = {controlnet_strength:.3f})")
         print(f"🎯 Steps={steps}, ControlNet-Steps={controlnet_steps}, Strength={controlnet_strength:.3f}")
         progress(0.05, desc="Erstelle ControlNet Maps...")
         controlnet_output, inpaint_input = controlnet_processor.generate_with_controlnet(
         print(f"✅ ControlNet Output erhalten: {type(controlnet_output)}")
         print(f"✅ Inpaint Input erhalten: {type(inpaint_input)}")
         progress(0.3, desc="ControlNet abgeschlossen – starte Inpaint...")
         pipe = load_img2img()
         generator = torch.Generator(device=device).manual_seed(seed)
         print(f"Using seed: {seed}")
         mask = None
         if bbox_x1 and bbox_y1 and bbox_x2 and bbox_y2:
             orig_w, orig_h = image.size
         else:
             print("⚠️ Keine gültigen Koordinaten – keine Maske")
         from diffusers import EulerAncestralDiscreteScheduler
         if not isinstance(pipe.scheduler, EulerAncestralDiscreteScheduler):
             pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
     bbox = auto_detect_face_area(image)
     return bbox[0], bbox[1], bbox[2], bbox[3]
+def update_model_settings(model_id):
+    """Aktualisiert die empfohlenen Einstellungen basierend auf Modellauswahl"""
+    config = MODEL_CONFIGS.get(model_id, MODEL_CONFIGS["runwayml/stable-diffusion-v1-5"])
+    return (
+        config["recommended_steps"],  # steps
+        config["recommended_cfg"],    # guidance_scale
+        f"📊 Empfohlene Einstellungen: {config['steps']} Steps, CFG {config['cfg']}"
+    )
 def main_ui():
     with gr.Blocks(
         title="AI Image Generator",
            background: #bbdefb;
            text-decoration: underline;
          }
+        .model-info-box {
+            background: #e8f4fd;
+            padding: 12px;
+            border-radius: 6px;
+            margin: 10px 0;
+            border-left: 4px solid #2196f3;
+            font-size: 14px;
+        }
+        #generate-button {
             background-color: #0080FF !important;
             border: none !important;
+            margin: 20px auto !important;
             display: block !important;
             font-weight: 600;
             width: 280px;
         }
+        #generate-button:hover {
+            background-color: #0066CC !important;
         }
         .hint-box {
             margin-top: 20px;
             font-weight: 600 !important;
             line-height: 1.4 !important;
         }
+        .status-message {
+            padding: 10px;
+            border-radius: 5px;
+            margin: 10px 0;
+            text-align: center;
+            font-weight: 500;
+        }
+        .status-success {
+            background-color: #d4edda;
+            color: #155724;
+            border: 1px solid #c3e6cb;
+        }
+        .status-error {
+            background-color: #f8d7da;
+            color: #721c24;
+            border: 1px solid #f5c6cb;
+        }
         """
     ) as demo:
         with gr.Column(visible=True) as content_area:
             with gr.Tab("Text zu Bild"):
+                gr.Markdown("## 🎨 Text zu Bild Generator")
                 with gr.Row():
+                    with gr.Column(scale=2):
+                        # Modellauswahl Dropdown
+                        model_dropdown = gr.Dropdown(
+                            choices=[
+                                (config["name"], model_id)
+                                for model_id, config in MODEL_CONFIGS.items()
+                            ],
+                            value="runwayml/stable-diffusion-v1-5",
+                            label="📁 Modellauswahl",
+                            info="Wähle ein Modell basierend auf deinem Anwendungsfall"
+                        )
+                        # Modellinformationen Box
+                        model_info_box = gr.Markdown(
+                            value="<div class='model-info-box'>"
+                                  "**🏠 Stable Diffusion 1.5 (Universal)**<br>"
+                                  "Universal model, good all-rounder, reliable results<br>"
+                                  "Empfohlene Einstellungen: 35 Steps, CFG 7.5"
+                                  "</div>",
+                            label="Modellinformationen"
+                        )
+                    with gr.Column(scale=3):
+                        txt_input = gr.Textbox(
+                            placeholder="z.B. ultra realistic mountain landscape at sunrise, soft mist over the valley, detailed foliage, crisp textures, depth of field, sunlight rays through clouds, shot on medium format camera, 8k, HDR, hyper-detailed, natural lighting, masterpiece",
+                            lines=3,
+                            label="🎯 Prompt (Englisch)",
+                            info="Beschreibe detailliert, was du sehen möchtest. Negative Prompts werden automatisch generiert."
+                        )
                 with gr.Row():
                     with gr.Column():
                         txt_steps = gr.Slider(
                             minimum=10, maximum=100, value=35, step=1,
+                            label="⚙️ Inferenz-Schritte",
                             info="Mehr Schritte = bessere Qualität, aber langsamer (20-50 empfohlen)"
                         )
                     with gr.Column():
                         txt_guidance = gr.Slider(
                             minimum=1.0, maximum=20.0, value=7.5, step=0.5,
+                            label="🎛️ Prompt-Stärke (CFG Scale)",
                             info="Wie stark der Prompt befolgt wird (7-12 für gute Balance)"
                         )
+                # Status-Nachricht
+                status_output = gr.Markdown(
+                    value="",
+                    elem_classes="status-message"
+                )
+                generate_btn = gr.Button("🚀 Bild generieren", variant="primary", elem_id="generate-button")
+                with gr.Row():
+                    txt_output = gr.Image(
+                        label="🖼️ Generiertes Bild",
+                        show_download_button=True,
+                        type="pil",
+                        height=400
+                    )
+                # Event-Handler für Modelländerung
+                def update_model_info(model_id):
+                    config = MODEL_CONFIGS.get(model_id, MODEL_CONFIGS["runwayml/stable-diffusion-v1-5"])
+                    info_html = f"""
+                    <div class='model-info-box'>
+                    <strong>{config['name']}</strong><br>
+                    {config['description']}<br>
+                    <em>Empfohlene Einstellungen: {config['recommended_steps']} Steps, CFG {config['recommended_cfg']}</em>
+                    </div>
+                    """
+                    return info_html, config["recommended_steps"], config["recommended_cfg"]
+                model_dropdown.change(
+                    fn=update_model_info,
+                    inputs=[model_dropdown],
+                    outputs=[model_info_box, txt_steps, txt_guidance]
                 )
                 generate_btn.click(
                     fn=text_to_image,
+                    inputs=[txt_input, model_dropdown, txt_steps, txt_guidance],
+                    outputs=[txt_output, status_output],
                     concurrency_limit=1
                 )
             with gr.Tab("Bild zu Bild"):
+                gr.Markdown("## 🖼️ Bild zu Bild Transformation")
                 with gr.Row():
                     with gr.Column():
                         img_input = gr.Image(
                             type="pil",
+                            label="📤 Eingabebild",
                             height=300,
                             sources=["upload"],
                             elem_id="image-upload"
                 with gr.Row():
                     face_preserve = gr.Checkbox(
+                        label="🛡️ Schutzmodus",
                         value=True,
+                        info="🟢 AN: Alles AUSSERHALB des gelben Rahmens verändern | 🔴 AUS: Nur INNERHALB des gelben Rahmens verändern"
                     )
                 with gr.Row():
+                    gr.Markdown("### 📐 Bildelementbereich anpassen")
                 with gr.Row():
                     with gr.Column():
                         bbox_x1 = gr.Slider(
+                            label="← Links (x1)",
                             minimum=0, maximum=512, value=100, step=1,
                             info="Linke Kante des Bildelementbereichs"
                         )
                     with gr.Column():
                         bbox_y1 = gr.Slider(
+                            label="↑ Oben (y1)",
                             minimum=0, maximum=512, value=100, step=1,
                             info="Obere Kante des Bildelementbereichs"
                         )
                 with gr.Row():
                     with gr.Column():
                         bbox_x2 = gr.Slider(
+                            label="→ Rechts (x2)",
                             minimum=0, maximum=512, value=300, step=1,
                             info="Rechte Kante des Bildelementbereichs"
                         )
                     with gr.Column():
                         bbox_y2 = gr.Slider(
+                            label="↓ Unten (y2)",
                             minimum=0, maximum=512, value=300, step=1,
                             info="Untere Kante des Bildelementbereichs"
                         )
                         img_prompt = gr.Textbox(
                             placeholder="change background to beach with palm trees, keep person unchanged, sunny day",
                             lines=2,
+                            label="🎯 Transformations-Prompt (Englisch)",
                             info="Was soll verändert werden? Sei spezifisch."
                         )
                     with gr.Column():
                         img_neg_prompt = gr.Textbox(
                             placeholder="blurry, deformed, ugly, bad anatomy, extra limbs, poorly drawn hands",
                             lines=2,
+                            label="🚫 Negativ-Prompt (Englisch)",
                             info="Was soll vermieden werden? Unerwünschte Elemente auflisten."
                         )
                     with gr.Column():
                         strength_slider = gr.Slider(
                             minimum=0.1, maximum=0.9, value=0.4, step=0.05,
+                            label="💪 Veränderungs-Stärke",
                             info="0.1-0.3: Leichte Anpassungen, 0.4-0.6: Mittlere Veränderungen, 0.7-0.9: Starke Umgestaltung"
                         )
                     with gr.Column():
                         img_steps = gr.Slider(
                             minimum=10, maximum=100, value=35, step=1,
+                            label="⚙️ Inferenz-Schritte",
                             info="Anzahl der Verarbeitungsschritte (25-45 für gute Ergebnisse)"
                         )
                     with gr.Column():
                         img_guidance = gr.Slider(
                             minimum=1.0, maximum=20.0, value=7.5, step=0.5,
+                            label="🎛️ Prompt-Stärke",
                             info="Einfluss des Prompts auf das Ergebnis (6-10 für natürliche Ergebnisse)"
                         )
                 with gr.Row():
                    gr.Markdown(
+                     "### 📋 Hinweise:\n"
                      "• **🆕 Automatische Bildelementerkennung** setzt Koordinaten beim Upload\n"
                      "• **🆕 Live-Vorschau** zeigt farbige Rahmen je nach Modus (🔴 Rot / 🟢 Grün)\n"
                      "• **🆕 Koordinaten-Schieberegler** für präzise Anpassung mit Live-Update\n"
                      "• **Koordinaten nur bei erkennbaren Verzerrungen anpassen** (Bereiche leicht verschieben)"
                     )
+                transform_btn = gr.Button("🔄 Bild transformieren", variant="primary")
                 with gr.Row():
                     img_output = gr.Image(
+                        label="✨ Transformiertes Bild",
                         show_download_button=True,
+                        type="pil",
+                        height=400
                     )
                 img_input.change(
                 coordinate_inputs = [img_input, bbox_x1, bbox_y1, bbox_x2, bbox_y2, face_preserve]
+                for slider in [bbox_x1, bbox_y1, bbox_x2, bbox_y2]:
+                    slider.change(
+                        fn=update_live_preview,
+                        inputs=coordinate_inputs,
+                        outputs=preview_output
+                    )
                 face_preserve.change(
                     fn=update_live_preview,
 if __name__ == "__main__":
     demo = main_ui()
+    demo.queue(max_size=3)
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,