pixagram-dev

Runtime error

App Files Files Community

primerz commited on Nov 1

Commit

04fa627

verified ·

1 Parent(s): b305aed

Update generator.py

Browse files

Files changed (1) hide show

generator.py +11 -41

generator.py CHANGED Viewed

@@ -54,7 +54,7 @@ class RetroArtConverter:
         self.mediapipe_face, mediapipe_success = load_mediapipe_face_detector()
         self.models_loaded['mediapipe_face'] = mediapipe_success
-        # Load Depth detector with fallback hierarchy (Leres â†’ Zoe â†’ Midas)
         self.depth_detector, self.depth_type, depth_success = load_depth_detector()
         self.models_loaded['depth_detector'] = depth_success
         self.models_loaded['depth_type'] = self.depth_type
@@ -627,7 +627,7 @@ class RetroArtConverter:
                     if len(faces) > 0:
                         insightface_success = True
                         has_detected_faces = True
-                        print(f"âœ“ InsightFace detected {len(faces)} face(s)")
                         # Get largest face
                         face = sorted(faces, key=lambda x: (x.bbox[2] - x.bbox[0]) * (x.bbox[3] - x.bbox[1]))[-1]
@@ -688,7 +688,7 @@ class RetroArtConverter:
                         print(f"Face info: bbox={face.bbox}, age={age if age else 'N/A'}, gender={gender_str}")
                         print(f"Face crop size: {face_crop.size}, enhanced: {face_crop_enhanced.size if face_crop_enhanced else 'N/A'}")
                     else:
-                        print("âœ— InsightFace found no faces")
                 except Exception as e:
                     print(f"[ERROR] InsightFace detection failed: {e}")
@@ -710,14 +710,14 @@ class RetroArtConverter:
                         if mediapipe_array.sum() > 1000:  # If image has significant content
                             has_detected_faces = True
                             face_kps_image = mediapipe_result
-                            print(f"âœ“ MediapipeFace detected face(s)")
                             print(f"[INFO] Using MediapipeFace keypoints (no embeddings available)")
                             # Note: MediapipeFace doesn't provide embeddings or detailed info
                             # So face_embeddings, face_crop_enhanced remain None
                             # InstantID will work with keypoints only (reduced quality)
                         else:
-                            print("âœ— MediapipeFace found no faces")
                     except Exception as e:
                         print(f"[ERROR] MediapipeFace detection failed: {e}")
                         traceback.print_exc()
@@ -777,8 +777,7 @@ class RetroArtConverter:
         pipe_kwargs["generator"] = generator
-        # --- START FIX: Use our new Cappella module with proper fallback ---
-        cappella_success = False
         if self.use_cappella and self.cappella is not None:
             try:
                 print("Encoding prompts with Cappella...")
@@ -793,44 +792,15 @@ class RetroArtConverter:
                 pipe_kwargs["negative_pooled_prompt_embeds"] = conditioning.negative_pooled_embeds
                 print(f"[OK] Cappella encoded - Prompt: {pipe_kwargs['prompt_embeds'].shape}, Negative: {pipe_kwargs['negative_prompt_embeds'].shape}")
-                cappella_success = True
             except Exception as e:
-                print(f"[WARNING] Cappella encoding failed: {e}")
                 traceback.print_exc()
-        # Fallback: Manual encoding if Cappella not available or failed
-        if not cappella_success:
-            print("[FALLBACK] Manually encoding prompts for face embedding compatibility...")
-            try:
-                # Use pipeline's encode_prompt method
-                (
-                    prompt_embeds,
-                    negative_prompt_embeds,
-                    pooled_prompt_embeds,
-                    negative_pooled_prompt_embeds,
-                ) = self.pipe.encode_prompt(
-                    prompt=prompt,
-                    prompt_2=None,
-                    device=self.device,
-                    num_images_per_prompt=1,
-                    do_classifier_free_guidance=True,
-                    negative_prompt=negative_prompt,
-                    negative_prompt_2=None,
-                )
-                pipe_kwargs["prompt_embeds"] = prompt_embeds
-                pipe_kwargs["pooled_prompt_embeds"] = pooled_prompt_embeds
-                pipe_kwargs["negative_prompt_embeds"] = negative_prompt_embeds
-                pipe_kwargs["negative_pooled_prompt_embeds"] = negative_pooled_prompt_embeds
-                print(f"[OK] Manual encoding - Prompt: {prompt_embeds.shape}, Negative: {negative_prompt_embeds.shape}")
-            except Exception as e:
-                print(f"[ERROR] Manual encoding also failed: {e}")
-                traceback.print_exc()
-                # Last resort: use raw text (face embeddings won't work)
                 pipe_kwargs["prompt"] = prompt
                 pipe_kwargs["negative_prompt"] = negative_prompt
-                print("[WARNING] Using raw text prompts - face embedding concatenation will be skipped")
         # --- END FIX ---
         # Add CLIP skip

         self.mediapipe_face, mediapipe_success = load_mediapipe_face_detector()
         self.models_loaded['mediapipe_face'] = mediapipe_success
+        # Load Depth detector with fallback hierarchy (Leres → Zoe → Midas)
         self.depth_detector, self.depth_type, depth_success = load_depth_detector()
         self.models_loaded['depth_detector'] = depth_success
         self.models_loaded['depth_type'] = self.depth_type
                     if len(faces) > 0:
                         insightface_success = True
                         has_detected_faces = True
+                        print(f"✓ InsightFace detected {len(faces)} face(s)")
                         # Get largest face
                         face = sorted(faces, key=lambda x: (x.bbox[2] - x.bbox[0]) * (x.bbox[3] - x.bbox[1]))[-1]
                         print(f"Face info: bbox={face.bbox}, age={age if age else 'N/A'}, gender={gender_str}")
                         print(f"Face crop size: {face_crop.size}, enhanced: {face_crop_enhanced.size if face_crop_enhanced else 'N/A'}")
                     else:
+                        print("✗ InsightFace found no faces")
                 except Exception as e:
                     print(f"[ERROR] InsightFace detection failed: {e}")
                         if mediapipe_array.sum() > 1000:  # If image has significant content
                             has_detected_faces = True
                             face_kps_image = mediapipe_result
+                            print(f"✓ MediapipeFace detected face(s)")
                             print(f"[INFO] Using MediapipeFace keypoints (no embeddings available)")
                             # Note: MediapipeFace doesn't provide embeddings or detailed info
                             # So face_embeddings, face_crop_enhanced remain None
                             # InstantID will work with keypoints only (reduced quality)
                         else:
+                            print("✗ MediapipeFace found no faces")
                     except Exception as e:
                         print(f"[ERROR] MediapipeFace detection failed: {e}")
                         traceback.print_exc()
         pipe_kwargs["generator"] = generator
+        # --- START FIX: Use our new Cappella module ---
         if self.use_cappella and self.cappella is not None:
             try:
                 print("Encoding prompts with Cappella...")
                 pipe_kwargs["negative_pooled_prompt_embeds"] = conditioning.negative_pooled_embeds
                 print(f"[OK] Cappella encoded - Prompt: {pipe_kwargs['prompt_embeds'].shape}, Negative: {pipe_kwargs['negative_prompt_embeds'].shape}")
             except Exception as e:
+                print(f"Cappella encoding failed, using standard prompts: {e}")
                 traceback.print_exc()
                 pipe_kwargs["prompt"] = prompt
                 pipe_kwargs["negative_prompt"] = negative_prompt
+        else:
+            print("[WARNING] Cappella not found, using standard prompt encoding.")
+            pipe_kwargs["prompt"] = prompt
+            pipe_kwargs["negative_prompt"] = negative_prompt
         # --- END FIX ---
         # Add CLIP skip