Spaces:

Segizu
/

Face_Recognition

Build error

App Files Files Community

Segizu commited on May 8, 2025

Commit

8d88e43

1 Parent(s): 752c0fd

metadata v12

Browse files

Files changed (3) hide show

app.py +23 -42
metadata.csv +0 -0
metadata.py +2 -2

app.py CHANGED Viewed

@@ -7,21 +7,22 @@ import os
 import pickle
 from pathlib import Path
 import gc
-import requests
-from io import BytesIO
-# 🔑 Token de autenticación
 HF_TOKEN = os.getenv("HF_TOKEN")
-if not HF_TOKEN:
-    raise ValueError("⚠️ Por favor, configura la variable de entorno HF_TOKEN para acceder al dataset privado")
 # 📁 Directorio para embeddings
 EMBEDDINGS_DIR = Path("embeddings")
 EMBEDDINGS_DIR.mkdir(exist_ok=True)
 EMBEDDINGS_FILE = EMBEDDINGS_DIR / "embeddings.pkl"
-# ✅ Cargar dataset desde metadata.csv (con URLs absolutas)
-dataset = load_dataset("csv", data_files="metadata.csv")
 # 🔄 Preprocesar imagen para Facenet
 def preprocess_image(img: Image.Image) -> np.ndarray:
@@ -40,38 +41,21 @@ def build_database():
     database = []
     batch_size = 10
-    # Get the train split
-    train_dataset = dataset["train"]
-    # Debug: Print dataset structure
-    print("Dataset structure:", train_dataset.features)
-    print("First item structure:", train_dataset[0])
-    print("Dataset type:", type(train_dataset))
-    print("Dataset item type:", type(train_dataset[0]))
-    for i in range(0, len(train_dataset), batch_size):
-        batch = train_dataset[i:i + batch_size]
-        print(f"📦 Procesando lote {i // batch_size + 1}/{(len(train_dataset) + batch_size - 1) // batch_size}")
         for j, item in enumerate(batch):
             try:
-                print(f"Debug - Processing item {i+j}")
-                print(f"Debug - Item type: {type(item)}")
-                print(f"Debug - Item content: {item}")
-                # Get the image URL
-                image_url = item["image"]
-                if not isinstance(image_url, str) or not image_url.startswith("http"):
-                    print(f"⚠️ Skipping item {i+j} - Invalid URL format")
                     continue
-                # Download and process the image
-                response = requests.get(image_url, timeout=10)
-                response.raise_for_status()
-                img = Image.open(BytesIO(response.content))
-                # Ensure image is in RGB mode
-                img = img.convert("RGB")
                 img_processed = preprocess_image(img)
                 embedding = DeepFace.represent(
                     img_path=img_processed,
@@ -80,19 +64,16 @@ def build_database():
                 )[0]["embedding"]
                 database.append((f"image_{i+j}", img, embedding))
-                print(f"✅ Procesada imagen {i+j+1}/{len(train_dataset)}")
                 del img_processed
                 gc.collect()
             except Exception as e:
-                print(f"❌ No se pudo procesar imagen {i+j}: {str(e)}")
-                print(f"Error details: {type(e).__name__}")
-                import traceback
-                print(traceback.format_exc())
                 continue
-        # 💾 Guardar después de cada batch
         if database:
             print("💾 Guardando progreso...")
             with open(EMBEDDINGS_FILE, 'wb') as f:
@@ -135,7 +116,7 @@ def find_similar_faces(uploaded_image: Image.Image):
     return gallery_items, text_summary
-# ⚙️ Inicializar
 print("🚀 Iniciando aplicación...")
 database = build_database()
 print(f"✅ Base de datos cargada con {len(database)} imágenes")

 import pickle
 from pathlib import Path
 import gc
+# 🔐 Token automático (si es necesario)
 HF_TOKEN = os.getenv("HF_TOKEN")
 # 📁 Directorio para embeddings
 EMBEDDINGS_DIR = Path("embeddings")
 EMBEDDINGS_DIR.mkdir(exist_ok=True)
 EMBEDDINGS_FILE = EMBEDDINGS_DIR / "embeddings.pkl"
+# ✅ Cargar dataset directamente desde Hugging Face Hub
+dataset = load_dataset(
+    path="Segizu/facial-recognition",
+    data_files="metadata.csv",
+    token=HF_TOKEN
+)
+dataset = dataset["train"].cast_column("image", HfImage())
 # 🔄 Preprocesar imagen para Facenet
 def preprocess_image(img: Image.Image) -> np.ndarray:
     database = []
     batch_size = 10
+    for i in range(0, len(dataset), batch_size):
+        batch = dataset[i:i + batch_size]
+        print(f"📦 Procesando lote {i // batch_size + 1}/{(len(dataset) + batch_size - 1) // batch_size}")
         for j, item in enumerate(batch):
             try:
+                if not isinstance(item, dict) or "image" not in item:
+                    print(f"⚠️ Saltando item {i+j} - estructura inválida: {item}")
                     continue
+                img = item["image"]
+                if not isinstance(img, Image.Image):
+                    print(f"⚠️ Saltando item {i+j} - no es imagen: {type(img)}")
+                    continue
                 img_processed = preprocess_image(img)
                 embedding = DeepFace.represent(
                     img_path=img_processed,
                 )[0]["embedding"]
                 database.append((f"image_{i+j}", img, embedding))
+                print(f"✅ Procesada imagen {i+j+1}/{len(dataset)}")
                 del img_processed
                 gc.collect()
             except Exception as e:
+                print(f"❌ Error al procesar imagen {i+j}: {str(e)}")
                 continue
+        # Guardar después de cada lote
         if database:
             print("💾 Guardando progreso...")
             with open(EMBEDDINGS_FILE, 'wb') as f:
     return gallery_items, text_summary
+# ⚙️ Iniciar la aplicación
 print("🚀 Iniciando aplicación...")
 database = build_database()
 print(f"✅ Base de datos cargada con {len(database)} imágenes")

metadata.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

metadata.py CHANGED Viewed

@@ -2,14 +2,14 @@ from huggingface_hub import HfApi
 import csv
 import os
-HF_TOKEN = os.getenv("HF_TOKEN") or "hf_token"
 repo_id = "Segizu/facial-recognition"
 api = HfApi()
 files = api.list_repo_files(repo_id=repo_id, repo_type="dataset", token=HF_TOKEN)
 # Generar URLs completas
-base_url = f"https://huggingface.co/datasets/{repo_id}/resolve/main/"
 image_urls = [base_url + f for f in files if f.lower().endswith(".jpg")]
 # Escribir nuevo metadata.csv

 import csv
 import os
+HF_TOKEN = os.getenv("HF_TOKEN") or ""
 repo_id = "Segizu/facial-recognition"
 api = HfApi()
 files = api.list_repo_files(repo_id=repo_id, repo_type="dataset", token=HF_TOKEN)
 # Generar URLs completas
+base_url = f""
 image_urls = [base_url + f for f in files if f.lower().endswith(".jpg")]
 # Escribir nuevo metadata.csv