Spaces:

Finish-him
/

prometheus-embedding-generator

Build error

App Files Files Community

Finish-him commited on Jul 23, 2025

Commit

8d6f77a

verified ·

1 Parent(s): 1877d10

update train.py

Browse files

Files changed (1) hide show

train.py +51 -2

train.py CHANGED Viewed

@@ -1,2 +1,51 @@
-cache_path = os.environ.get('SENTENCE_TRANSFORMERS_HOME', '/app/cache')
-model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2', cache_folder=cache_path)

+# =================== CÓDIGO COMPLETO E ATUALIZADO ===================
+import os
+import zipfile
+import glob
+import json
+import csv
+import numpy as np
+from tqdm.auto import tqdm
+from sentence_transformers import SentenceTransformer
+# --- CONFIGURAÇÕES ---
+# Lembre-se de colocar o nome correto do seu arquivo .zip!
+ZIP_FILENAME = "seus-dados.zip"
+EXTRACT_DIR = "/app/dados_extraidos"
+# ---------------------
+def setup_data():
+    """Descompacta os dados se o diretório não existir."""
+    if not os.path.exists(EXTRACT_DIR) and os.path.exists(ZIP_FILENAME):
+        print(f"Descompactando '{ZIP_FILENAME}'...")
+        os.makedirs(EXTRACT_DIR, exist_ok=True)
+        with zipfile.ZipFile(ZIP_FILENAME, 'r') as zip_ref:
+            zip_ref.extractall(EXTRACT_DIR)
+        print("✅ Dados descompactados.")
+    elif not os.path.exists(ZIP_FILENAME):
+        print(f"⚠️ Arquivo '{ZIP_FILENAME}' não encontrado. Pulando descompactação.")
+    else:
+        print("✅ Dados já parecem estar descompactados.")
+def serialize_item_to_text(item_dict):
+    """Converte um dicionário em uma string de texto."""
+    parts = []
+    for key, value in item_dict.items():
+        if isinstance(value, dict):
+            nested_text = serialize_item_to_text(value)
+            parts.append(f"{key} ({nested_text})")
+        elif isinstance(value, list):
+            list_str = ', '.join([str(i) for i in value])
+            parts.append(f"{key}: [{list_str}]")
+        else:
+            parts.append(f"{key}: {value}")
+    return ", ".join(parts)
+def main():
+    """Função principal para carregar dados e gerar embeddings."""
+    setup_data()
+    csv.field_size_limit(10_000_000)
+    documents = []
+    all_files = glob.glob(EXTRACT_DIR + "/**/*.