Spaces:

Finish-him
/

prometheus-embedding-generator

Build error

App Files Files Community

Finish-him commited on Jul 23, 2025

Commit

e07565f

verified ·

1 Parent(s): 99d748b

treinamento

Browse files

Files changed (1) hide show

train.py +74 -0

train.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import os
+import zipfile
+import glob
+import json
+import csv
+import numpy as np
+from tqdm.auto import tqdm
+from sentence_transformers import SentenceTransformer
+# --- CONFIGURAÇÕES ---
+ZIP_FILENAME = "Treinamento do PGL_4.zip"  # <-- MUDE PARA O NOME DO SEU ARQUIVO ZIP
+EXTRACT_DIR = "/app/dados_extraidos"
+# ---------------------
+def setup_data():
+    if not os.path.exists(EXTRACT_DIR) and os.path.exists(ZIP_FILENAME):
+        print(f"Descompactando '{ZIP_FILENAME}'...")
+        os.makedirs(EXTRACT_DIR, exist_ok=True)
+        with zipfile.ZipFile(ZIP_FILENAME, 'r') as zip_ref:
+            zip_ref.extractall(EXTRACT_DIR)
+        print("✅ Dados descompactados.")
+    else:
+        print("✅ Dados já descompactados ou arquivo zip não encontrado.")
+def serialize_item_to_text(item_dict):
+    parts = []
+    for key, value in item_dict.items():
+        if isinstance(value, dict):
+            parts.append(f"{key} ({serialize_item_to_text(value)})")
+        elif isinstance(value, list):
+            list_str = ', '.join([str(i) for i in value])
+            parts.append(f"{key}: [{list_str}]")
+        else:
+            parts.append(f"{key}: {value}")
+    return ", ".join(parts)
+def main():
+    setup_data()
+    csv.field_size_limit(10_000_000)
+    documents = []
+    all_files = glob.glob(EXTRACT_DIR + "/**/*.json", recursive=True) + \
+                glob.glob(EXTRACT_DIR + "/**/*.csv", recursive=True)
+    print(f"🔎 Encontrados {len(all_files)} arquivos para processar.")
+    for filepath in all_files:
+        # ... (código de leitura de arquivos omitido para brevidade, use o mesmo de antes)
+        pass # Substitua pelo seu loop de leitura de arquivos
+    # Este é um placeholder, substitua pelo seu código de leitura real
+    documents = ["Placeholder" for _ in range(680000)] # Simula seus dados carregados
+    if not documents:
+        print("Nenhum documento para processar.")
+        return
+    model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
+    batch_size = 512
+    output_filename = 'meus_embeddings.npy'
+    if os.path.exists(output_filename):
+        os.remove(output_filename)
+    print(f"🚀 Iniciando geração de embeddings em lotes de {batch_size}.")
+    for i in tqdm(range(0, len(documents), batch_size)):
+        batch = documents[i:i+batch_size]
+        batch_embeddings = model.encode(batch, show_progress_bar=False)
+        with open(output_filename, 'ab') as f_out:
+            np.save(f_out, batch_embeddings)
+    print(f"✅ Processo finalizado! Embeddings salvos em '{output_filename}'.")
+if __name__ == "__main__":
+    main()