Spaces:

Finish-him
/

prometheus-embedding-generator

Build error

App Files Files Community

Finish-him commited on Jul 23, 2025

Commit

e0392a3

verified ·

1 Parent(s): 102926c

tain-v2

Browse files

Files changed (1) hide show

train.py +2 -74

train.py CHANGED Viewed

@@ -1,74 +1,2 @@
-import os
-import zipfile
-import glob
-import json
-import csv
-import numpy as np
-from tqdm.auto import tqdm
-from sentence_transformers import SentenceTransformer
-# --- CONFIGURAÇÕES ---
-ZIP_FILENAME = "Treinamento do PGL_4.zip"  # <-- MUDE PARA O NOME DO SEU ARQUIVO ZIP
-EXTRACT_DIR = "/app/dados_extraidos"
-# ---------------------
-def setup_data():
-    if not os.path.exists(EXTRACT_DIR) and os.path.exists(ZIP_FILENAME):
-        print(f"Descompactando '{ZIP_FILENAME}'...")
-        os.makedirs(EXTRACT_DIR, exist_ok=True)
-        with zipfile.ZipFile(ZIP_FILENAME, 'r') as zip_ref:
-            zip_ref.extractall(EXTRACT_DIR)
-        print("✅ Dados descompactados.")
-    else:
-        print("✅ Dados já descompactados ou arquivo zip não encontrado.")
-def serialize_item_to_text(item_dict):
-    parts = []
-    for key, value in item_dict.items():
-        if isinstance(value, dict):
-            parts.append(f"{key} ({serialize_item_to_text(value)})")
-        elif isinstance(value, list):
-            list_str = ', '.join([str(i) for i in value])
-            parts.append(f"{key}: [{list_str}]")
-        else:
-            parts.append(f"{key}: {value}")
-    return ", ".join(parts)
-def main():
-    setup_data()
-    csv.field_size_limit(10_000_000)
-    documents = []
-    all_files = glob.glob(EXTRACT_DIR + "/**/*.json", recursive=True) + \
-                glob.glob(EXTRACT_DIR + "/**/*.csv", recursive=True)
-    print(f"🔎 Encontrados {len(all_files)} arquivos para processar.")
-    for filepath in all_files:
-        # ... (código de leitura de arquivos omitido para brevidade, use o mesmo de antes)
-        pass # Substitua pelo seu loop de leitura de arquivos
-    # Este é um placeholder, substitua pelo seu código de leitura real
-    documents = ["Placeholder" for _ in range(680000)] # Simula seus dados carregados
-    if not documents:
-        print("Nenhum documento para processar.")
-        return
-    model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
-    batch_size = 512
-    output_filename = 'meus_embeddings.npy'
-    if os.path.exists(output_filename):
-        os.remove(output_filename)
-    print(f"🚀 Iniciando geração de embeddings em lotes de {batch_size}.")
-    for i in tqdm(range(0, len(documents), batch_size)):
-        batch = documents[i:i+batch_size]
-        batch_embeddings = model.encode(batch, show_progress_bar=False)
-        with open(output_filename, 'ab') as f_out:
-            np.save(f_out, batch_embeddings)
-    print(f"✅ Processo finalizado! Embeddings salvos em '{output_filename}'.")
-if __name__ == "__main__":
-    main()


1	+ cache_path = os.environ.get('SENTENCE_TRANSFORMERS_HOME', '/app/cache')
2	+ model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2', cache_folder=cache_path)