Spaces:

Finish-him
/

prometheus-embedding-generator

Build error

App Files Files Community

Finish-him commited on Jul 23, 2025

Commit

da5079c

verified ·

1 Parent(s): 756fc41

update

Browse files

Files changed (1) hide show

train.py +52 -58

train.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# =================== CÓDIGO FINAL COM LÓGICA DE DESCOMPACTAÇÃO ===================
 import os
 import glob
@@ -7,25 +7,25 @@ import csv
 import numpy as np
 from tqdm.auto import tqdm
 from sentence_transformers import SentenceTransformer
-import zipfile # Módulo para lidar com arquivos .zip
 # --- CONFIGURAÇÕES ---
 # Diretório onde o Dockerfile clonou os dados do seu Space
 DATA_DIR = "/app/dados"
-# Diretório para onde os arquivos serão extraídos
 EXTRACT_DIR = "/app/dados_extraidos"
 # ---------------------
 def setup_data():
-    """Procura por arquivos .zip no diretório de dados e os descompacta."""
-    print("Procurando por arquivos .zip para descompactar...")
     os.makedirs(EXTRACT_DIR, exist_ok=True)
     zip_files_found = glob.glob(DATA_DIR + "/**/*.zip", recursive=True)
     if not zip_files_found:
-        print("Nenhum arquivo .zip encontrado. Assumindo que os arquivos já estão extraídos.")
-        # Se não houver zips, usamos o diretório de dados original
         return DATA_DIR
     for zip_filepath in zip_files_found:
@@ -33,22 +33,42 @@ def setup_data():
         try:
             with zipfile.ZipFile(zip_filepath, 'r') as zip_ref:
                 zip_ref.extractall(EXTRACT_DIR)
-            print(f"✅ Arquivo '{os.path.basename(zip_filepath)}' descompactado com sucesso.")
         except Exception as e:
             print(f"⚠️ Falha ao descompactar '{zip_filepath}': {e}")
-    # Retorna o diretório onde os arquivos foram extraídos
     return EXTRACT_DIR
 def serialize_item_to_text(item_dict):
-    """Converte um dicionário em uma string de texto."""
     parts = []
     for key, value in item_dict.items():
         if isinstance(value, dict):
             nested_text = serialize_item_to_text(value)
             parts.append(f"{key} ({nested_text})")
         elif isinstance(value, list):
-            list_str = ', '.join([str(i) for i in value])
             parts.append(f"{key}: [{list_str}]")
         else:
             parts.append(f"{key}: {value}")
@@ -56,21 +76,20 @@ def serialize_item_to_text(item_dict):
 def main():
     """Função principal para carregar dados e gerar embeddings."""
-    # Descompacta os dados e obtém o diretório com os arquivos processáveis
     process_dir = setup_data()
-    csv.field_size_limit(10_000_000)
-    # Procura recursivamente por todos os arquivos .json e .csv no diretório de extração
     all_files = glob.glob(process_dir + "/**/*.json", recursive=True) + \
-                glob.glob(process_dir + "/**/*.csv", recursive=True)
-    print(f"\n🔎 Encontrados {len(all_files)} arquivos para processar após descompactação.")
     if not all_files:
-        print("⚠️ Nenhum arquivo .csv ou .json encontrado. Verifique o conteúdo do seu .zip.")
         return
     documents = []
     for filepath in all_files:
         try:
@@ -85,41 +104,16 @@ def main():
                 with open(filepath, 'r', encoding='utf-8') as f:
                     reader = csv.DictReader(f)
                     for row in reader: documents.append(serialize_item_to_text(row))
         except Exception as e:
-            print(f"⚠️ Erro ao processar o arquivo {filepath}: {e}")
-    print(f"\nProcessamento de arquivos concluído! {len(documents)} documentos foram criados.")
-    if not documents:
-        print("Nenhum documento foi lido com sucesso. Encerrando.")
-        return
-    # Define o caminho do cache e carrega o modelo
-    cache_path = os.environ.get('SENTENCE_TRANSFORMERS_HOME', '/app/cache/torch')
-    print("Carregando modelo avançado: intfloat/e5-mistral-7b-instruct")
-    model = SentenceTransformer(
-        'intfloat/e5-mistral-7b-instruct',
-        cache_folder=cache_path,
-        trust_remote_code=True
-    )
-    batch_size = 64
-    output_filename = 'meus_embeddings_finais.npy'
-    if os.path.exists(output_filename):
-        os.remove(output_filename)
-    print(f"🚀 Iniciando geração de embeddings (lotes de {batch_size}).")
-    for i in tqdm(range(0, len(documents), batch_size)):
-        batch = documents[i:i+batch_size]
-        batch_embeddings = model.encode(batch, show_progress_bar=False)
-        with open(output_filename, 'ab') as f_out:
-            np.save(f_out, batch_embeddings)
-    print(f"✅ Processo finalizado! Embeddings salvos em '{output_filename}'.")
-if __name__ == "__main__":
-    main()
-# =================================================================================

+# =================== CÓDIGO FINAL COM SUPORTE PARA XML ===================
 import os
 import glob
 import numpy as np
 from tqdm.auto import tqdm
 from sentence_transformers import SentenceTransformer
+import zipfile  # Módulo para lidar com ficheiros .zip
+import xml.etree.ElementTree as ET # Módulo para processar XML
 # --- CONFIGURAÇÕES ---
 # Diretório onde o Dockerfile clonou os dados do seu Space
 DATA_DIR = "/app/dados"
+# Diretório para onde os ficheiros serão extraídos
 EXTRACT_DIR = "/app/dados_extraidos"
 # ---------------------
 def setup_data():
+    """Procura por ficheiros .zip no diretório de dados e os descompacta."""
+    print("Procurando por ficheiros .zip para descompactar...")
     os.makedirs(EXTRACT_DIR, exist_ok=True)
     zip_files_found = glob.glob(DATA_DIR + "/**/*.zip", recursive=True)
     if not zip_files_found:
+        print("Nenhum ficheiro .zip encontrado. Assumindo que os ficheiros já estão extraídos.")
         return DATA_DIR
     for zip_filepath in zip_files_found:
         try:
             with zipfile.ZipFile(zip_filepath, 'r') as zip_ref:
                 zip_ref.extractall(EXTRACT_DIR)
+            print(f"✅ Ficheiro '{os.path.basename(zip_filepath)}' descompactado com sucesso.")
         except Exception as e:
             print(f"⚠️ Falha ao descompactar '{zip_filepath}': {e}")
     return EXTRACT_DIR
+def xml_to_dict(element):
+    """Função recursiva para converter um elemento XML num dicionário."""
+    # Se o elemento tem filhos, processa-os
+    if len(element) > 0:
+        d = {}
+        for child in element:
+            child_dict = xml_to_dict(child)
+            # Se a tag já existe, transforma num array
+            if child.tag in d:
+                if not isinstance(d[child.tag], list):
+                    d[child.tag] = [d[child.tag]]
+                d[child.tag].append(child_dict)
+            else:
+                d[child.tag] = child_dict
+        return d
+    # Se não tem filhos, retorna o texto do elemento
+    return element.text
 def serialize_item_to_text(item_dict):
+    """Converte um dicionário (de JSON, CSV ou XML) numa string de texto."""
     parts = []
+    if not isinstance(item_dict, dict):
+        return str(item_dict)
     for key, value in item_dict.items():
         if isinstance(value, dict):
             nested_text = serialize_item_to_text(value)
             parts.append(f"{key} ({nested_text})")
         elif isinstance(value, list):
+            list_str = ', '.join([serialize_item_to_text(i) for i in value])
             parts.append(f"{key}: [{list_str}]")
         else:
             parts.append(f"{key}: {value}")
 def main():
     """Função principal para carregar dados e gerar embeddings."""
     process_dir = setup_data()
+    csv.field_size_limit(100_000_000)
+    # Adiciona .xml à pesquisa de ficheiros
     all_files = glob.glob(process_dir + "/**/*.json", recursive=True) + \
+                glob.glob(process_dir + "/**/*.csv", recursive=True) + \
+                glob.glob(process_dir + "/**/*.xml", recursive=True)
+    print(f"\n🔎 Encontrados {len(all_files)} ficheiros (JSON, CSV, XML) para processar.")
     if not all_files:
+        print("⚠️ Nenhum ficheiro de dados encontrado. Verifique o conteúdo do seu repositório/zip.")
         return
     documents = []
     for filepath in all_files:
         try:
                 with open(filepath, 'r', encoding='utf-8') as f:
                     reader = csv.DictReader(f)
                     for row in reader: documents.append(serialize_item_to_text(row))
+            # --- LÓGICA PARA PROCESSAR XML ---
+            elif filepath.endswith('.xml'):
+                tree = ET.parse(filepath)
+                root = tree.getroot()
+                xml_dict = {root.tag: xml_to_dict(root)}
+                documents.append(serialize_item_to_text(xml_dict))
         except Exception as e:
+            print(f"⚠️ Erro ao processar o ficheiro {filepath}: {e}")
+    print(f"\nProcessamento de ficheiros concluído! {len(documents)} documentos foram criados.")
+    if not documents:
+        print("Nenhum documento foi lido com sucesso. Enc