Spaces:

beAnalytic
/

Training

Runtime error

amarorn commited on Dec 30, 2025

Commit

6889ee6

1 Parent(s): 212ba47

feat: adicionar logging de resultados de treinamento em logs/

- Criar diretório logs/ no Dockerfile
- Salvar resultados completos em JSON (logs/training_results_*.json)
- Gerar resumo legível em texto (logs/training_summary_*.txt)
- Incluir métricas finais, configuração, e histórico de logs
- Formato estruturado para fácil avaliação dos resultados

Files changed (2) hide show

Dockerfile +3 -0
train.py +125 -2

Dockerfile CHANGED Viewed

@@ -25,6 +25,9 @@ RUN python3 -m pip install --no-cache-dir --upgrade pip && \
 COPY train.py /app/train.py
 COPY app.py /app/app.py
 # Configurar variáveis de ambiente padrão (podem ser sobrescritas)
 ENV MODEL_NAME=microsoft/Phi-3-mini-4k-instruct
 ENV DATASET_REPO=beAnalytic/eda-training-dataset

 COPY train.py /app/train.py
 COPY app.py /app/app.py
+# Criar diretório de logs
+RUN mkdir -p /app/logs
 # Configurar variáveis de ambiente padrão (podem ser sobrescritas)
 ENV MODEL_NAME=microsoft/Phi-3-mini-4k-instruct
 ENV DATASET_REPO=beAnalytic/eda-training-dataset

train.py CHANGED Viewed

@@ -15,9 +15,11 @@ from transformers import (
 from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
 from transformers import BitsAndBytesConfig
 from huggingface_hub import login as hf_login, logout as hf_logout
-from huggingface_hub import login as hf_login
 import torch
 import os
 # Configuração (pode ser sobrescrita por variáveis de ambiente)
 MODEL_NAME = os.getenv("MODEL_NAME", "microsoft/Phi-3-mini-4k-instruct")
@@ -362,9 +364,130 @@ except Exception as e:
     else:
         raise
 # Treinar
 print("Iniciando treinamento...")
-trainer.train()
 # Fazer push final apenas se autenticado
 if push_to_hub_enabled:

 from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
 from transformers import BitsAndBytesConfig
 from huggingface_hub import login as hf_login, logout as hf_logout
 import torch
 import os
+import json
+from datetime import datetime
+from pathlib import Path
 # Configuração (pode ser sobrescrita por variáveis de ambiente)
 MODEL_NAME = os.getenv("MODEL_NAME", "microsoft/Phi-3-mini-4k-instruct")
     else:
         raise
+# Criar diretório de logs
+logs_dir = Path("./logs")
+logs_dir.mkdir(exist_ok=True)
 # Treinar
 print("Iniciando treinamento...")
+train_output = trainer.train()
+# Coletar métricas finais do estado do trainer
+state = trainer.state
+final_log_history = state.log_history if hasattr(state, 'log_history') and state.log_history else []
+# Tentar obter loss final de diferentes fontes
+final_train_loss = None
+if hasattr(train_output, 'training_loss'):
+    final_train_loss = train_output.training_loss
+elif final_log_history:
+    for log_entry in reversed(final_log_history):
+        if 'loss' in log_entry and 'eval_loss' not in log_entry:
+            final_train_loss = log_entry.get('loss')
+            break
+# Buscar últimas métricas de validação
+last_eval_metrics = {}
+if final_log_history:
+    for log_entry in reversed(final_log_history):
+        if 'eval_loss' in log_entry:
+            last_eval_metrics = {k: v for k, v in log_entry.items() if k.startswith('eval_')}
+            break
+# Coletar informações do treinamento
+training_info = {
+    "timestamp": datetime.utcnow().isoformat() + "Z",
+    "model_name": MODEL_NAME,
+    "dataset_repo": DATASET_REPO,
+    "output_repo": OUTPUT_REPO,
+    "training_config": {
+        "num_train_epochs": training_args.num_train_epochs,
+        "per_device_train_batch_size": training_args.per_device_train_batch_size,
+        "per_device_eval_batch_size": training_args.per_device_eval_batch_size,
+        "gradient_accumulation_steps": training_args.gradient_accumulation_steps,
+        "learning_rate": training_args.learning_rate,
+        "warmup_steps": training_args.warmup_steps,
+        "fp16": training_args.fp16,
+    },
+    "dataset_info": {
+        "train_samples": len(train_dataset),
+        "eval_samples": len(eval_dataset) if eval_dataset else 0,
+    },
+    "training_results": {
+        "final_train_loss": final_train_loss,
+        "final_eval_metrics": last_eval_metrics,
+        "total_steps": len(final_log_history) if final_log_history else 0,
+        "log_history": final_log_history[-50:],  # Últimas 50 entradas
+    },
+    "status": "completed",
+    "push_to_hub_enabled": push_to_hub_enabled,
+}
+# Salvar resultados em JSON
+results_file = logs_dir / f"training_results_{datetime.utcnow().strftime('%Y%m%d_%H%M%S')}.json"
+with open(results_file, 'w', encoding='utf-8') as f:
+    json.dump(training_info, f, indent=2, ensure_ascii=False)
+print(f"✅ Resultados salvos em: {results_file}")
+# Criar resumo em texto legível
+summary_file = logs_dir / f"training_summary_{datetime.utcnow().strftime('%Y%m%d_%H%M%S')}.txt"
+with open(summary_file, 'w', encoding='utf-8') as f:
+    f.write("=" * 80 + "\n")
+    f.write("RESUMO DO TREINAMENTO\n")
+    f.write("=" * 80 + "\n\n")
+    f.write(f"Data/Hora: {training_info['timestamp']}\n")
+    f.write(f"Modelo: {MODEL_NAME}\n")
+    f.write(f"Dataset: {DATASET_REPO}\n")
+    f.write(f"Output: {OUTPUT_REPO}\n\n")
+    f.write("CONFIGURAÇÃO DE TREINAMENTO:\n")
+    f.write("-" * 80 + "\n")
+    config = training_info['training_config']
+    f.write(f"Épocas: {config['num_train_epochs']}\n")
+    f.write(f"Batch Size (train): {config['per_device_train_batch_size']}\n")
+    f.write(f"Batch Size (eval): {config['per_device_eval_batch_size']}\n")
+    f.write(f"Gradient Accumulation Steps: {config['gradient_accumulation_steps']}\n")
+    f.write(f"Learning Rate: {config['learning_rate']}\n")
+    f.write(f"Warmup Steps: {config['warmup_steps']}\n")
+    f.write(f"FP16: {config['fp16']}\n\n")
+    f.write("DATASET:\n")
+    f.write("-" * 80 + "\n")
+    dataset_info = training_info['dataset_info']
+    f.write(f"Amostras de Treino: {dataset_info['train_samples']}\n")
+    f.write(f"Amostras de Validação: {dataset_info['eval_samples']}\n\n")
+    f.write("RESULTADOS:\n")
+    f.write("-" * 80 + "\n")
+    results = training_info['training_results']
+    if results['final_train_loss'] is not None:
+        f.write(f"Loss Final (Treino): {results['final_train_loss']:.6f}\n")
+    if results['final_eval_metrics']:
+        f.write("\nMétricas Finais de Validação:\n")
+        for key, value in results['final_eval_metrics'].items():
+            if isinstance(value, float):
+                f.write(f"  {key}: {value:.6f}\n")
+            else:
+                f.write(f"  {key}: {value}\n")
+    f.write(f"\nTotal de Steps: {results['total_steps']}\n")
+    f.write(f"Status: {training_info['status']}\n")
+    f.write(f"Push para Hub: {'Sim' if training_info['push_to_hub_enabled'] else 'Não'}\n")
+    if results['log_history']:
+        f.write("\n" + "=" * 80 + "\n")
+        f.write("ÚLTIMAS MÉTRICAS DO LOG:\n")
+        f.write("=" * 80 + "\n")
+        for i, log_entry in enumerate(results['log_history'][-10:], 1):
+            f.write(f"\nLog Entry {i}:\n")
+            for key, value in log_entry.items():
+                if isinstance(value, float):
+                    f.write(f"  {key}: {value:.6f}\n")
+                else:
+                    f.write(f"  {key}: {value}\n")
+print(f"✅ Resumo salvo em: {summary_file}")
 # Fazer push final apenas se autenticado
 if push_to_hub_enabled: