Spaces:

beAnalytic
/

Training

Runtime error

App Files Files Community

amarorn commited on Dec 31, 2025

Commit

a6fbb35

1 Parent(s): d0ac8a6

fix: restaurar arquivos essenciais do Space (README, Dockerfile, app.py, requirements.txt)

Browse files

Files changed (5) hide show

.gitattributes +35 -0
Dockerfile +42 -0
README.md +73 -0
app.py +94 -0
requirements.txt +9 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,42 @@

+FROM huggingface/transformers-pytorch-gpu:latest
+WORKDIR /app
+# Instalar dependências do sistema
+# python-is-python3 cria automaticamente o symlink python -> python3
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    git \
+    python3 \
+    python3-pip \
+    python-is-python3 \
+    && rm -rf /var/lib/apt/lists/*
+# Verificar que python está disponível (entrypoint do NVIDIA precisa)
+RUN python --version && \
+    python3 --version && \
+    echo "✅ Python disponível: $(which python)"
+# Instalar dependências Python
+COPY requirements.txt .
+RUN python3 -m pip install --no-cache-dir --upgrade pip && \
+    python3 -m pip install --no-cache-dir -r requirements.txt
+# Copiar scripts de treinamento
+COPY train.py /app/train.py
+COPY app.py /app/app.py
+# Criar diretório de logs
+RUN mkdir -p /app/logs
+# Configurar variáveis de ambiente padrão (podem ser sobrescritas)
+ENV MODEL_NAME=microsoft/Phi-3-mini-4k-instruct
+ENV DATASET_REPO=beAnalytic/eda-training-dataset
+ENV OUTPUT_REPO=beAnalytic/eda-llm-model
+ENV OMP_NUM_THREADS=1
+ENV PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+# Executar treinamento
+# Usar 'python' (que será o symlink para python3 criado acima)
+# O entrypoint do NVIDIA espera 'python' estar disponível
+CMD ["python", "/app/app.py"]

README.md ADDED Viewed

	@@ -0,0 +1,73 @@

+---
+title: EDA Model Training
+emoji: 🤖
+colorFrom: blue
+colorTo: purple
+sdk: docker
+sdk_version: "latest"
+app_file: app.py
+pinned: false
+---
+# Treinamento do Modelo EDA
+Este Space contém o script de treinamento para o modelo de Análise Exploratória de Dados (EDA).
+## Configuração
+### Variáveis de Ambiente Obrigatórias
+**⚠️ IMPORTANTE**: Configure a variável de ambiente `HF_TOKEN` no Settings do Space para habilitar o push automático dos checkpoints para o Hub.
+### Variáveis de Ambiente
+Configure as seguintes variáveis de ambiente no Settings do Space:
+- **`HF_TOKEN`** (OBRIGATÓRIO): Seu token do HuggingFace com permissões de escrita
+  - Gere em: https://huggingface.co/settings/tokens
+  - Permissões necessárias: `write`
+  - Sem este token, o treinamento funcionará mas os checkpoints não serão enviados ao Hub
+- `MODEL_NAME`: Modelo base (padrão: `microsoft/Phi-3-mini-4k-instruct`)
+- `DATASET_REPO`: ID do dataset (padrão: `beAnalytic/eda-training-dataset`)
+- `OUTPUT_REPO`: ID do modelo de saída (padrão: `beAnalytic/eda-llm-model`)
+### Como Configurar HF_TOKEN no Space
+1. Acesse: https://huggingface.co/spaces/beAnalytic/Training/settings
+2. Vá para a seção **"Repository secrets"**
+3. Clique em **"New secret"**
+4. Nome: `HF_TOKEN`
+5. Valor: Cole seu token do HuggingFace
+6. Clique em **"Add secret"**
+**Nota**: O token será usado automaticamente pelo script durante o treinamento.
+### Execução
+O script `train.py` será executado automaticamente quando o Space for iniciado.
+## Estrutura
+- `train.py`: Script principal de treinamento
+- `training_config.json`: Configurações de treinamento
+- `requirements.txt`: Dependências Python
+## Monitoramento
+Acompanhe o progresso do treinamento através dos logs do Space na aba "Logs".
+### TensorBoard
+O TensorBoard está configurado e rodando na porta 6006 dentro do container. No HuggingFace Space com Docker SDK, apenas a porta 7860 é exposta publicamente, então o TensorBoard não é acessível diretamente via URL.
+**Para visualizar métricas**:
+- Durante o treinamento: Acompanhe os logs na aba "Logs"
+- Após o treinamento: Baixe os logs de `./results/` e execute `tensorboard --logdir=./results` localmente
+- Acesse: http://localhost:6006 (após baixar os logs)
+Para mais detalhes, consulte [ACESSAR_TENSORBOARD.md](../huggingface_training_config/docs/ACESSAR_TENSORBOARD.md).
+## Resultados
+O modelo treinado será salvo automaticamente no HuggingFace Hub no repositório especificado em `OUTPUT_REPO`.

app.py ADDED Viewed

	@@ -0,0 +1,94 @@

+#!/usr/bin/env python3
+"""
+App principal para execução no HuggingFace Space.
+Este arquivo executa o treinamento do modelo EDA e inicia o TensorBoard.
+"""
+import os
+import subprocess
+import sys
+import threading
+import time
+def start_tensorboard():
+    """
+    Inicia o TensorBoard em background, verificando se já está rodando.
+    """
+    # Os logs do TensorBoard são salvos no output_dir (./results) quando report_to=["tensorboard"]
+    # Criar diretório de resultados se não existir
+    results_dir = os.path.join(os.path.dirname(__file__), "results")
+    os.makedirs(results_dir, exist_ok=True)
+    # Verificar se TensorBoard já está rodando na porta 6006
+    import socket
+    port_in_use = False
+    try:
+        sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
+        result = sock.connect_ex(('0.0.0.0', 6006))
+        if result == 0:
+            port_in_use = True
+        sock.close()
+    except Exception:
+        pass
+    if port_in_use:
+        print("=" * 60)
+        print("⚠️ TensorBoard já está rodando na porta 6006")
+        print("=" * 60)
+        return
+    print("=" * 60)
+    print("Iniciando TensorBoard...")
+    print(f"Logdir: {results_dir}")
+    print("TensorBoard estará disponível na interface do HuggingFace Space")
+    print("=" * 60)
+    # Matar qualquer processo TensorBoard anterior (se houver)
+    os.system("pkill -f 'tensorboard.*6006' 2>/dev/null || true")
+    time.sleep(1)
+    # Iniciar TensorBoard em background
+    # IMPORTANTE: Os logs são salvos em ./results quando report_to=["tensorboard"]
+    # Porta 6006 é a porta padrão do TensorBoard
+    os.system("tensorboard --logdir=results --host=0.0.0.0 --port=6006 > /dev/null 2>&1 &")
+    # Aguardar um pouco para garantir que o TensorBoard iniciou
+    time.sleep(2)
+    print("✅ TensorBoard iniciado em background")
+def main():
+    """
+    Executa o script de treinamento.
+    """
+    # Iniciar TensorBoard em thread separada
+    tensorboard_thread = threading.Thread(target=start_tensorboard, daemon=True)
+    tensorboard_thread.start()
+    print("=" * 60)
+    print("Iniciando treinamento do modelo EDA")
+    print("=" * 60)
+    script_path = os.path.join(os.path.dirname(__file__), "train.py")
+    if not os.path.exists(script_path):
+        print(f"❌ Erro: Arquivo {script_path} não encontrado!")
+        sys.exit(1)
+    try:
+        result = subprocess.run(
+            [sys.executable, script_path],
+            check=True,
+            capture_output=False,
+        )
+        print("\n✅ Treinamento concluído com sucesso!")
+        return result.returncode
+    except subprocess.CalledProcessError as e:
+        print(f"\n❌ Erro durante o treinamento: {e}")
+        sys.exit(e.returncode)
+    except KeyboardInterrupt:
+        print("\n⚠️ Treinamento interrompido pelo usuário")
+        sys.exit(130)
+if __name__ == "__main__":
+    sys.exit(main())

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+torch>=2.0.0
+transformers>=4.45.0
+datasets>=2.14.0
+peft>=0.8.0
+accelerate>=0.27.0
+bitsandbytes>=0.41.0
+huggingface_hub>=0.20.0
+tensorboard>=2.15.0