Spaces:

Pista1981
/

hivemind-gpu-worker

Sleeping

App Files Files Community

Pista1981 commited on Dec 28, 2025

Commit

62c1e68

verified ·

1 Parent(s): bb82736

🔧 v2: show_error=True, better error handling

Browse files

Files changed (1) hide show

app.py +88 -65

app.py CHANGED Viewed

@@ -1,84 +1,107 @@
 """
-🧬 HIVEMIND GPU WORKER
 Training LoRA adapters za Hivemind agente
 """
 import gradio as gr
 import os
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
 def train_agent(agent_name: str, skill: str, epochs: int = 2):
     """Trenira LoRA i uploaduje na HF"""
-    import torch
-    from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
-    from peft import LoraConfig, get_peft_model
-    from trl import SFTTrainer
-    from datasets import Dataset
-    from huggingface_hub import HfApi, login
-    from datetime import datetime
-    log = [f"🚀 Starting: {agent_name} - {skill}"]
-    if not HF_TOKEN:
-        return "❌ HF_TOKEN not set"
-    login(token=HF_TOKEN)
-    api = HfApi(token=HF_TOKEN)
-    task_id = f"{agent_name[:8].lower().replace(' ','')}-{datetime.now().strftime('%m%d%H%M%S')}"
-    # Load model (CPU friendly small model)
-    log.append("📦 Loading model...")
-    model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0", torch_dtype=torch.float32)
-    tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
-    tokenizer.pad_token = tokenizer.eos_token
-    # LoRA
-    log.append("🔧 Setting up LoRA...")
-    lora = LoraConfig(r=8, lora_alpha=16, target_modules=["q_proj","v_proj"], lora_dropout=0.05, bias="none", task_type="CAUSAL_LM")
-    model = get_peft_model(model, lora)
-    # Dataset
-    data = [
-        {"text": f"<|user|>\nWhat is {skill}?</s>\n<|assistant|>\n{skill} is fundamental.</s>"},
-        {"text": f"<|user|>\nExplain {skill}</s>\n<|assistant|>\n{skill} optimizes models.</s>"},
-        {"text": f"<|user|>\nHow to {skill}?</s>\n<|assistant|>\nApply proper techniques.</s>"},
-    ]
-    dataset = Dataset.from_list(data)
-    log.append(f"📊 Dataset: {len(dataset)} examples")
-    # Train (minimal for CPU)
-    log.append(f"🏋️ Training {epochs} epoch(s)...")
-    trainer = SFTTrainer(
-        model=model, train_dataset=dataset, dataset_text_field="text",
-        max_seq_length=128, tokenizer=tokenizer,
-        args=TrainingArguments(
-            output_dir="./out", num_train_epochs=epochs, per_device_train_batch_size=1,
-            learning_rate=2e-4, save_strategy="no", report_to="none", fp16=False
-        )
-    )
-    trainer.train()
-    log.append("✅ Training complete!")
-    # Save & Upload
-    model.save_pretrained("./lora")
-    tokenizer.save_pretrained("./lora")
-    repo_id = f"Pista1981/hivemind-{task_id}"
-    log.append(f"📤 Uploading to {repo_id}...")
     try:
         api.create_repo(repo_id=repo_id, exist_ok=True, private=False)
         api.upload_folder(folder_path="./lora", repo_id=repo_id, commit_message=f"🤖 {agent_name}: {skill}")
         log.append(f"✅ SUCCESS: https://huggingface.co/{repo_id}")
     except Exception as e:
-        log.append(f"❌ Upload error: {e}")
-    return "\n".join(log)
 with gr.Blocks(title="Hivemind GPU Worker") as demo:
-    gr.Markdown("# 🧬 Hivemind GPU Worker\nTraining LoRA adapters")
     with gr.Row():
         agent_input = gr.Textbox(label="Agent Name", value="TestAgent")
@@ -86,8 +109,8 @@ with gr.Blocks(title="Hivemind GPU Worker") as demo:
         epochs_input = gr.Slider(1, 3, value=1, step=1, label="Epochs")
     train_btn = gr.Button("🚀 Train", variant="primary")
-    output = gr.Textbox(label="Output", lines=12)
     train_btn.click(fn=train_agent, inputs=[agent_input, skill_input, epochs_input], outputs=output)
-demo.launch()

 """
+🧬 HIVEMIND GPU WORKER v2
 Training LoRA adapters za Hivemind agente
 """
 import gradio as gr
 import os
+import traceback
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
 def train_agent(agent_name: str, skill: str, epochs: int = 2):
     """Trenira LoRA i uploaduje na HF"""
     try:
+        import torch
+        from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
+        from peft import LoraConfig, get_peft_model
+        from trl import SFTTrainer
+        from datasets import Dataset
+        from huggingface_hub import HfApi, login
+        from datetime import datetime
+        log = [f"🚀 Starting: {agent_name} - {skill}"]
+        if not HF_TOKEN:
+            return "❌ HF_TOKEN not set in Space secrets! Go to Settings -> Repository secrets"
+        login(token=HF_TOKEN)
+        api = HfApi(token=HF_TOKEN)
+        task_id = f"{agent_name[:8].lower().replace(' ','')}-{datetime.now().strftime('%m%d%H%M%S')}"
+        # Load model (CPU friendly small model)
+        log.append("📦 Loading TinyLlama...")
+        model = AutoModelForCausalLM.from_pretrained(
+            "TinyLlama/TinyLlama-1.1B-Chat-v1.0",
+            torch_dtype=torch.float32,
+            low_cpu_mem_usage=True
+        )
+        tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+        tokenizer.pad_token = tokenizer.eos_token
+        # LoRA
+        log.append("🔧 Setting up LoRA r=8...")
+        lora = LoraConfig(
+            r=8, lora_alpha=16,
+            target_modules=["q_proj","v_proj"],
+            lora_dropout=0.05, bias="none",
+            task_type="CAUSAL_LM"
+        )
+        model = get_peft_model(model, lora)
+        trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
+        log.append(f"   Trainable params: {trainable:,}")
+        # Dataset
+        data = [
+            {"text": f"<|user|>\nWhat is {skill}?</s>\n<|assistant|>\n{skill} is a fundamental technique in machine learning and AI.</s>"},
+            {"text": f"<|user|>\nExplain {skill}</s>\n<|assistant|>\n{skill} helps optimize model performance and efficiency.</s>"},
+            {"text": f"<|user|>\nHow to implement {skill}?</s>\n<|assistant|>\nTo implement {skill}, apply proper techniques and best practices.</s>"},
+            {"text": f"<|user|>\nWhy is {skill} important?</s>\n<|assistant|>\n{skill} is crucial for building effective AI systems.</s>"},
+        ]
+        dataset = Dataset.from_list(data)
+        log.append(f"📊 Dataset: {len(dataset)} examples")
+        # Train (minimal for CPU)
+        log.append(f"����️ Training {epochs} epoch(s)...")
+        trainer = SFTTrainer(
+            model=model,
+            train_dataset=dataset,
+            dataset_text_field="text",
+            max_seq_length=128,
+            tokenizer=tokenizer,
+            args=TrainingArguments(
+                output_dir="./out",
+                num_train_epochs=epochs,
+                per_device_train_batch_size=1,
+                learning_rate=2e-4,
+                save_strategy="no",
+                report_to="none",
+                fp16=False,
+                logging_steps=1,
+            )
+        )
+        result = trainer.train()
+        log.append(f"✅ Training complete! Loss: {result.training_loss:.4f}")
+        # Save & Upload
+        model.save_pretrained("./lora")
+        tokenizer.save_pretrained("./lora")
+        repo_id = f"Pista1981/hivemind-hf-{task_id}"
+        log.append(f"📤 Uploading to {repo_id}...")
         api.create_repo(repo_id=repo_id, exist_ok=True, private=False)
         api.upload_folder(folder_path="./lora", repo_id=repo_id, commit_message=f"🤖 {agent_name}: {skill}")
         log.append(f"✅ SUCCESS: https://huggingface.co/{repo_id}")
+        return "\n".join(log)
     except Exception as e:
+        return f"❌ ERROR: {str(e)}\n\nTraceback:\n{traceback.format_exc()}"
 with gr.Blocks(title="Hivemind GPU Worker") as demo:
+    gr.Markdown("# 🧬 Hivemind GPU Worker v2\nTraining LoRA adapters for AI agents")
     with gr.Row():
         agent_input = gr.Textbox(label="Agent Name", value="TestAgent")
         epochs_input = gr.Slider(1, 3, value=1, step=1, label="Epochs")
     train_btn = gr.Button("🚀 Train", variant="primary")
+    output = gr.Textbox(label="Output", lines=15)
     train_btn.click(fn=train_agent, inputs=[agent_input, skill_input, epochs_input], outputs=output)
+demo.launch(show_error=True)