Spaces:

pathii
/

trainSpace

Build error

App Files Files Community

hirushanirmal301 commited on Apr 28, 2025

Commit

2df1810

1 Parent(s): e51f92b

Add application file

Browse files

Files changed (3) hide show

Dockerfile +9 -0
requirements.txt +10 -0
train.py +59 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,9 @@

+FROM python:3.8-slim
+RUN pip install torch transformers datasets deepspeed vllm accelerate unsloth
+RUN pip install huggingface_hub
+WORKDIR /app
+COPY . /app
+CMD ["python", "train.py"]

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+fastapi
+uvicorn[standard]
+torch
+transformers
+datasets
+deepspeed
+vllm
+accelerate
+unsloth
+huggingface_hub

train.py ADDED Viewed

	@@ -0,0 +1,59 @@

+from unsloth import FastLanguageModel
+from transformers import TrainingArguments, Trainer
+# Load quantized model
+model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name="deepseek-ai/DeepSeek-V3-0324",
+    dtype=torch.bfloat16,
+    load_in_4bit=True,  # Or 2.71-bit
+    token=os.environ["HF_TOKEN"]
+)
+FastLanguageModel.for_training(model)
+# Training arguments
+training_args = TrainingArguments(
+    output_dir="/app/checkpoints",
+    per_device_train_batch_size=4,  # Adjust for A100 40GB/80GB
+    per_device_eval_batch_size=4,
+    num_train_epochs=2,
+    learning_rate=2e-5,
+    save_steps=500,
+    save_total_limit=2,
+    evaluation_strategy="steps",
+    eval_steps=500,
+    logging_dir="/app/logs",
+    logging_steps=100,
+    fp16=False,  # bfloat16 for A100
+    deepspeed="/app/ds_config.json"
+)
+# DeepSpeed config
+with open("/app/ds_config.json", "w") as f:
+    f.write('''
+    {
+        "fp16": {"enabled": false},
+        "bf16": {"enabled": true},
+        "zero_optimization": {
+            "stage": 3,
+            "offload_optimizer": {"device": "cpu"},
+            "offload_param": {"device": "cpu"}
+        },
+        "train_batch_size": "auto",
+        "gradient_accumulation_steps": 4
+    }
+    ''')
+# Initialize trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset["train"],
+    eval_dataset=tokenized_dataset["test"]
+)
+# Train
+trainer.train()
+# Save model
+model.save_pretrained("/app/fine_tuned_model")
+tokenizer.save_pretrained("/app/fine_tuned_model")