Spaces:

lightita
/

seallm-khm-sum

Sleeping

lightita commited on 21 days ago

Commit

3628aa5

verified ·

1 Parent(s): 2096c4f

Update train_seallm_khm_sum.py

Files changed (1) hide show

train_seallm_khm_sum.py CHANGED Viewed

@@ -89,7 +89,6 @@ def load_model_and_tokenizer():
     return model, tokenizer
 def main():
     train_ds, eval_ds = load_khm_dataset()
     model, tokenizer = load_model_and_tokenizer()
@@ -102,6 +101,7 @@ def main():
         task_type="CAUSAL_LM",
     )
     sft_config = SFTConfig(
         output_dir="seallm-khm-sum-lora",
         num_train_epochs=2,
@@ -110,17 +110,16 @@ def main():
         gradient_accumulation_steps=8,
         learning_rate=2e-4,
         logging_steps=10,
-        eval_strategy="steps",
         eval_steps=200,
         save_steps=200,
         save_total_limit=2,
-        max_seq_length=1024,
         packing=True,
         lr_scheduler_type="cosine",
         warmup_ratio=0.03,
         bf16=True,
         gradient_checkpointing=True,
-        report_to="none",  # or "wandb" etc.
     )
     trainer = SFTTrainer(
@@ -131,6 +130,7 @@ def main():
         peft_config=lora_config,
         args=sft_config,
         dataset_text_field="text",
     )
     trainer.train()
@@ -139,7 +139,6 @@ def main():
     trainer.model.save_pretrained("seallm-khm-sum-lora")
     tokenizer.save_pretrained("seallm-khm-sum-lora")
-    # Optionally push directly to the Hub (needs HF_TOKEN env)
     repo_id = os.environ.get("OUTPUT_REPO_ID", "")
     if repo_id:
         trainer.model.push_to_hub(repo_id)

     return model, tokenizer
 def main():
     train_ds, eval_ds = load_khm_dataset()
     model, tokenizer = load_model_and_tokenizer()
         task_type="CAUSAL_LM",
     )
+    # NOTE: no max_seq_length here
     sft_config = SFTConfig(
         output_dir="seallm-khm-sum-lora",
         num_train_epochs=2,
         gradient_accumulation_steps=8,
         learning_rate=2e-4,
         logging_steps=10,
+        evaluation_strategy="steps",  # <- was eval_strategy
         eval_steps=200,
         save_steps=200,
         save_total_limit=2,
         packing=True,
         lr_scheduler_type="cosine",
         warmup_ratio=0.03,
         bf16=True,
         gradient_checkpointing=True,
+        report_to="none",  # or "wandb"
     )
     trainer = SFTTrainer(
         peft_config=lora_config,
         args=sft_config,
         dataset_text_field="text",
+        max_seq_length=1024,  # <- moved here
     )
     trainer.train()
     trainer.model.save_pretrained("seallm-khm-sum-lora")
     tokenizer.save_pretrained("seallm-khm-sum-lora")
     repo_id = os.environ.get("OUTPUT_REPO_ID", "")
     if repo_id:
         trainer.model.push_to_hub(repo_id)