Spaces:

RayMelius
/

StockEx

Sleeping

RayMelius Claude Sonnet 4.6 commited on Mar 4

Commit

ebf88a6

1 Parent(s): e1870c9

Fix SFTConfig: move max_seq_length to tokenizer.model_max_length

Newer TRL removed max_seq_length from SFTConfig.__init__.
Set tokenizer.model_max_length = MAX_SEQ_LEN instead.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (1) hide show

notebooks/ch_trader_finetune.ipynb +2 -48

notebooks/ch_trader_finetune.ipynb CHANGED Viewed

@@ -285,13 +285,7 @@
    "id": "load-tokenizer",
    "metadata": {},
    "outputs": [],
-   "source": [
-    "print(f\"Loading tokenizer: {BASE_MODEL}\")\n",
-    "tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)\n",
-    "tokenizer.pad_token    = tokenizer.eos_token\n",
-    "tokenizer.padding_side = \"right\"\n",
-    "print(\"Tokenizer loaded\")"
-   ]
   },
   {
    "cell_type": "code",
@@ -404,47 +398,7 @@
    "id": "train",
    "metadata": {},
    "outputs": [],
-   "source": [
-    "sft_config = SFTConfig(\n",
-    "    output_dir=OUTPUT_DIR,\n",
-    "    num_train_epochs=NUM_EPOCHS,\n",
-    "    per_device_train_batch_size=BATCH_SIZE,\n",
-    "    per_device_eval_batch_size=BATCH_SIZE,\n",
-    "    gradient_accumulation_steps=GRAD_ACCUM,\n",
-    "    gradient_checkpointing=True,\n",
-    "    optim=\"paged_adamw_32bit\",\n",
-    "    learning_rate=LR,\n",
-    "    lr_scheduler_type=\"cosine\",\n",
-    "    warmup_ratio=0.05,\n",
-    "    max_seq_length=MAX_SEQ_LEN,\n",
-    "    fp16=not torch.cuda.is_bf16_supported(),\n",
-    "    bf16=torch.cuda.is_bf16_supported(),\n",
-    "    logging_steps=25,\n",
-    "    eval_strategy=\"steps\",\n",
-    "    eval_steps=100,\n",
-    "    save_strategy=\"steps\",\n",
-    "    save_steps=100,\n",
-    "    load_best_model_at_end=True,\n",
-    "    metric_for_best_model=\"eval_loss\",\n",
-    "    greater_is_better=False,\n",
-    "    report_to=\"none\",\n",
-    "    dataset_text_field=\"text\",\n",
-    "    packing=False,\n",
-    ")\n",
-    "\n",
-    "trainer = SFTTrainer(\n",
-    "    model=model,\n",
-    "    args=sft_config,\n",
-    "    train_dataset=train_dataset,\n",
-    "    eval_dataset=val_dataset,\n",
-    "    peft_config=lora_config,\n",
-    "    processing_class=tokenizer,\n",
-    ")\n",
-    "\n",
-    "print(\"Starting training...\")\n",
-    "trainer.train()\n",
-    "print(\"Training complete.\")"
-   ]
   },
   {
    "cell_type": "markdown",

    "id": "load-tokenizer",
    "metadata": {},
    "outputs": [],
+   "source": "print(f\"Loading tokenizer: {BASE_MODEL}\")\ntokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)\ntokenizer.pad_token        = tokenizer.eos_token\ntokenizer.padding_side     = \"right\"\ntokenizer.model_max_length = MAX_SEQ_LEN   # replaces max_seq_length in SFTConfig\nprint(\"Tokenizer loaded\")"
   },
   {
    "cell_type": "code",
    "id": "train",
    "metadata": {},
    "outputs": [],
+   "source": "sft_config = SFTConfig(\n    output_dir=OUTPUT_DIR,\n    num_train_epochs=NUM_EPOCHS,\n    per_device_train_batch_size=BATCH_SIZE,\n    per_device_eval_batch_size=BATCH_SIZE,\n    gradient_accumulation_steps=GRAD_ACCUM,\n    gradient_checkpointing=True,\n    optim=\"paged_adamw_32bit\",\n    learning_rate=LR,\n    lr_scheduler_type=\"cosine\",\n    warmup_ratio=0.05,\n    fp16=not torch.cuda.is_bf16_supported(),\n    bf16=torch.cuda.is_bf16_supported(),\n    logging_steps=25,\n    eval_strategy=\"steps\",\n    eval_steps=100,\n    save_strategy=\"steps\",\n    save_steps=100,\n    load_best_model_at_end=True,\n    metric_for_best_model=\"eval_loss\",\n    greater_is_better=False,\n    report_to=\"none\",\n    dataset_text_field=\"text\",\n    packing=False,\n)\n\ntrainer = SFTTrainer(\n    model=model,\n    args=sft_config,\n    train_dataset=train_dataset,\n    eval_dataset=val_dataset,\n    peft_config=lora_config,\n    processing_class=tokenizer,\n)\n\nprint(\"Starting training...\")\ntrainer.train()\nprint(\"Training complete.\")"
   },
   {
    "cell_type": "markdown",