td-builder
/

td-toolkit

Safetensors

Model card Files Files and versions

xet

Community

td-builder commited on Feb 26

Commit

d30aa8a

verified ·

1 Parent(s): c524109

Upload 137 files

Browse files

Files changed (2) hide show

hugging/td_fuse/validate.py +1 -1
hugging/td_lang/compiler.py +10 -10

hugging/td_fuse/validate.py CHANGED Viewed

@@ -64,7 +64,7 @@ def validate_merged_model(
     results["canary"] = {
         "passed": passed_canaries,
         "total": total_canaries,
-        "ok": passed_canaries >= cfg.canary_pass_threshold,
         "details": canary_results,
     }

     results["canary"] = {
         "passed": passed_canaries,
         "total": total_canaries,
+        "ok": passed_canaries >= min(cfg.canary_pass_threshold, total_canaries),
         "details": canary_results,
     }

hugging/td_lang/compiler.py CHANGED Viewed

@@ -1411,7 +1411,7 @@ DO NOT EDIT - regenerate from the .td file instead.
             self._emit("args=grpo_config,")
             self._emit("train_dataset=train_data,")
             self._emit("reward_funcs=reward_fn,")
-            self._emit("tokenizer=tok,")
             self._emit("callbacks=[EarlyStopper()],")
             self._indent -= 1
             self._emit(")")
@@ -1477,7 +1477,7 @@ DO NOT EDIT - regenerate from the .td file instead.
                 self._emit("trainer = SFTTrainer(")
                 self._indent += 1
                 self._emit("model=model,")
-                self._emit("tokenizer=tok,")
                 self._emit("args=training_args,")
                 self._emit("train_dataset=train_data,")
                 self._emit('dataset_text_field="text",')
@@ -1504,7 +1504,7 @@ DO NOT EDIT - regenerate from the .td file instead.
                 self._emit("ref_model=None,")
                 self._emit("beta=0.1,")
                 self._emit("train_dataset=train_data,")
-                self._emit("tokenizer=tok,")
                 self._emit("args=training_args,")
                 self._emit('loss_type="sigmoid",')
                 self._indent -= 1
@@ -3727,7 +3727,7 @@ DO NOT EDIT - regenerate from the .td file instead.
         self._emit("gradient_checkpointing=True,")
         self._indent -= 1
         self._emit(")")
-        self._emit("trainer = SFTTrainer(model=model, train_dataset=level_data, args=training_args, tokenizer=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(level_out)")
         self._emit("checkpoint = level_out  # next level starts from this")
@@ -3879,7 +3879,7 @@ DO NOT EDIT - regenerate from the .td file instead.
         self._emit("training_args = TrainingArguments(output_dir=star_out, max_steps=32,")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=8, bf16=True, gradient_checkpointing=True)")
-        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, tokenizer=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(star_out)")
         self._emit("checkpoint = star_out")
@@ -4033,7 +4033,7 @@ DO NOT EDIT - regenerate from the .td file instead.
         self._emit(f"training_args = TrainingArguments(output_dir=bon_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=8, bf16=True, gradient_checkpointing=True)")
-        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, tokenizer=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(bon_out)")
         self._emit(f'models["{cmd.target}"]["checkpoint"] = bon_out')
@@ -4216,7 +4216,7 @@ DO NOT EDIT - regenerate from the .td file instead.
         self._emit(f"training_args = TrainingArguments(output_dir=exploit_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=8, bf16=True, gradient_checkpointing=True)")
-        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, tokenizer=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(exploit_out)")
         self._emit(f'models["{cmd.target}"]["checkpoint"] = exploit_out')
@@ -4555,7 +4555,7 @@ DO NOT EDIT - regenerate from the .td file instead.
         self._emit(f"training_args = TrainingArguments(output_dir=arena_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=16, bf16=True, gradient_checkpointing=True)")
-        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, tokenizer=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(arena_out)")
         self._emit("checkpoint = arena_out  # next round uses improved model")
@@ -5126,7 +5126,7 @@ DO NOT EDIT - regenerate from the .td file instead.
         self._emit(f"training_args = TrainingArguments(output_dir=ra_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=16, bf16=True, gradient_checkpointing=True)")
-        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, tokenizer=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(ra_out)")
         self._emit("checkpoint = ra_out")
@@ -5399,7 +5399,7 @@ DO NOT EDIT - regenerate from the .td file instead.
         self._emit("model=student_model,")
         self._emit("train_dataset=ds,")
         self._emit("args=training_args,")
-        self._emit("tokenizer=student_tok,")
         self._indent -= 1
         self._emit(")")
         self._emit('print(f"[td_lang] Training student for {training_args.max_steps} steps...")')

             self._emit("args=grpo_config,")
             self._emit("train_dataset=train_data,")
             self._emit("reward_funcs=reward_fn,")
+            self._emit("processing_class=tok,")
             self._emit("callbacks=[EarlyStopper()],")
             self._indent -= 1
             self._emit(")")
                 self._emit("trainer = SFTTrainer(")
                 self._indent += 1
                 self._emit("model=model,")
+                self._emit("processing_class=tok,")
                 self._emit("args=training_args,")
                 self._emit("train_dataset=train_data,")
                 self._emit('dataset_text_field="text",')
                 self._emit("ref_model=None,")
                 self._emit("beta=0.1,")
                 self._emit("train_dataset=train_data,")
+                self._emit("processing_class=tok,")
                 self._emit("args=training_args,")
                 self._emit('loss_type="sigmoid",')
                 self._indent -= 1
         self._emit("gradient_checkpointing=True,")
         self._indent -= 1
         self._emit(")")
+        self._emit("trainer = SFTTrainer(model=model, train_dataset=level_data, args=training_args, processing_class=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(level_out)")
         self._emit("checkpoint = level_out  # next level starts from this")
         self._emit("training_args = TrainingArguments(output_dir=star_out, max_steps=32,")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=8, bf16=True, gradient_checkpointing=True)")
+        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, processing_class=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(star_out)")
         self._emit("checkpoint = star_out")
         self._emit(f"training_args = TrainingArguments(output_dir=bon_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=8, bf16=True, gradient_checkpointing=True)")
+        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, processing_class=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(bon_out)")
         self._emit(f'models["{cmd.target}"]["checkpoint"] = bon_out')
         self._emit(f"training_args = TrainingArguments(output_dir=exploit_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=8, bf16=True, gradient_checkpointing=True)")
+        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, processing_class=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(exploit_out)")
         self._emit(f'models["{cmd.target}"]["checkpoint"] = exploit_out')
         self._emit(f"training_args = TrainingArguments(output_dir=arena_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=16, bf16=True, gradient_checkpointing=True)")
+        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, processing_class=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(arena_out)")
         self._emit("checkpoint = arena_out  # next round uses improved model")
         self._emit(f"training_args = TrainingArguments(output_dir=ra_out, max_steps={cmd.steps},")
         self._emit("    per_device_train_batch_size=1, gradient_accumulation_steps=4,")
         self._emit("    learning_rate=5e-5, logging_steps=16, bf16=True, gradient_checkpointing=True)")
+        self._emit("trainer = SFTTrainer(model=model, train_dataset=ds, args=training_args, processing_class=tok)")
         self._emit("trainer.train()")
         self._emit("trainer.save_model(ra_out)")
         self._emit("checkpoint = ra_out")
         self._emit("model=student_model,")
         self._emit("train_dataset=ds,")
         self._emit("args=training_args,")
+        self._emit("processing_class=student_tok,")
         self._indent -= 1
         self._emit(")")
         self._emit('print(f"[td_lang] Training student for {training_args.max_steps} steps...")')