Spaces:

bird-of-paradise
/

ReTool-Implementation

Running

App Files Files Community

bird-of-paradise commited on Jun 8

Commit

f757722

verified ·

1 Parent(s): 9b6b77c

clean up default args

Browse files

Files changed (1) hide show

src/retool_trainer.py +12 -7

src/retool_trainer.py CHANGED Viewed

@@ -65,12 +65,18 @@ class ReToolTrainer(Trainer):  # Change this line
         # Store processing_class for compatibility
         self.processing_class = processing_class or self.tokenizer
         # Add reward function handling (since Trainer doesn't have this)
         self.reward_funcs = reward_funcs or [self._binary_reward_function]
-        # Rest of the ReTool-specific code stays exactly the same!
-        self.eos_id = eos_id or self.processing_class.eos_token_id
         # ReTool specific attributes
         self.eos_id = eos_id or self.processing_class.eos_token_id
@@ -99,16 +105,15 @@ class ReToolTrainer(Trainer):  # Change this line
             do_sample=True,
             pad_token_id=self.processing_class.pad_token_id,
             bos_token_id=self.processing_class.bos_token_id,
-            eos_token_id=[self.eos_id, self.code_id[1]],  # Stop on EOS or </code>
             temperature=self.temperature,
             top_p=self.top_p,
             top_k=self.top_k,
             min_p=self.min_p,
             return_dict_in_generate=True,
             use_cache=True,
         )
     def _get_interpreter_token_ids(self) -> list[int]:
         """Get token IDs for <interpreter> and </interpreter> tags."""
         start_token = self.processing_class.encode("<interpreter>", add_special_tokens=False)[0]

         # Store processing_class for compatibility
         self.processing_class = processing_class or self.tokenizer
+        # Processing class
+        if processing_class is None:
+            self.processing_class = AutoTokenizer.from_pretrained(model.config._name_or_path, padding_side="left")
+        else:
+            # Store processing_class for compatibility
+            self.processing_class = processing_class or self.tokenizer
+        if processing_class.pad_token is None:
+            self.processing_class.pad_token = processing_class.eos_token
         # Add reward function handling (since Trainer doesn't have this)
         self.reward_funcs = reward_funcs or [self._binary_reward_function]
         # ReTool specific attributes
         self.eos_id = eos_id or self.processing_class.eos_token_id
             do_sample=True,
             pad_token_id=self.processing_class.pad_token_id,
             bos_token_id=self.processing_class.bos_token_id,
+            eos_token_id=self.eos_id,  # default stop on EOS
             temperature=self.temperature,
             top_p=self.top_p,
             top_k=self.top_k,
             min_p=self.min_p,
             return_dict_in_generate=True,
             use_cache=True,
+            cache_implementation=args.cache_implementation, #args.cache_implementation = 'Offloaded Cache'
         )
     def _get_interpreter_token_ids(self) -> list[int]:
         """Get token IDs for <interpreter> and </interpreter> tags."""
         start_token = self.processing_class.encode("<interpreter>", add_special_tokens=False)[0]