Spaces:

miyuki2026
/

OpenMiniMind

Sleeping

miyuki2026 commited on 20 days ago

Commit

51c46da

1 Parent(s): e26d074

update

Files changed (2) hide show

examples/tutorials/dpo/ultrafeedback-dpo/step_2_train_dpo_model_single_gpu.py CHANGED Viewed

@@ -120,13 +120,11 @@ def main():
         args.model_name,
         cache_dir=args.model_cache_dir,
         trust_remote_code=True,
-        dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
     )
     ref_model = AutoModelForCausalLM.from_pretrained(
         args.model_name,
         cache_dir=args.model_cache_dir,
         trust_remote_code=True,
-        dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
     )
     tokenizer = AutoTokenizer.from_pretrained(
         args.model_name,

         args.model_name,
         cache_dir=args.model_cache_dir,
         trust_remote_code=True,
     )
     ref_model = AutoModelForCausalLM.from_pretrained(
         args.model_name,
         cache_dir=args.model_cache_dir,
         trust_remote_code=True,
     )
     tokenizer = AutoTokenizer.from_pretrained(
         args.model_name,

examples/tutorials/rlhf/gpt2_sst2_ppo/step_3_generation.py CHANGED Viewed

@@ -33,7 +33,6 @@ def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--ppo_model_name",
-        # default=(project_path / "trained_models/gpt2-sst2-ppo-kl002"),
         default=(project_path / "trained_models/gpt2-sst2-ppo-kl005"),
         type=str
     )
@@ -76,9 +75,9 @@ def main():
     tokenized = tokenizer(
         # "this",
         # "this is ",
-        # "it's ",
         # "I am ",
-        "allow us ",
         # "movie ",
         # "this film ",
         return_tensors="pt"

     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--ppo_model_name",
         default=(project_path / "trained_models/gpt2-sst2-ppo-kl005"),
         type=str
     )
     tokenized = tokenizer(
         # "this",
         # "this is ",
+        "it's ",
         # "I am ",
+        # "allow us ",
         # "movie ",
         # "this film ",
         return_tensors="pt"