attn-signs
/

Zariman-R-7b-v1

Text Generation

text-generation-inference

Model card Files Files and versions

attn-signs commited on Mar 26, 2025

Commit

efa36ac

·

verified ·

1 Parent(s): bea32b1

Update README.md

Files changed (1) hide show

README.md +5 -0

README.md CHANGED Viewed

@@ -57,6 +57,7 @@ problem_field = "question"
 solution_field = "answer"
 dataloader_num_workers = 2
 test_size = 0.1
 [run]
 run_name = "rl-zariman-7"
@@ -82,6 +83,10 @@ use_peft = true
 # vllm_gpu_memory_utilization = 0.25
 num_generations = 4
 max_completion_length = 1024
 [lora]
 lora_target_modules = [

 solution_field = "answer"
 dataloader_num_workers = 2
 test_size = 0.1
+extract_hash = true
 [run]
 run_name = "rl-zariman-7"
 # vllm_gpu_memory_utilization = 0.25
 num_generations = 4
 max_completion_length = 1024
+num_iterations = 4          # https://github.com/huggingface/trl/releases/tag/v0.16.0
+scale_rewards = false
+beta = 0.0                  # do not load reference model, do not minimize KL-div. Great memory saving opportunity.
+epsilon_high = 0.28         # Increasing upper bound epsilon leads to higher entropy during generation, promoting better exploration
 [lora]
 lora_target_modules = [