acbueff
/

exp-infer-power

Model card Files Files and versions

xet

Community

acbueff commited on Mar 20

Commit

5c0be9f

verified ·

1 Parent(s): 1c2f6d2

Upload experiment exp_infer_power

Browse files

Files changed (1) hide show

training_summary.json +84 -0

training_summary.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "experiment": "EXP-INFER-POWER",
+  "total_iterations": 0,
+  "training_time_hours": 0.012344641420576308,
+  "eval_interval": 100,
+  "pending_evaluations": 2,
+  "eval_queue_file": "/proj/berzelius-aiics-real/users/x_anbue/frodi_data/exp_checkpoints/exp_infer_power/metrics/pending_eval_checkpoints.jsonl",
+  "power_sampling": {
+    "enabled": true,
+    "alpha": 4.0,
+    "block_size": 192,
+    "n_mcmc": 10,
+    "total_samples": 0
+  },
+  "best_model": {
+    "iteration": 0,
+    "training_reward": -Infinity,
+    "path": "/proj/berzelius-aiics-real/users/x_anbue/frodi_data/exp_checkpoints/exp_infer_power/best_model",
+    "note": "Best by training reward; run EuroEval for validation score"
+  },
+  "final_model": {
+    "path": "/proj/berzelius-aiics-real/users/x_anbue/frodi_data/exp_checkpoints/exp_infer_power/final_model"
+  },
+  "eval_history": [],
+  "config": {
+    "eval_interval": 100,
+    "rl_config": {
+      "output_dir": "/proj/berzelius-aiics-real/users/x_anbue/frodi_data/exp_checkpoints/exp_infer_power",
+      "iterations": 100,
+      "batch_size": 8,
+      "learning_rate": 5e-06,
+      "gradient_accumulation_steps": 4,
+      "max_length": 512,
+      "grpo_group_size": 4,
+      "ppo_epochs": 4,
+      "adap_kl_ctrl": true,
+      "init_kl_coef": 0.1,
+      "target": 0.1,
+      "horizon": 10000,
+      "kl_coef_min": 0.05,
+      "kl_coef_max": 0.5,
+      "advantage_clip": 3.0,
+      "advantage_epsilon": 1e-06,
+      "kl_decay": 0.95,
+      "kl_growth": 1.2,
+      "ref_update_interval": 1,
+      "reward_weights": {
+        "accuracy": 1.0,
+        "fluency": 0.0,
+        "reconstruction": 0.0,
+        "novelty": 0.0,
+        "grammar": 0.0,
+        "grammar_enabled": false
+      },
+      "adaptive_weights": true,
+      "weight_update_interval": 100,
+      "kl_penalty_coef": 0.08,
+      "kl_penalty_warmup_steps": 500,
+      "max_kl_divergence": 5.0,
+      "entropy_penalty_weight": 0.01,
+      "min_response_tokens": 10,
+      "qa_min_response_tokens": 3,
+      "qa_short_response_advantage_margin": -0.5,
+      "skip_reference_kl": false,
+      "pretraining_weight": 0.3,
+      "pretraining_samples_per_batch": 2,
+      "reward_clip_min": -1.0,
+      "reward_clip_max": 1.0,
+      "reward_norm_momentum": 0.1,
+      "reward_downscale": 0.5,
+      "generation": {
+        "max_new_tokens": 256,
+        "min_new_tokens": 5,
+        "temperature": 0.7,
+        "top_p": 0.9,
+        "top_k": 50,
+        "do_sample": true,
+        "repetition_penalty": 1.1
+      }
+    }
+  },
+  "post_training_eval_required": true,
+  "storage_note": "Only best_model and final_model saved (storage-efficient)"
+}