broadfield-dev commited on Sep 18, 2025

Commit

07aa2fb

verified ·

0 Parent(s):

Duplicate from broadfield-dev/savant_2_gsm8k_final

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +35 -0
checkpoints/stable-run-rlaif_init-step-500/config.json +45 -0
checkpoints/stable-run-rlaif_init-step-500/generation_config.json +6 -0
checkpoints/stable-run-rlaif_init-step-500/hyperparameters.json +17 -0
checkpoints/stable-run-rlaif_init-step-500/merges.txt +0 -0
checkpoints/stable-run-rlaif_init-step-500/model.safetensors +3 -0
checkpoints/stable-run-rlaif_init-step-500/savant_kb_documents.json +0 -0
checkpoints/stable-run-rlaif_init-step-500/savant_knowledge_base.bin +3 -0
checkpoints/stable-run-rlaif_init-step-500/special_tokens_map.json +6 -0
checkpoints/stable-run-rlaif_init-step-500/tokenizer.json +0 -0
checkpoints/stable-run-rlaif_init-step-500/tokenizer_config.json +21 -0
checkpoints/stable-run-rlaif_init-step-500/training_state.json +0 -0
checkpoints/stable-run-rlaif_init-step-500/vocab.json +0 -0
checkpoints/stable-run-sft-step-100/config.json +45 -0
checkpoints/stable-run-sft-step-100/generation_config.json +6 -0
checkpoints/stable-run-sft-step-100/hyperparameters.json +17 -0
checkpoints/stable-run-sft-step-100/merges.txt +0 -0
checkpoints/stable-run-sft-step-100/model.safetensors +3 -0
checkpoints/stable-run-sft-step-100/optimizer.pt +3 -0
checkpoints/stable-run-sft-step-100/scheduler.pt +3 -0
checkpoints/stable-run-sft-step-100/special_tokens_map.json +6 -0
checkpoints/stable-run-sft-step-100/tokenizer.json +0 -0
checkpoints/stable-run-sft-step-100/tokenizer_config.json +21 -0
checkpoints/stable-run-sft-step-100/training_state.json +1007 -0
checkpoints/stable-run-sft-step-100/vocab.json +0 -0
checkpoints/stable-run-sft-step-120/config.json +45 -0
checkpoints/stable-run-sft-step-120/generation_config.json +6 -0
checkpoints/stable-run-sft-step-120/hyperparameters.json +17 -0
checkpoints/stable-run-sft-step-120/merges.txt +0 -0
checkpoints/stable-run-sft-step-120/model.safetensors +3 -0
checkpoints/stable-run-sft-step-120/optimizer.pt +3 -0
checkpoints/stable-run-sft-step-120/scheduler.pt +3 -0
checkpoints/stable-run-sft-step-120/special_tokens_map.json +6 -0
checkpoints/stable-run-sft-step-120/tokenizer.json +0 -0
checkpoints/stable-run-sft-step-120/tokenizer_config.json +21 -0
checkpoints/stable-run-sft-step-120/training_state.json +1207 -0
checkpoints/stable-run-sft-step-120/vocab.json +0 -0
checkpoints/stable-run-sft-step-140/config.json +45 -0
checkpoints/stable-run-sft-step-140/generation_config.json +6 -0
checkpoints/stable-run-sft-step-140/hyperparameters.json +17 -0
checkpoints/stable-run-sft-step-140/merges.txt +0 -0
checkpoints/stable-run-sft-step-140/model.safetensors +3 -0
checkpoints/stable-run-sft-step-140/optimizer.pt +3 -0
checkpoints/stable-run-sft-step-140/scheduler.pt +3 -0
checkpoints/stable-run-sft-step-140/special_tokens_map.json +6 -0
checkpoints/stable-run-sft-step-140/tokenizer.json +0 -0
checkpoints/stable-run-sft-step-140/tokenizer_config.json +21 -0
checkpoints/stable-run-sft-step-140/training_state.json +1407 -0
checkpoints/stable-run-sft-step-140/vocab.json +0 -0
checkpoints/stable-run-sft-step-160/config.json +45 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

checkpoints/stable-run-rlaif_init-step-500/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoints/stable-run-rlaif_init-step-500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.56.1"
+}

checkpoints/stable-run-rlaif_init-step-500/hyperparameters.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "repo_id": "broadfield-dev/savant_2_gsm8k_final",
+    "resume_from_benchmark": "",
+    "benchmark_name_prefix": "stable-run",
+    "benchmark_interval": 20,
+    "sft_epochs": 4,
+    "sft_lr": 2e-05,
+    "sft_warmup_proportion": 0.1,
+    "rl_lr": 1.5e-06,
+    "sft_slice": "0:2000",
+    "rl_slice": "4000:7473",
+    "context_length": 1024,
+    "base_model_name": "distilgpt2",
+    "use_scheduler": true,
+    "sft_batch_size": 1,
+    "grad_accum_steps": 16
+}

checkpoints/stable-run-rlaif_init-step-500/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-rlaif_init-step-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f18b64924efaab526c4620c13564474829bb2faa4648185eb281432cdca6c10c
+size 327657928

checkpoints/stable-run-rlaif_init-step-500/savant_kb_documents.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-rlaif_init-step-500/savant_knowledge_base.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9231781e053874cf9bcd08033a52c0d4f465c6f3a3bd0f9cdf65a92a46d1d1f6
+size 11478573

checkpoints/stable-run-rlaif_init-step-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-rlaif_init-step-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-rlaif_init-step-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-rlaif_init-step-500/training_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-rlaif_init-step-500/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-100/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoints/stable-run-sft-step-100/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.56.1"
+}

checkpoints/stable-run-sft-step-100/hyperparameters.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "repo_id": "broadfield-dev/savant_2_gsm8k_final",
+    "resume_from_benchmark": "",
+    "benchmark_name_prefix": "stable-run",
+    "benchmark_interval": 20,
+    "sft_epochs": 4,
+    "sft_lr": 2e-05,
+    "sft_warmup_proportion": 0.1,
+    "rl_lr": 1.5e-06,
+    "sft_slice": "0:2000",
+    "rl_slice": "4000:7473",
+    "context_length": 1024,
+    "base_model_name": "distilgpt2",
+    "use_scheduler": true,
+    "sft_batch_size": 1,
+    "grad_accum_steps": 16
+}

checkpoints/stable-run-sft-step-100/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-100/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cd5ff10a5598fa8851069746590cb2d6b648e3782c2874709b5c5336693430b
+size 327657928

checkpoints/stable-run-sft-step-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7362fb0838e639c3c94970d495c8b1532bdecbd66c118c69beaa2a90130b6ee1
+size 655362635

checkpoints/stable-run-sft-step-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6661d24316a6877d1b37b57cdb523567d557a15196cd385aec9d4dd8d06de384
+size 1401

checkpoints/stable-run-sft-step-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-sft-step-100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-sft-step-100/training_state.json ADDED Viewed

	@@ -0,0 +1,1007 @@

+{
+    "phase": "SFT",
+    "total_optimizer_steps": 100,
+    "metrics": [
+        {
+            "Step": 1,
+            "Metric": "SFT Loss",
+            "Value": 10.806696891784668
+        },
+        {
+            "Step": 1,
+            "Metric": "Learning Rate",
+            "Value": 4.0000000000000003e-07
+        },
+        {
+            "Step": 2,
+            "Metric": "SFT Loss",
+            "Value": 20.197086334228516
+        },
+        {
+            "Step": 2,
+            "Metric": "Learning Rate",
+            "Value": 8.000000000000001e-07
+        },
+        {
+            "Step": 3,
+            "Metric": "SFT Loss",
+            "Value": 13.669203758239746
+        },
+        {
+            "Step": 3,
+            "Metric": "Learning Rate",
+            "Value": 1.2000000000000002e-06
+        },
+        {
+            "Step": 4,
+            "Metric": "SFT Loss",
+            "Value": 19.52617835998535
+        },
+        {
+            "Step": 4,
+            "Metric": "Learning Rate",
+            "Value": 1.6000000000000001e-06
+        },
+        {
+            "Step": 5,
+            "Metric": "SFT Loss",
+            "Value": 14.46614933013916
+        },
+        {
+            "Step": 5,
+            "Metric": "Learning Rate",
+            "Value": 2.0000000000000003e-06
+        },
+        {
+            "Step": 6,
+            "Metric": "SFT Loss",
+            "Value": 11.709370613098145
+        },
+        {
+            "Step": 6,
+            "Metric": "Learning Rate",
+            "Value": 2.4000000000000003e-06
+        },
+        {
+            "Step": 7,
+            "Metric": "SFT Loss",
+            "Value": 14.79263687133789
+        },
+        {
+            "Step": 7,
+            "Metric": "Learning Rate",
+            "Value": 2.8000000000000003e-06
+        },
+        {
+            "Step": 8,
+            "Metric": "SFT Loss",
+            "Value": 16.564573287963867
+        },
+        {
+            "Step": 8,
+            "Metric": "Learning Rate",
+            "Value": 3.2000000000000003e-06
+        },
+        {
+            "Step": 9,
+            "Metric": "SFT Loss",
+            "Value": 16.437776565551758
+        },
+        {
+            "Step": 9,
+            "Metric": "Learning Rate",
+            "Value": 3.6000000000000003e-06
+        },
+        {
+            "Step": 10,
+            "Metric": "SFT Loss",
+            "Value": 14.215919494628906
+        },
+        {
+            "Step": 10,
+            "Metric": "Learning Rate",
+            "Value": 4.000000000000001e-06
+        },
+        {
+            "Step": 11,
+            "Metric": "SFT Loss",
+            "Value": 13.728559494018555
+        },
+        {
+            "Step": 11,
+            "Metric": "Learning Rate",
+            "Value": 4.4e-06
+        },
+        {
+            "Step": 12,
+            "Metric": "SFT Loss",
+            "Value": 17.120494842529297
+        },
+        {
+            "Step": 12,
+            "Metric": "Learning Rate",
+            "Value": 4.800000000000001e-06
+        },
+        {
+            "Step": 13,
+            "Metric": "SFT Loss",
+            "Value": 12.443873405456543
+        },
+        {
+            "Step": 13,
+            "Metric": "Learning Rate",
+            "Value": 5.2e-06
+        },
+        {
+            "Step": 14,
+            "Metric": "SFT Loss",
+            "Value": 10.322935104370117
+        },
+        {
+            "Step": 14,
+            "Metric": "Learning Rate",
+            "Value": 5.600000000000001e-06
+        },
+        {
+            "Step": 15,
+            "Metric": "SFT Loss",
+            "Value": 10.010440826416016
+        },
+        {
+            "Step": 15,
+            "Metric": "Learning Rate",
+            "Value": 6e-06
+        },
+        {
+            "Step": 16,
+            "Metric": "SFT Loss",
+            "Value": 9.959354400634766
+        },
+        {
+            "Step": 16,
+            "Metric": "Learning Rate",
+            "Value": 6.4000000000000006e-06
+        },
+        {
+            "Step": 17,
+            "Metric": "SFT Loss",
+            "Value": 9.42132568359375
+        },
+        {
+            "Step": 17,
+            "Metric": "Learning Rate",
+            "Value": 6.800000000000001e-06
+        },
+        {
+            "Step": 18,
+            "Metric": "SFT Loss",
+            "Value": 10.809995651245117
+        },
+        {
+            "Step": 18,
+            "Metric": "Learning Rate",
+            "Value": 7.2000000000000005e-06
+        },
+        {
+            "Step": 19,
+            "Metric": "SFT Loss",
+            "Value": 11.641499519348145
+        },
+        {
+            "Step": 19,
+            "Metric": "Learning Rate",
+            "Value": 7.600000000000001e-06
+        },
+        {
+            "Step": 20,
+            "Metric": "SFT Loss",
+            "Value": 8.137388229370117
+        },
+        {
+            "Step": 20,
+            "Metric": "Learning Rate",
+            "Value": 8.000000000000001e-06
+        },
+        {
+            "Step": 21,
+            "Metric": "SFT Loss",
+            "Value": 11.187762260437012
+        },
+        {
+            "Step": 21,
+            "Metric": "Learning Rate",
+            "Value": 8.400000000000001e-06
+        },
+        {
+            "Step": 22,
+            "Metric": "SFT Loss",
+            "Value": 6.696204662322998
+        },
+        {
+            "Step": 22,
+            "Metric": "Learning Rate",
+            "Value": 8.8e-06
+        },
+        {
+            "Step": 23,
+            "Metric": "SFT Loss",
+            "Value": 9.350967407226562
+        },
+        {
+            "Step": 23,
+            "Metric": "Learning Rate",
+            "Value": 9.200000000000002e-06
+        },
+        {
+            "Step": 24,
+            "Metric": "SFT Loss",
+            "Value": 7.601217269897461
+        },
+        {
+            "Step": 24,
+            "Metric": "Learning Rate",
+            "Value": 9.600000000000001e-06
+        },
+        {
+            "Step": 25,
+            "Metric": "SFT Loss",
+            "Value": 7.671919345855713
+        },
+        {
+            "Step": 25,
+            "Metric": "Learning Rate",
+            "Value": 1e-05
+        },
+        {
+            "Step": 26,
+            "Metric": "SFT Loss",
+            "Value": 5.797372341156006
+        },
+        {
+            "Step": 26,
+            "Metric": "Learning Rate",
+            "Value": 1.04e-05
+        },
+        {
+            "Step": 27,
+            "Metric": "SFT Loss",
+            "Value": 7.414616107940674
+        },
+        {
+            "Step": 27,
+            "Metric": "Learning Rate",
+            "Value": 1.0800000000000002e-05
+        },
+        {
+            "Step": 28,
+            "Metric": "SFT Loss",
+            "Value": 7.067437171936035
+        },
+        {
+            "Step": 28,
+            "Metric": "Learning Rate",
+            "Value": 1.1200000000000001e-05
+        },
+        {
+            "Step": 29,
+            "Metric": "SFT Loss",
+            "Value": 6.7167463302612305
+        },
+        {
+            "Step": 29,
+            "Metric": "Learning Rate",
+            "Value": 1.16e-05
+        },
+        {
+            "Step": 30,
+            "Metric": "SFT Loss",
+            "Value": 6.630039691925049
+        },
+        {
+            "Step": 30,
+            "Metric": "Learning Rate",
+            "Value": 1.2e-05
+        },
+        {
+            "Step": 31,
+            "Metric": "SFT Loss",
+            "Value": 6.276569366455078
+        },
+        {
+            "Step": 31,
+            "Metric": "Learning Rate",
+            "Value": 1.2400000000000002e-05
+        },
+        {
+            "Step": 32,
+            "Metric": "SFT Loss",
+            "Value": 7.236689567565918
+        },
+        {
+            "Step": 32,
+            "Metric": "Learning Rate",
+            "Value": 1.2800000000000001e-05
+        },
+        {
+            "Step": 33,
+            "Metric": "SFT Loss",
+            "Value": 6.829200267791748
+        },
+        {
+            "Step": 33,
+            "Metric": "Learning Rate",
+            "Value": 1.3200000000000002e-05
+        },
+        {
+            "Step": 34,
+            "Metric": "SFT Loss",
+            "Value": 6.348658561706543
+        },
+        {
+            "Step": 34,
+            "Metric": "Learning Rate",
+            "Value": 1.3600000000000002e-05
+        },
+        {
+            "Step": 35,
+            "Metric": "SFT Loss",
+            "Value": 6.114589691162109
+        },
+        {
+            "Step": 35,
+            "Metric": "Learning Rate",
+            "Value": 1.4e-05
+        },
+        {
+            "Step": 36,
+            "Metric": "SFT Loss",
+            "Value": 5.820864677429199
+        },
+        {
+            "Step": 36,
+            "Metric": "Learning Rate",
+            "Value": 1.4400000000000001e-05
+        },
+        {
+            "Step": 37,
+            "Metric": "SFT Loss",
+            "Value": 6.093341827392578
+        },
+        {
+            "Step": 37,
+            "Metric": "Learning Rate",
+            "Value": 1.48e-05
+        },
+        {
+            "Step": 38,
+            "Metric": "SFT Loss",
+            "Value": 6.195661544799805
+        },
+        {
+            "Step": 38,
+            "Metric": "Learning Rate",
+            "Value": 1.5200000000000002e-05
+        },
+        {
+            "Step": 39,
+            "Metric": "SFT Loss",
+            "Value": 7.604869365692139
+        },
+        {
+            "Step": 39,
+            "Metric": "Learning Rate",
+            "Value": 1.5600000000000003e-05
+        },
+        {
+            "Step": 40,
+            "Metric": "SFT Loss",
+            "Value": 5.295370101928711
+        },
+        {
+            "Step": 40,
+            "Metric": "Learning Rate",
+            "Value": 1.6000000000000003e-05
+        },
+        {
+            "Step": 41,
+            "Metric": "SFT Loss",
+            "Value": 6.263326644897461
+        },
+        {
+            "Step": 41,
+            "Metric": "Learning Rate",
+            "Value": 1.64e-05
+        },
+        {
+            "Step": 42,
+            "Metric": "SFT Loss",
+            "Value": 6.123704433441162
+        },
+        {
+            "Step": 42,
+            "Metric": "Learning Rate",
+            "Value": 1.6800000000000002e-05
+        },
+        {
+            "Step": 43,
+            "Metric": "SFT Loss",
+            "Value": 6.104567050933838
+        },
+        {
+            "Step": 43,
+            "Metric": "Learning Rate",
+            "Value": 1.72e-05
+        },
+        {
+            "Step": 44,
+            "Metric": "SFT Loss",
+            "Value": 6.757107257843018
+        },
+        {
+            "Step": 44,
+            "Metric": "Learning Rate",
+            "Value": 1.76e-05
+        },
+        {
+            "Step": 45,
+            "Metric": "SFT Loss",
+            "Value": 6.533822059631348
+        },
+        {
+            "Step": 45,
+            "Metric": "Learning Rate",
+            "Value": 1.8e-05
+        },
+        {
+            "Step": 46,
+            "Metric": "SFT Loss",
+            "Value": 6.507102012634277
+        },
+        {
+            "Step": 46,
+            "Metric": "Learning Rate",
+            "Value": 1.8400000000000003e-05
+        },
+        {
+            "Step": 47,
+            "Metric": "SFT Loss",
+            "Value": 6.377279758453369
+        },
+        {
+            "Step": 47,
+            "Metric": "Learning Rate",
+            "Value": 1.88e-05
+        },
+        {
+            "Step": 48,
+            "Metric": "SFT Loss",
+            "Value": 6.2640581130981445
+        },
+        {
+            "Step": 48,
+            "Metric": "Learning Rate",
+            "Value": 1.9200000000000003e-05
+        },
+        {
+            "Step": 49,
+            "Metric": "SFT Loss",
+            "Value": 5.53227424621582
+        },
+        {
+            "Step": 49,
+            "Metric": "Learning Rate",
+            "Value": 1.9600000000000002e-05
+        },
+        {
+            "Step": 50,
+            "Metric": "SFT Loss",
+            "Value": 6.743251800537109
+        },
+        {
+            "Step": 50,
+            "Metric": "Learning Rate",
+            "Value": 2e-05
+        },
+        {
+            "Step": 51,
+            "Metric": "SFT Loss",
+            "Value": 5.5736985206604
+        },
+        {
+            "Step": 51,
+            "Metric": "Learning Rate",
+            "Value": 1.9955555555555557e-05
+        },
+        {
+            "Step": 52,
+            "Metric": "SFT Loss",
+            "Value": 5.360650539398193
+        },
+        {
+            "Step": 52,
+            "Metric": "Learning Rate",
+            "Value": 1.9911111111111112e-05
+        },
+        {
+            "Step": 53,
+            "Metric": "SFT Loss",
+            "Value": 5.423285484313965
+        },
+        {
+            "Step": 53,
+            "Metric": "Learning Rate",
+            "Value": 1.9866666666666667e-05
+        },
+        {
+            "Step": 54,
+            "Metric": "SFT Loss",
+            "Value": 5.108491897583008
+        },
+        {
+            "Step": 54,
+            "Metric": "Learning Rate",
+            "Value": 1.9822222222222226e-05
+        },
+        {
+            "Step": 55,
+            "Metric": "SFT Loss",
+            "Value": 4.632509231567383
+        },
+        {
+            "Step": 55,
+            "Metric": "Learning Rate",
+            "Value": 1.977777777777778e-05
+        },
+        {
+            "Step": 56,
+            "Metric": "SFT Loss",
+            "Value": 4.9901933670043945
+        },
+        {
+            "Step": 56,
+            "Metric": "Learning Rate",
+            "Value": 1.9733333333333336e-05
+        },
+        {
+            "Step": 57,
+            "Metric": "SFT Loss",
+            "Value": 4.968444347381592
+        },
+        {
+            "Step": 57,
+            "Metric": "Learning Rate",
+            "Value": 1.968888888888889e-05
+        },
+        {
+            "Step": 58,
+            "Metric": "SFT Loss",
+            "Value": 5.028273582458496
+        },
+        {
+            "Step": 58,
+            "Metric": "Learning Rate",
+            "Value": 1.9644444444444447e-05
+        },
+        {
+            "Step": 59,
+            "Metric": "SFT Loss",
+            "Value": 5.093855381011963
+        },
+        {
+            "Step": 59,
+            "Metric": "Learning Rate",
+            "Value": 1.9600000000000002e-05
+        },
+        {
+            "Step": 60,
+            "Metric": "SFT Loss",
+            "Value": 4.720518112182617
+        },
+        {
+            "Step": 60,
+            "Metric": "Learning Rate",
+            "Value": 1.9555555555555557e-05
+        },
+        {
+            "Step": 61,
+            "Metric": "SFT Loss",
+            "Value": 4.872599124908447
+        },
+        {
+            "Step": 61,
+            "Metric": "Learning Rate",
+            "Value": 1.9511111111111113e-05
+        },
+        {
+            "Step": 62,
+            "Metric": "SFT Loss",
+            "Value": 4.398301124572754
+        },
+        {
+            "Step": 62,
+            "Metric": "Learning Rate",
+            "Value": 1.9466666666666668e-05
+        },
+        {
+            "Step": 63,
+            "Metric": "SFT Loss",
+            "Value": 5.259819030761719
+        },
+        {
+            "Step": 63,
+            "Metric": "Learning Rate",
+            "Value": 1.9422222222222223e-05
+        },
+        {
+            "Step": 64,
+            "Metric": "SFT Loss",
+            "Value": 5.536286354064941
+        },
+        {
+            "Step": 64,
+            "Metric": "Learning Rate",
+            "Value": 1.9377777777777778e-05
+        },
+        {
+            "Step": 65,
+            "Metric": "SFT Loss",
+            "Value": 4.998850345611572
+        },
+        {
+            "Step": 65,
+            "Metric": "Learning Rate",
+            "Value": 1.9333333333333333e-05
+        },
+        {
+            "Step": 66,
+            "Metric": "SFT Loss",
+            "Value": 4.723838806152344
+        },
+        {
+            "Step": 66,
+            "Metric": "Learning Rate",
+            "Value": 1.928888888888889e-05
+        },
+        {
+            "Step": 67,
+            "Metric": "SFT Loss",
+            "Value": 5.087211608886719
+        },
+        {
+            "Step": 67,
+            "Metric": "Learning Rate",
+            "Value": 1.9244444444444444e-05
+        },
+        {
+            "Step": 68,
+            "Metric": "SFT Loss",
+            "Value": 4.477473258972168
+        },
+        {
+            "Step": 68,
+            "Metric": "Learning Rate",
+            "Value": 1.9200000000000003e-05
+        },
+        {
+            "Step": 69,
+            "Metric": "SFT Loss",
+            "Value": 4.780407905578613
+        },
+        {
+            "Step": 69,
+            "Metric": "Learning Rate",
+            "Value": 1.9155555555555558e-05
+        },
+        {
+            "Step": 70,
+            "Metric": "SFT Loss",
+            "Value": 4.482248783111572
+        },
+        {
+            "Step": 70,
+            "Metric": "Learning Rate",
+            "Value": 1.9111111111111113e-05
+        },
+        {
+            "Step": 71,
+            "Metric": "SFT Loss",
+            "Value": 4.773695468902588
+        },
+        {
+            "Step": 71,
+            "Metric": "Learning Rate",
+            "Value": 1.9066666666666668e-05
+        },
+        {
+            "Step": 72,
+            "Metric": "SFT Loss",
+            "Value": 4.399933815002441
+        },
+        {
+            "Step": 72,
+            "Metric": "Learning Rate",
+            "Value": 1.9022222222222223e-05
+        },
+        {
+            "Step": 73,
+            "Metric": "SFT Loss",
+            "Value": 4.540095329284668
+        },
+        {
+            "Step": 73,
+            "Metric": "Learning Rate",
+            "Value": 1.897777777777778e-05
+        },
+        {
+            "Step": 74,
+            "Metric": "SFT Loss",
+            "Value": 4.6496663093566895
+        },
+        {
+            "Step": 74,
+            "Metric": "Learning Rate",
+            "Value": 1.8933333333333334e-05
+        },
+        {
+            "Step": 75,
+            "Metric": "SFT Loss",
+            "Value": 5.276064872741699
+        },
+        {
+            "Step": 75,
+            "Metric": "Learning Rate",
+            "Value": 1.888888888888889e-05
+        },
+        {
+            "Step": 76,
+            "Metric": "SFT Loss",
+            "Value": 4.346099853515625
+        },
+        {
+            "Step": 76,
+            "Metric": "Learning Rate",
+            "Value": 1.8844444444444444e-05
+        },
+        {
+            "Step": 77,
+            "Metric": "SFT Loss",
+            "Value": 4.5329694747924805
+        },
+        {
+            "Step": 77,
+            "Metric": "Learning Rate",
+            "Value": 1.88e-05
+        },
+        {
+            "Step": 78,
+            "Metric": "SFT Loss",
+            "Value": 4.541317939758301
+        },
+        {
+            "Step": 78,
+            "Metric": "Learning Rate",
+            "Value": 1.8755555555555558e-05
+        },
+        {
+            "Step": 79,
+            "Metric": "SFT Loss",
+            "Value": 4.832979202270508
+        },
+        {
+            "Step": 79,
+            "Metric": "Learning Rate",
+            "Value": 1.8711111111111113e-05
+        },
+        {
+            "Step": 80,
+            "Metric": "SFT Loss",
+            "Value": 4.471445560455322
+        },
+        {
+            "Step": 80,
+            "Metric": "Learning Rate",
+            "Value": 1.866666666666667e-05
+        },
+        {
+            "Step": 81,
+            "Metric": "SFT Loss",
+            "Value": 5.19096040725708
+        },
+        {
+            "Step": 81,
+            "Metric": "Learning Rate",
+            "Value": 1.8622222222222224e-05
+        },
+        {
+            "Step": 82,
+            "Metric": "SFT Loss",
+            "Value": 4.298245906829834
+        },
+        {
+            "Step": 82,
+            "Metric": "Learning Rate",
+            "Value": 1.857777777777778e-05
+        },
+        {
+            "Step": 83,
+            "Metric": "SFT Loss",
+            "Value": 5.057285785675049
+        },
+        {
+            "Step": 83,
+            "Metric": "Learning Rate",
+            "Value": 1.8533333333333334e-05
+        },
+        {
+            "Step": 84,
+            "Metric": "SFT Loss",
+            "Value": 4.01115083694458
+        },
+        {
+            "Step": 84,
+            "Metric": "Learning Rate",
+            "Value": 1.848888888888889e-05
+        },
+        {
+            "Step": 85,
+            "Metric": "SFT Loss",
+            "Value": 4.00934362411499
+        },
+        {
+            "Step": 85,
+            "Metric": "Learning Rate",
+            "Value": 1.8444444444444448e-05
+        },
+        {
+            "Step": 86,
+            "Metric": "SFT Loss",
+            "Value": 4.560959339141846
+        },
+        {
+            "Step": 86,
+            "Metric": "Learning Rate",
+            "Value": 1.8400000000000003e-05
+        },
+        {
+            "Step": 87,
+            "Metric": "SFT Loss",
+            "Value": 3.884817361831665
+        },
+        {
+            "Step": 87,
+            "Metric": "Learning Rate",
+            "Value": 1.835555555555556e-05
+        },
+        {
+            "Step": 88,
+            "Metric": "SFT Loss",
+            "Value": 4.446163177490234
+        },
+        {
+            "Step": 88,
+            "Metric": "Learning Rate",
+            "Value": 1.8311111111111114e-05
+        },
+        {
+            "Step": 89,
+            "Metric": "SFT Loss",
+            "Value": 4.543856143951416
+        },
+        {
+            "Step": 89,
+            "Metric": "Learning Rate",
+            "Value": 1.826666666666667e-05
+        },
+        {
+            "Step": 90,
+            "Metric": "SFT Loss",
+            "Value": 4.007848262786865
+        },
+        {
+            "Step": 90,
+            "Metric": "Learning Rate",
+            "Value": 1.8222222222222224e-05
+        },
+        {
+            "Step": 91,
+            "Metric": "SFT Loss",
+            "Value": 4.391502857208252
+        },
+        {
+            "Step": 91,
+            "Metric": "Learning Rate",
+            "Value": 1.817777777777778e-05
+        },
+        {
+            "Step": 92,
+            "Metric": "SFT Loss",
+            "Value": 4.319259166717529
+        },
+        {
+            "Step": 92,
+            "Metric": "Learning Rate",
+            "Value": 1.8133333333333335e-05
+        },
+        {
+            "Step": 93,
+            "Metric": "SFT Loss",
+            "Value": 4.551959991455078
+        },
+        {
+            "Step": 93,
+            "Metric": "Learning Rate",
+            "Value": 1.808888888888889e-05
+        },
+        {
+            "Step": 94,
+            "Metric": "SFT Loss",
+            "Value": 4.233450412750244
+        },
+        {
+            "Step": 94,
+            "Metric": "Learning Rate",
+            "Value": 1.8044444444444445e-05
+        },
+        {
+            "Step": 95,
+            "Metric": "SFT Loss",
+            "Value": 4.298363208770752
+        },
+        {
+            "Step": 95,
+            "Metric": "Learning Rate",
+            "Value": 1.8e-05
+        },
+        {
+            "Step": 96,
+            "Metric": "SFT Loss",
+            "Value": 4.241702079772949
+        },
+        {
+            "Step": 96,
+            "Metric": "Learning Rate",
+            "Value": 1.7955555555555556e-05
+        },
+        {
+            "Step": 97,
+            "Metric": "SFT Loss",
+            "Value": 3.702441692352295
+        },
+        {
+            "Step": 97,
+            "Metric": "Learning Rate",
+            "Value": 1.791111111111111e-05
+        },
+        {
+            "Step": 98,
+            "Metric": "SFT Loss",
+            "Value": 4.456193923950195
+        },
+        {
+            "Step": 98,
+            "Metric": "Learning Rate",
+            "Value": 1.7866666666666666e-05
+        },
+        {
+            "Step": 99,
+            "Metric": "SFT Loss",
+            "Value": 3.991964817047119
+        },
+        {
+            "Step": 99,
+            "Metric": "Learning Rate",
+            "Value": 1.782222222222222e-05
+        },
+        {
+            "Step": 100,
+            "Metric": "SFT Loss",
+            "Value": 3.4140963554382324
+        },
+        {
+            "Step": 100,
+            "Metric": "Learning Rate",
+            "Value": 1.7777777777777777e-05
+        }
+    ],
+    "sft_complete": false
+}

checkpoints/stable-run-sft-step-100/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-120/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoints/stable-run-sft-step-120/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.56.1"
+}

checkpoints/stable-run-sft-step-120/hyperparameters.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "repo_id": "broadfield-dev/savant_2_gsm8k_final",
+    "resume_from_benchmark": "",
+    "benchmark_name_prefix": "stable-run",
+    "benchmark_interval": 20,
+    "sft_epochs": 4,
+    "sft_lr": 2e-05,
+    "sft_warmup_proportion": 0.1,
+    "rl_lr": 1.5e-06,
+    "sft_slice": "0:2000",
+    "rl_slice": "4000:7473",
+    "context_length": 1024,
+    "base_model_name": "distilgpt2",
+    "use_scheduler": true,
+    "sft_batch_size": 1,
+    "grad_accum_steps": 16
+}

checkpoints/stable-run-sft-step-120/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-120/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90cc11198c8b68aa13438c9c0c8874daf6b46a87b4428ba9e4c89555638c91c5
+size 327657928

checkpoints/stable-run-sft-step-120/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c83a4e3901fb0a999efde088336544251d792e379064264b58470e2e505a3dea
+size 655362635

checkpoints/stable-run-sft-step-120/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17c1c21458f8ce3386e9f31dd6d44af7d43674e2b54a9af860bb1a5ac2049e91
+size 1401

checkpoints/stable-run-sft-step-120/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-sft-step-120/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-120/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-sft-step-120/training_state.json ADDED Viewed

	@@ -0,0 +1,1207 @@

+{
+    "phase": "SFT",
+    "total_optimizer_steps": 120,
+    "metrics": [
+        {
+            "Step": 1,
+            "Metric": "SFT Loss",
+            "Value": 10.806696891784668
+        },
+        {
+            "Step": 1,
+            "Metric": "Learning Rate",
+            "Value": 4.0000000000000003e-07
+        },
+        {
+            "Step": 2,
+            "Metric": "SFT Loss",
+            "Value": 20.197086334228516
+        },
+        {
+            "Step": 2,
+            "Metric": "Learning Rate",
+            "Value": 8.000000000000001e-07
+        },
+        {
+            "Step": 3,
+            "Metric": "SFT Loss",
+            "Value": 13.669203758239746
+        },
+        {
+            "Step": 3,
+            "Metric": "Learning Rate",
+            "Value": 1.2000000000000002e-06
+        },
+        {
+            "Step": 4,
+            "Metric": "SFT Loss",
+            "Value": 19.52617835998535
+        },
+        {
+            "Step": 4,
+            "Metric": "Learning Rate",
+            "Value": 1.6000000000000001e-06
+        },
+        {
+            "Step": 5,
+            "Metric": "SFT Loss",
+            "Value": 14.46614933013916
+        },
+        {
+            "Step": 5,
+            "Metric": "Learning Rate",
+            "Value": 2.0000000000000003e-06
+        },
+        {
+            "Step": 6,
+            "Metric": "SFT Loss",
+            "Value": 11.709370613098145
+        },
+        {
+            "Step": 6,
+            "Metric": "Learning Rate",
+            "Value": 2.4000000000000003e-06
+        },
+        {
+            "Step": 7,
+            "Metric": "SFT Loss",
+            "Value": 14.79263687133789
+        },
+        {
+            "Step": 7,
+            "Metric": "Learning Rate",
+            "Value": 2.8000000000000003e-06
+        },
+        {
+            "Step": 8,
+            "Metric": "SFT Loss",
+            "Value": 16.564573287963867
+        },
+        {
+            "Step": 8,
+            "Metric": "Learning Rate",
+            "Value": 3.2000000000000003e-06
+        },
+        {
+            "Step": 9,
+            "Metric": "SFT Loss",
+            "Value": 16.437776565551758
+        },
+        {
+            "Step": 9,
+            "Metric": "Learning Rate",
+            "Value": 3.6000000000000003e-06
+        },
+        {
+            "Step": 10,
+            "Metric": "SFT Loss",
+            "Value": 14.215919494628906
+        },
+        {
+            "Step": 10,
+            "Metric": "Learning Rate",
+            "Value": 4.000000000000001e-06
+        },
+        {
+            "Step": 11,
+            "Metric": "SFT Loss",
+            "Value": 13.728559494018555
+        },
+        {
+            "Step": 11,
+            "Metric": "Learning Rate",
+            "Value": 4.4e-06
+        },
+        {
+            "Step": 12,
+            "Metric": "SFT Loss",
+            "Value": 17.120494842529297
+        },
+        {
+            "Step": 12,
+            "Metric": "Learning Rate",
+            "Value": 4.800000000000001e-06
+        },
+        {
+            "Step": 13,
+            "Metric": "SFT Loss",
+            "Value": 12.443873405456543
+        },
+        {
+            "Step": 13,
+            "Metric": "Learning Rate",
+            "Value": 5.2e-06
+        },
+        {
+            "Step": 14,
+            "Metric": "SFT Loss",
+            "Value": 10.322935104370117
+        },
+        {
+            "Step": 14,
+            "Metric": "Learning Rate",
+            "Value": 5.600000000000001e-06
+        },
+        {
+            "Step": 15,
+            "Metric": "SFT Loss",
+            "Value": 10.010440826416016
+        },
+        {
+            "Step": 15,
+            "Metric": "Learning Rate",
+            "Value": 6e-06
+        },
+        {
+            "Step": 16,
+            "Metric": "SFT Loss",
+            "Value": 9.959354400634766
+        },
+        {
+            "Step": 16,
+            "Metric": "Learning Rate",
+            "Value": 6.4000000000000006e-06
+        },
+        {
+            "Step": 17,
+            "Metric": "SFT Loss",
+            "Value": 9.42132568359375
+        },
+        {
+            "Step": 17,
+            "Metric": "Learning Rate",
+            "Value": 6.800000000000001e-06
+        },
+        {
+            "Step": 18,
+            "Metric": "SFT Loss",
+            "Value": 10.809995651245117
+        },
+        {
+            "Step": 18,
+            "Metric": "Learning Rate",
+            "Value": 7.2000000000000005e-06
+        },
+        {
+            "Step": 19,
+            "Metric": "SFT Loss",
+            "Value": 11.641499519348145
+        },
+        {
+            "Step": 19,
+            "Metric": "Learning Rate",
+            "Value": 7.600000000000001e-06
+        },
+        {
+            "Step": 20,
+            "Metric": "SFT Loss",
+            "Value": 8.137388229370117
+        },
+        {
+            "Step": 20,
+            "Metric": "Learning Rate",
+            "Value": 8.000000000000001e-06
+        },
+        {
+            "Step": 21,
+            "Metric": "SFT Loss",
+            "Value": 11.187762260437012
+        },
+        {
+            "Step": 21,
+            "Metric": "Learning Rate",
+            "Value": 8.400000000000001e-06
+        },
+        {
+            "Step": 22,
+            "Metric": "SFT Loss",
+            "Value": 6.696204662322998
+        },
+        {
+            "Step": 22,
+            "Metric": "Learning Rate",
+            "Value": 8.8e-06
+        },
+        {
+            "Step": 23,
+            "Metric": "SFT Loss",
+            "Value": 9.350967407226562
+        },
+        {
+            "Step": 23,
+            "Metric": "Learning Rate",
+            "Value": 9.200000000000002e-06
+        },
+        {
+            "Step": 24,
+            "Metric": "SFT Loss",
+            "Value": 7.601217269897461
+        },
+        {
+            "Step": 24,
+            "Metric": "Learning Rate",
+            "Value": 9.600000000000001e-06
+        },
+        {
+            "Step": 25,
+            "Metric": "SFT Loss",
+            "Value": 7.671919345855713
+        },
+        {
+            "Step": 25,
+            "Metric": "Learning Rate",
+            "Value": 1e-05
+        },
+        {
+            "Step": 26,
+            "Metric": "SFT Loss",
+            "Value": 5.797372341156006
+        },
+        {
+            "Step": 26,
+            "Metric": "Learning Rate",
+            "Value": 1.04e-05
+        },
+        {
+            "Step": 27,
+            "Metric": "SFT Loss",
+            "Value": 7.414616107940674
+        },
+        {
+            "Step": 27,
+            "Metric": "Learning Rate",
+            "Value": 1.0800000000000002e-05
+        },
+        {
+            "Step": 28,
+            "Metric": "SFT Loss",
+            "Value": 7.067437171936035
+        },
+        {
+            "Step": 28,
+            "Metric": "Learning Rate",
+            "Value": 1.1200000000000001e-05
+        },
+        {
+            "Step": 29,
+            "Metric": "SFT Loss",
+            "Value": 6.7167463302612305
+        },
+        {
+            "Step": 29,
+            "Metric": "Learning Rate",
+            "Value": 1.16e-05
+        },
+        {
+            "Step": 30,
+            "Metric": "SFT Loss",
+            "Value": 6.630039691925049
+        },
+        {
+            "Step": 30,
+            "Metric": "Learning Rate",
+            "Value": 1.2e-05
+        },
+        {
+            "Step": 31,
+            "Metric": "SFT Loss",
+            "Value": 6.276569366455078
+        },
+        {
+            "Step": 31,
+            "Metric": "Learning Rate",
+            "Value": 1.2400000000000002e-05
+        },
+        {
+            "Step": 32,
+            "Metric": "SFT Loss",
+            "Value": 7.236689567565918
+        },
+        {
+            "Step": 32,
+            "Metric": "Learning Rate",
+            "Value": 1.2800000000000001e-05
+        },
+        {
+            "Step": 33,
+            "Metric": "SFT Loss",
+            "Value": 6.829200267791748
+        },
+        {
+            "Step": 33,
+            "Metric": "Learning Rate",
+            "Value": 1.3200000000000002e-05
+        },
+        {
+            "Step": 34,
+            "Metric": "SFT Loss",
+            "Value": 6.348658561706543
+        },
+        {
+            "Step": 34,
+            "Metric": "Learning Rate",
+            "Value": 1.3600000000000002e-05
+        },
+        {
+            "Step": 35,
+            "Metric": "SFT Loss",
+            "Value": 6.114589691162109
+        },
+        {
+            "Step": 35,
+            "Metric": "Learning Rate",
+            "Value": 1.4e-05
+        },
+        {
+            "Step": 36,
+            "Metric": "SFT Loss",
+            "Value": 5.820864677429199
+        },
+        {
+            "Step": 36,
+            "Metric": "Learning Rate",
+            "Value": 1.4400000000000001e-05
+        },
+        {
+            "Step": 37,
+            "Metric": "SFT Loss",
+            "Value": 6.093341827392578
+        },
+        {
+            "Step": 37,
+            "Metric": "Learning Rate",
+            "Value": 1.48e-05
+        },
+        {
+            "Step": 38,
+            "Metric": "SFT Loss",
+            "Value": 6.195661544799805
+        },
+        {
+            "Step": 38,
+            "Metric": "Learning Rate",
+            "Value": 1.5200000000000002e-05
+        },
+        {
+            "Step": 39,
+            "Metric": "SFT Loss",
+            "Value": 7.604869365692139
+        },
+        {
+            "Step": 39,
+            "Metric": "Learning Rate",
+            "Value": 1.5600000000000003e-05
+        },
+        {
+            "Step": 40,
+            "Metric": "SFT Loss",
+            "Value": 5.295370101928711
+        },
+        {
+            "Step": 40,
+            "Metric": "Learning Rate",
+            "Value": 1.6000000000000003e-05
+        },
+        {
+            "Step": 41,
+            "Metric": "SFT Loss",
+            "Value": 6.263326644897461
+        },
+        {
+            "Step": 41,
+            "Metric": "Learning Rate",
+            "Value": 1.64e-05
+        },
+        {
+            "Step": 42,
+            "Metric": "SFT Loss",
+            "Value": 6.123704433441162
+        },
+        {
+            "Step": 42,
+            "Metric": "Learning Rate",
+            "Value": 1.6800000000000002e-05
+        },
+        {
+            "Step": 43,
+            "Metric": "SFT Loss",
+            "Value": 6.104567050933838
+        },
+        {
+            "Step": 43,
+            "Metric": "Learning Rate",
+            "Value": 1.72e-05
+        },
+        {
+            "Step": 44,
+            "Metric": "SFT Loss",
+            "Value": 6.757107257843018
+        },
+        {
+            "Step": 44,
+            "Metric": "Learning Rate",
+            "Value": 1.76e-05
+        },
+        {
+            "Step": 45,
+            "Metric": "SFT Loss",
+            "Value": 6.533822059631348
+        },
+        {
+            "Step": 45,
+            "Metric": "Learning Rate",
+            "Value": 1.8e-05
+        },
+        {
+            "Step": 46,
+            "Metric": "SFT Loss",
+            "Value": 6.507102012634277
+        },
+        {
+            "Step": 46,
+            "Metric": "Learning Rate",
+            "Value": 1.8400000000000003e-05
+        },
+        {
+            "Step": 47,
+            "Metric": "SFT Loss",
+            "Value": 6.377279758453369
+        },
+        {
+            "Step": 47,
+            "Metric": "Learning Rate",
+            "Value": 1.88e-05
+        },
+        {
+            "Step": 48,
+            "Metric": "SFT Loss",
+            "Value": 6.2640581130981445
+        },
+        {
+            "Step": 48,
+            "Metric": "Learning Rate",
+            "Value": 1.9200000000000003e-05
+        },
+        {
+            "Step": 49,
+            "Metric": "SFT Loss",
+            "Value": 5.53227424621582
+        },
+        {
+            "Step": 49,
+            "Metric": "Learning Rate",
+            "Value": 1.9600000000000002e-05
+        },
+        {
+            "Step": 50,
+            "Metric": "SFT Loss",
+            "Value": 6.743251800537109
+        },
+        {
+            "Step": 50,
+            "Metric": "Learning Rate",
+            "Value": 2e-05
+        },
+        {
+            "Step": 51,
+            "Metric": "SFT Loss",
+            "Value": 5.5736985206604
+        },
+        {
+            "Step": 51,
+            "Metric": "Learning Rate",
+            "Value": 1.9955555555555557e-05
+        },
+        {
+            "Step": 52,
+            "Metric": "SFT Loss",
+            "Value": 5.360650539398193
+        },
+        {
+            "Step": 52,
+            "Metric": "Learning Rate",
+            "Value": 1.9911111111111112e-05
+        },
+        {
+            "Step": 53,
+            "Metric": "SFT Loss",
+            "Value": 5.423285484313965
+        },
+        {
+            "Step": 53,
+            "Metric": "Learning Rate",
+            "Value": 1.9866666666666667e-05
+        },
+        {
+            "Step": 54,
+            "Metric": "SFT Loss",
+            "Value": 5.108491897583008
+        },
+        {
+            "Step": 54,
+            "Metric": "Learning Rate",
+            "Value": 1.9822222222222226e-05
+        },
+        {
+            "Step": 55,
+            "Metric": "SFT Loss",
+            "Value": 4.632509231567383
+        },
+        {
+            "Step": 55,
+            "Metric": "Learning Rate",
+            "Value": 1.977777777777778e-05
+        },
+        {
+            "Step": 56,
+            "Metric": "SFT Loss",
+            "Value": 4.9901933670043945
+        },
+        {
+            "Step": 56,
+            "Metric": "Learning Rate",
+            "Value": 1.9733333333333336e-05
+        },
+        {
+            "Step": 57,
+            "Metric": "SFT Loss",
+            "Value": 4.968444347381592
+        },
+        {
+            "Step": 57,
+            "Metric": "Learning Rate",
+            "Value": 1.968888888888889e-05
+        },
+        {
+            "Step": 58,
+            "Metric": "SFT Loss",
+            "Value": 5.028273582458496
+        },
+        {
+            "Step": 58,
+            "Metric": "Learning Rate",
+            "Value": 1.9644444444444447e-05
+        },
+        {
+            "Step": 59,
+            "Metric": "SFT Loss",
+            "Value": 5.093855381011963
+        },
+        {
+            "Step": 59,
+            "Metric": "Learning Rate",
+            "Value": 1.9600000000000002e-05
+        },
+        {
+            "Step": 60,
+            "Metric": "SFT Loss",
+            "Value": 4.720518112182617
+        },
+        {
+            "Step": 60,
+            "Metric": "Learning Rate",
+            "Value": 1.9555555555555557e-05
+        },
+        {
+            "Step": 61,
+            "Metric": "SFT Loss",
+            "Value": 4.872599124908447
+        },
+        {
+            "Step": 61,
+            "Metric": "Learning Rate",
+            "Value": 1.9511111111111113e-05
+        },
+        {
+            "Step": 62,
+            "Metric": "SFT Loss",
+            "Value": 4.398301124572754
+        },
+        {
+            "Step": 62,
+            "Metric": "Learning Rate",
+            "Value": 1.9466666666666668e-05
+        },
+        {
+            "Step": 63,
+            "Metric": "SFT Loss",
+            "Value": 5.259819030761719
+        },
+        {
+            "Step": 63,
+            "Metric": "Learning Rate",
+            "Value": 1.9422222222222223e-05
+        },
+        {
+            "Step": 64,
+            "Metric": "SFT Loss",
+            "Value": 5.536286354064941
+        },
+        {
+            "Step": 64,
+            "Metric": "Learning Rate",
+            "Value": 1.9377777777777778e-05
+        },
+        {
+            "Step": 65,
+            "Metric": "SFT Loss",
+            "Value": 4.998850345611572
+        },
+        {
+            "Step": 65,
+            "Metric": "Learning Rate",
+            "Value": 1.9333333333333333e-05
+        },
+        {
+            "Step": 66,
+            "Metric": "SFT Loss",
+            "Value": 4.723838806152344
+        },
+        {
+            "Step": 66,
+            "Metric": "Learning Rate",
+            "Value": 1.928888888888889e-05
+        },
+        {
+            "Step": 67,
+            "Metric": "SFT Loss",
+            "Value": 5.087211608886719
+        },
+        {
+            "Step": 67,
+            "Metric": "Learning Rate",
+            "Value": 1.9244444444444444e-05
+        },
+        {
+            "Step": 68,
+            "Metric": "SFT Loss",
+            "Value": 4.477473258972168
+        },
+        {
+            "Step": 68,
+            "Metric": "Learning Rate",
+            "Value": 1.9200000000000003e-05
+        },
+        {
+            "Step": 69,
+            "Metric": "SFT Loss",
+            "Value": 4.780407905578613
+        },
+        {
+            "Step": 69,
+            "Metric": "Learning Rate",
+            "Value": 1.9155555555555558e-05
+        },
+        {
+            "Step": 70,
+            "Metric": "SFT Loss",
+            "Value": 4.482248783111572
+        },
+        {
+            "Step": 70,
+            "Metric": "Learning Rate",
+            "Value": 1.9111111111111113e-05
+        },
+        {
+            "Step": 71,
+            "Metric": "SFT Loss",
+            "Value": 4.773695468902588
+        },
+        {
+            "Step": 71,
+            "Metric": "Learning Rate",
+            "Value": 1.9066666666666668e-05
+        },
+        {
+            "Step": 72,
+            "Metric": "SFT Loss",
+            "Value": 4.399933815002441
+        },
+        {
+            "Step": 72,
+            "Metric": "Learning Rate",
+            "Value": 1.9022222222222223e-05
+        },
+        {
+            "Step": 73,
+            "Metric": "SFT Loss",
+            "Value": 4.540095329284668
+        },
+        {
+            "Step": 73,
+            "Metric": "Learning Rate",
+            "Value": 1.897777777777778e-05
+        },
+        {
+            "Step": 74,
+            "Metric": "SFT Loss",
+            "Value": 4.6496663093566895
+        },
+        {
+            "Step": 74,
+            "Metric": "Learning Rate",
+            "Value": 1.8933333333333334e-05
+        },
+        {
+            "Step": 75,
+            "Metric": "SFT Loss",
+            "Value": 5.276064872741699
+        },
+        {
+            "Step": 75,
+            "Metric": "Learning Rate",
+            "Value": 1.888888888888889e-05
+        },
+        {
+            "Step": 76,
+            "Metric": "SFT Loss",
+            "Value": 4.346099853515625
+        },
+        {
+            "Step": 76,
+            "Metric": "Learning Rate",
+            "Value": 1.8844444444444444e-05
+        },
+        {
+            "Step": 77,
+            "Metric": "SFT Loss",
+            "Value": 4.5329694747924805
+        },
+        {
+            "Step": 77,
+            "Metric": "Learning Rate",
+            "Value": 1.88e-05
+        },
+        {
+            "Step": 78,
+            "Metric": "SFT Loss",
+            "Value": 4.541317939758301
+        },
+        {
+            "Step": 78,
+            "Metric": "Learning Rate",
+            "Value": 1.8755555555555558e-05
+        },
+        {
+            "Step": 79,
+            "Metric": "SFT Loss",
+            "Value": 4.832979202270508
+        },
+        {
+            "Step": 79,
+            "Metric": "Learning Rate",
+            "Value": 1.8711111111111113e-05
+        },
+        {
+            "Step": 80,
+            "Metric": "SFT Loss",
+            "Value": 4.471445560455322
+        },
+        {
+            "Step": 80,
+            "Metric": "Learning Rate",
+            "Value": 1.866666666666667e-05
+        },
+        {
+            "Step": 81,
+            "Metric": "SFT Loss",
+            "Value": 5.19096040725708
+        },
+        {
+            "Step": 81,
+            "Metric": "Learning Rate",
+            "Value": 1.8622222222222224e-05
+        },
+        {
+            "Step": 82,
+            "Metric": "SFT Loss",
+            "Value": 4.298245906829834
+        },
+        {
+            "Step": 82,
+            "Metric": "Learning Rate",
+            "Value": 1.857777777777778e-05
+        },
+        {
+            "Step": 83,
+            "Metric": "SFT Loss",
+            "Value": 5.057285785675049
+        },
+        {
+            "Step": 83,
+            "Metric": "Learning Rate",
+            "Value": 1.8533333333333334e-05
+        },
+        {
+            "Step": 84,
+            "Metric": "SFT Loss",
+            "Value": 4.01115083694458
+        },
+        {
+            "Step": 84,
+            "Metric": "Learning Rate",
+            "Value": 1.848888888888889e-05
+        },
+        {
+            "Step": 85,
+            "Metric": "SFT Loss",
+            "Value": 4.00934362411499
+        },
+        {
+            "Step": 85,
+            "Metric": "Learning Rate",
+            "Value": 1.8444444444444448e-05
+        },
+        {
+            "Step": 86,
+            "Metric": "SFT Loss",
+            "Value": 4.560959339141846
+        },
+        {
+            "Step": 86,
+            "Metric": "Learning Rate",
+            "Value": 1.8400000000000003e-05
+        },
+        {
+            "Step": 87,
+            "Metric": "SFT Loss",
+            "Value": 3.884817361831665
+        },
+        {
+            "Step": 87,
+            "Metric": "Learning Rate",
+            "Value": 1.835555555555556e-05
+        },
+        {
+            "Step": 88,
+            "Metric": "SFT Loss",
+            "Value": 4.446163177490234
+        },
+        {
+            "Step": 88,
+            "Metric": "Learning Rate",
+            "Value": 1.8311111111111114e-05
+        },
+        {
+            "Step": 89,
+            "Metric": "SFT Loss",
+            "Value": 4.543856143951416
+        },
+        {
+            "Step": 89,
+            "Metric": "Learning Rate",
+            "Value": 1.826666666666667e-05
+        },
+        {
+            "Step": 90,
+            "Metric": "SFT Loss",
+            "Value": 4.007848262786865
+        },
+        {
+            "Step": 90,
+            "Metric": "Learning Rate",
+            "Value": 1.8222222222222224e-05
+        },
+        {
+            "Step": 91,
+            "Metric": "SFT Loss",
+            "Value": 4.391502857208252
+        },
+        {
+            "Step": 91,
+            "Metric": "Learning Rate",
+            "Value": 1.817777777777778e-05
+        },
+        {
+            "Step": 92,
+            "Metric": "SFT Loss",
+            "Value": 4.319259166717529
+        },
+        {
+            "Step": 92,
+            "Metric": "Learning Rate",
+            "Value": 1.8133333333333335e-05
+        },
+        {
+            "Step": 93,
+            "Metric": "SFT Loss",
+            "Value": 4.551959991455078
+        },
+        {
+            "Step": 93,
+            "Metric": "Learning Rate",
+            "Value": 1.808888888888889e-05
+        },
+        {
+            "Step": 94,
+            "Metric": "SFT Loss",
+            "Value": 4.233450412750244
+        },
+        {
+            "Step": 94,
+            "Metric": "Learning Rate",
+            "Value": 1.8044444444444445e-05
+        },
+        {
+            "Step": 95,
+            "Metric": "SFT Loss",
+            "Value": 4.298363208770752
+        },
+        {
+            "Step": 95,
+            "Metric": "Learning Rate",
+            "Value": 1.8e-05
+        },
+        {
+            "Step": 96,
+            "Metric": "SFT Loss",
+            "Value": 4.241702079772949
+        },
+        {
+            "Step": 96,
+            "Metric": "Learning Rate",
+            "Value": 1.7955555555555556e-05
+        },
+        {
+            "Step": 97,
+            "Metric": "SFT Loss",
+            "Value": 3.702441692352295
+        },
+        {
+            "Step": 97,
+            "Metric": "Learning Rate",
+            "Value": 1.791111111111111e-05
+        },
+        {
+            "Step": 98,
+            "Metric": "SFT Loss",
+            "Value": 4.456193923950195
+        },
+        {
+            "Step": 98,
+            "Metric": "Learning Rate",
+            "Value": 1.7866666666666666e-05
+        },
+        {
+            "Step": 99,
+            "Metric": "SFT Loss",
+            "Value": 3.991964817047119
+        },
+        {
+            "Step": 99,
+            "Metric": "Learning Rate",
+            "Value": 1.782222222222222e-05
+        },
+        {
+            "Step": 100,
+            "Metric": "SFT Loss",
+            "Value": 3.4140963554382324
+        },
+        {
+            "Step": 100,
+            "Metric": "Learning Rate",
+            "Value": 1.7777777777777777e-05
+        },
+        {
+            "Step": 101,
+            "Metric": "SFT Loss",
+            "Value": 4.197049140930176
+        },
+        {
+            "Step": 101,
+            "Metric": "Learning Rate",
+            "Value": 1.7733333333333335e-05
+        },
+        {
+            "Step": 102,
+            "Metric": "SFT Loss",
+            "Value": 4.2692036628723145
+        },
+        {
+            "Step": 102,
+            "Metric": "Learning Rate",
+            "Value": 1.768888888888889e-05
+        },
+        {
+            "Step": 103,
+            "Metric": "SFT Loss",
+            "Value": 3.8439722061157227
+        },
+        {
+            "Step": 103,
+            "Metric": "Learning Rate",
+            "Value": 1.7644444444444446e-05
+        },
+        {
+            "Step": 104,
+            "Metric": "SFT Loss",
+            "Value": 3.943871021270752
+        },
+        {
+            "Step": 104,
+            "Metric": "Learning Rate",
+            "Value": 1.76e-05
+        },
+        {
+            "Step": 105,
+            "Metric": "SFT Loss",
+            "Value": 4.58375358581543
+        },
+        {
+            "Step": 105,
+            "Metric": "Learning Rate",
+            "Value": 1.7555555555555556e-05
+        },
+        {
+            "Step": 106,
+            "Metric": "SFT Loss",
+            "Value": 3.6572935581207275
+        },
+        {
+            "Step": 106,
+            "Metric": "Learning Rate",
+            "Value": 1.751111111111111e-05
+        },
+        {
+            "Step": 107,
+            "Metric": "SFT Loss",
+            "Value": 3.9028666019439697
+        },
+        {
+            "Step": 107,
+            "Metric": "Learning Rate",
+            "Value": 1.7466666666666667e-05
+        },
+        {
+            "Step": 108,
+            "Metric": "SFT Loss",
+            "Value": 4.1736321449279785
+        },
+        {
+            "Step": 108,
+            "Metric": "Learning Rate",
+            "Value": 1.7422222222222222e-05
+        },
+        {
+            "Step": 109,
+            "Metric": "SFT Loss",
+            "Value": 3.8696651458740234
+        },
+        {
+            "Step": 109,
+            "Metric": "Learning Rate",
+            "Value": 1.737777777777778e-05
+        },
+        {
+            "Step": 110,
+            "Metric": "SFT Loss",
+            "Value": 3.711902618408203
+        },
+        {
+            "Step": 110,
+            "Metric": "Learning Rate",
+            "Value": 1.7333333333333336e-05
+        },
+        {
+            "Step": 111,
+            "Metric": "SFT Loss",
+            "Value": 3.8743908405303955
+        },
+        {
+            "Step": 111,
+            "Metric": "Learning Rate",
+            "Value": 1.728888888888889e-05
+        },
+        {
+            "Step": 112,
+            "Metric": "SFT Loss",
+            "Value": 4.811700344085693
+        },
+        {
+            "Step": 112,
+            "Metric": "Learning Rate",
+            "Value": 1.7244444444444446e-05
+        },
+        {
+            "Step": 113,
+            "Metric": "SFT Loss",
+            "Value": 3.9556643962860107
+        },
+        {
+            "Step": 113,
+            "Metric": "Learning Rate",
+            "Value": 1.72e-05
+        },
+        {
+            "Step": 114,
+            "Metric": "SFT Loss",
+            "Value": 3.762240409851074
+        },
+        {
+            "Step": 114,
+            "Metric": "Learning Rate",
+            "Value": 1.7155555555555557e-05
+        },
+        {
+            "Step": 115,
+            "Metric": "SFT Loss",
+            "Value": 3.8440146446228027
+        },
+        {
+            "Step": 115,
+            "Metric": "Learning Rate",
+            "Value": 1.7111111111111112e-05
+        },
+        {
+            "Step": 116,
+            "Metric": "SFT Loss",
+            "Value": 3.7602431774139404
+        },
+        {
+            "Step": 116,
+            "Metric": "Learning Rate",
+            "Value": 1.706666666666667e-05
+        },
+        {
+            "Step": 117,
+            "Metric": "SFT Loss",
+            "Value": 3.3839704990386963
+        },
+        {
+            "Step": 117,
+            "Metric": "Learning Rate",
+            "Value": 1.7022222222222226e-05
+        },
+        {
+            "Step": 118,
+            "Metric": "SFT Loss",
+            "Value": 4.222746849060059
+        },
+        {
+            "Step": 118,
+            "Metric": "Learning Rate",
+            "Value": 1.697777777777778e-05
+        },
+        {
+            "Step": 119,
+            "Metric": "SFT Loss",
+            "Value": 4.096693515777588
+        },
+        {
+            "Step": 119,
+            "Metric": "Learning Rate",
+            "Value": 1.6933333333333336e-05
+        },
+        {
+            "Step": 120,
+            "Metric": "SFT Loss",
+            "Value": 3.2182490825653076
+        },
+        {
+            "Step": 120,
+            "Metric": "Learning Rate",
+            "Value": 1.688888888888889e-05
+        }
+    ],
+    "sft_complete": false
+}

checkpoints/stable-run-sft-step-120/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-140/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoints/stable-run-sft-step-140/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.56.1"
+}

checkpoints/stable-run-sft-step-140/hyperparameters.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "repo_id": "broadfield-dev/savant_2_gsm8k_final",
+    "resume_from_benchmark": "",
+    "benchmark_name_prefix": "stable-run",
+    "benchmark_interval": 20,
+    "sft_epochs": 4,
+    "sft_lr": 2e-05,
+    "sft_warmup_proportion": 0.1,
+    "rl_lr": 1.5e-06,
+    "sft_slice": "0:2000",
+    "rl_slice": "4000:7473",
+    "context_length": 1024,
+    "base_model_name": "distilgpt2",
+    "use_scheduler": true,
+    "sft_batch_size": 1,
+    "grad_accum_steps": 16
+}

checkpoints/stable-run-sft-step-140/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-140/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b5ae4b2dd8773b69750e76ae01079638d3e91ca3f82ac5ef2884d5339170f57
+size 327657928

checkpoints/stable-run-sft-step-140/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04851933db25e0b8fd3712fbd1f3d2904ed6c26e5b6f6b456f1004e1169b28da
+size 655362635

checkpoints/stable-run-sft-step-140/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:859d0ff1c3c20bb127e18afb0c8b7f19baac463ad6eaca9bccc3a85c05207437
+size 1401

checkpoints/stable-run-sft-step-140/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-sft-step-140/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-140/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/stable-run-sft-step-140/training_state.json ADDED Viewed

	@@ -0,0 +1,1407 @@

+{
+    "phase": "SFT",
+    "total_optimizer_steps": 140,
+    "metrics": [
+        {
+            "Step": 1,
+            "Metric": "SFT Loss",
+            "Value": 10.806696891784668
+        },
+        {
+            "Step": 1,
+            "Metric": "Learning Rate",
+            "Value": 4.0000000000000003e-07
+        },
+        {
+            "Step": 2,
+            "Metric": "SFT Loss",
+            "Value": 20.197086334228516
+        },
+        {
+            "Step": 2,
+            "Metric": "Learning Rate",
+            "Value": 8.000000000000001e-07
+        },
+        {
+            "Step": 3,
+            "Metric": "SFT Loss",
+            "Value": 13.669203758239746
+        },
+        {
+            "Step": 3,
+            "Metric": "Learning Rate",
+            "Value": 1.2000000000000002e-06
+        },
+        {
+            "Step": 4,
+            "Metric": "SFT Loss",
+            "Value": 19.52617835998535
+        },
+        {
+            "Step": 4,
+            "Metric": "Learning Rate",
+            "Value": 1.6000000000000001e-06
+        },
+        {
+            "Step": 5,
+            "Metric": "SFT Loss",
+            "Value": 14.46614933013916
+        },
+        {
+            "Step": 5,
+            "Metric": "Learning Rate",
+            "Value": 2.0000000000000003e-06
+        },
+        {
+            "Step": 6,
+            "Metric": "SFT Loss",
+            "Value": 11.709370613098145
+        },
+        {
+            "Step": 6,
+            "Metric": "Learning Rate",
+            "Value": 2.4000000000000003e-06
+        },
+        {
+            "Step": 7,
+            "Metric": "SFT Loss",
+            "Value": 14.79263687133789
+        },
+        {
+            "Step": 7,
+            "Metric": "Learning Rate",
+            "Value": 2.8000000000000003e-06
+        },
+        {
+            "Step": 8,
+            "Metric": "SFT Loss",
+            "Value": 16.564573287963867
+        },
+        {
+            "Step": 8,
+            "Metric": "Learning Rate",
+            "Value": 3.2000000000000003e-06
+        },
+        {
+            "Step": 9,
+            "Metric": "SFT Loss",
+            "Value": 16.437776565551758
+        },
+        {
+            "Step": 9,
+            "Metric": "Learning Rate",
+            "Value": 3.6000000000000003e-06
+        },
+        {
+            "Step": 10,
+            "Metric": "SFT Loss",
+            "Value": 14.215919494628906
+        },
+        {
+            "Step": 10,
+            "Metric": "Learning Rate",
+            "Value": 4.000000000000001e-06
+        },
+        {
+            "Step": 11,
+            "Metric": "SFT Loss",
+            "Value": 13.728559494018555
+        },
+        {
+            "Step": 11,
+            "Metric": "Learning Rate",
+            "Value": 4.4e-06
+        },
+        {
+            "Step": 12,
+            "Metric": "SFT Loss",
+            "Value": 17.120494842529297
+        },
+        {
+            "Step": 12,
+            "Metric": "Learning Rate",
+            "Value": 4.800000000000001e-06
+        },
+        {
+            "Step": 13,
+            "Metric": "SFT Loss",
+            "Value": 12.443873405456543
+        },
+        {
+            "Step": 13,
+            "Metric": "Learning Rate",
+            "Value": 5.2e-06
+        },
+        {
+            "Step": 14,
+            "Metric": "SFT Loss",
+            "Value": 10.322935104370117
+        },
+        {
+            "Step": 14,
+            "Metric": "Learning Rate",
+            "Value": 5.600000000000001e-06
+        },
+        {
+            "Step": 15,
+            "Metric": "SFT Loss",
+            "Value": 10.010440826416016
+        },
+        {
+            "Step": 15,
+            "Metric": "Learning Rate",
+            "Value": 6e-06
+        },
+        {
+            "Step": 16,
+            "Metric": "SFT Loss",
+            "Value": 9.959354400634766
+        },
+        {
+            "Step": 16,
+            "Metric": "Learning Rate",
+            "Value": 6.4000000000000006e-06
+        },
+        {
+            "Step": 17,
+            "Metric": "SFT Loss",
+            "Value": 9.42132568359375
+        },
+        {
+            "Step": 17,
+            "Metric": "Learning Rate",
+            "Value": 6.800000000000001e-06
+        },
+        {
+            "Step": 18,
+            "Metric": "SFT Loss",
+            "Value": 10.809995651245117
+        },
+        {
+            "Step": 18,
+            "Metric": "Learning Rate",
+            "Value": 7.2000000000000005e-06
+        },
+        {
+            "Step": 19,
+            "Metric": "SFT Loss",
+            "Value": 11.641499519348145
+        },
+        {
+            "Step": 19,
+            "Metric": "Learning Rate",
+            "Value": 7.600000000000001e-06
+        },
+        {
+            "Step": 20,
+            "Metric": "SFT Loss",
+            "Value": 8.137388229370117
+        },
+        {
+            "Step": 20,
+            "Metric": "Learning Rate",
+            "Value": 8.000000000000001e-06
+        },
+        {
+            "Step": 21,
+            "Metric": "SFT Loss",
+            "Value": 11.187762260437012
+        },
+        {
+            "Step": 21,
+            "Metric": "Learning Rate",
+            "Value": 8.400000000000001e-06
+        },
+        {
+            "Step": 22,
+            "Metric": "SFT Loss",
+            "Value": 6.696204662322998
+        },
+        {
+            "Step": 22,
+            "Metric": "Learning Rate",
+            "Value": 8.8e-06
+        },
+        {
+            "Step": 23,
+            "Metric": "SFT Loss",
+            "Value": 9.350967407226562
+        },
+        {
+            "Step": 23,
+            "Metric": "Learning Rate",
+            "Value": 9.200000000000002e-06
+        },
+        {
+            "Step": 24,
+            "Metric": "SFT Loss",
+            "Value": 7.601217269897461
+        },
+        {
+            "Step": 24,
+            "Metric": "Learning Rate",
+            "Value": 9.600000000000001e-06
+        },
+        {
+            "Step": 25,
+            "Metric": "SFT Loss",
+            "Value": 7.671919345855713
+        },
+        {
+            "Step": 25,
+            "Metric": "Learning Rate",
+            "Value": 1e-05
+        },
+        {
+            "Step": 26,
+            "Metric": "SFT Loss",
+            "Value": 5.797372341156006
+        },
+        {
+            "Step": 26,
+            "Metric": "Learning Rate",
+            "Value": 1.04e-05
+        },
+        {
+            "Step": 27,
+            "Metric": "SFT Loss",
+            "Value": 7.414616107940674
+        },
+        {
+            "Step": 27,
+            "Metric": "Learning Rate",
+            "Value": 1.0800000000000002e-05
+        },
+        {
+            "Step": 28,
+            "Metric": "SFT Loss",
+            "Value": 7.067437171936035
+        },
+        {
+            "Step": 28,
+            "Metric": "Learning Rate",
+            "Value": 1.1200000000000001e-05
+        },
+        {
+            "Step": 29,
+            "Metric": "SFT Loss",
+            "Value": 6.7167463302612305
+        },
+        {
+            "Step": 29,
+            "Metric": "Learning Rate",
+            "Value": 1.16e-05
+        },
+        {
+            "Step": 30,
+            "Metric": "SFT Loss",
+            "Value": 6.630039691925049
+        },
+        {
+            "Step": 30,
+            "Metric": "Learning Rate",
+            "Value": 1.2e-05
+        },
+        {
+            "Step": 31,
+            "Metric": "SFT Loss",
+            "Value": 6.276569366455078
+        },
+        {
+            "Step": 31,
+            "Metric": "Learning Rate",
+            "Value": 1.2400000000000002e-05
+        },
+        {
+            "Step": 32,
+            "Metric": "SFT Loss",
+            "Value": 7.236689567565918
+        },
+        {
+            "Step": 32,
+            "Metric": "Learning Rate",
+            "Value": 1.2800000000000001e-05
+        },
+        {
+            "Step": 33,
+            "Metric": "SFT Loss",
+            "Value": 6.829200267791748
+        },
+        {
+            "Step": 33,
+            "Metric": "Learning Rate",
+            "Value": 1.3200000000000002e-05
+        },
+        {
+            "Step": 34,
+            "Metric": "SFT Loss",
+            "Value": 6.348658561706543
+        },
+        {
+            "Step": 34,
+            "Metric": "Learning Rate",
+            "Value": 1.3600000000000002e-05
+        },
+        {
+            "Step": 35,
+            "Metric": "SFT Loss",
+            "Value": 6.114589691162109
+        },
+        {
+            "Step": 35,
+            "Metric": "Learning Rate",
+            "Value": 1.4e-05
+        },
+        {
+            "Step": 36,
+            "Metric": "SFT Loss",
+            "Value": 5.820864677429199
+        },
+        {
+            "Step": 36,
+            "Metric": "Learning Rate",
+            "Value": 1.4400000000000001e-05
+        },
+        {
+            "Step": 37,
+            "Metric": "SFT Loss",
+            "Value": 6.093341827392578
+        },
+        {
+            "Step": 37,
+            "Metric": "Learning Rate",
+            "Value": 1.48e-05
+        },
+        {
+            "Step": 38,
+            "Metric": "SFT Loss",
+            "Value": 6.195661544799805
+        },
+        {
+            "Step": 38,
+            "Metric": "Learning Rate",
+            "Value": 1.5200000000000002e-05
+        },
+        {
+            "Step": 39,
+            "Metric": "SFT Loss",
+            "Value": 7.604869365692139
+        },
+        {
+            "Step": 39,
+            "Metric": "Learning Rate",
+            "Value": 1.5600000000000003e-05
+        },
+        {
+            "Step": 40,
+            "Metric": "SFT Loss",
+            "Value": 5.295370101928711
+        },
+        {
+            "Step": 40,
+            "Metric": "Learning Rate",
+            "Value": 1.6000000000000003e-05
+        },
+        {
+            "Step": 41,
+            "Metric": "SFT Loss",
+            "Value": 6.263326644897461
+        },
+        {
+            "Step": 41,
+            "Metric": "Learning Rate",
+            "Value": 1.64e-05
+        },
+        {
+            "Step": 42,
+            "Metric": "SFT Loss",
+            "Value": 6.123704433441162
+        },
+        {
+            "Step": 42,
+            "Metric": "Learning Rate",
+            "Value": 1.6800000000000002e-05
+        },
+        {
+            "Step": 43,
+            "Metric": "SFT Loss",
+            "Value": 6.104567050933838
+        },
+        {
+            "Step": 43,
+            "Metric": "Learning Rate",
+            "Value": 1.72e-05
+        },
+        {
+            "Step": 44,
+            "Metric": "SFT Loss",
+            "Value": 6.757107257843018
+        },
+        {
+            "Step": 44,
+            "Metric": "Learning Rate",
+            "Value": 1.76e-05
+        },
+        {
+            "Step": 45,
+            "Metric": "SFT Loss",
+            "Value": 6.533822059631348
+        },
+        {
+            "Step": 45,
+            "Metric": "Learning Rate",
+            "Value": 1.8e-05
+        },
+        {
+            "Step": 46,
+            "Metric": "SFT Loss",
+            "Value": 6.507102012634277
+        },
+        {
+            "Step": 46,
+            "Metric": "Learning Rate",
+            "Value": 1.8400000000000003e-05
+        },
+        {
+            "Step": 47,
+            "Metric": "SFT Loss",
+            "Value": 6.377279758453369
+        },
+        {
+            "Step": 47,
+            "Metric": "Learning Rate",
+            "Value": 1.88e-05
+        },
+        {
+            "Step": 48,
+            "Metric": "SFT Loss",
+            "Value": 6.2640581130981445
+        },
+        {
+            "Step": 48,
+            "Metric": "Learning Rate",
+            "Value": 1.9200000000000003e-05
+        },
+        {
+            "Step": 49,
+            "Metric": "SFT Loss",
+            "Value": 5.53227424621582
+        },
+        {
+            "Step": 49,
+            "Metric": "Learning Rate",
+            "Value": 1.9600000000000002e-05
+        },
+        {
+            "Step": 50,
+            "Metric": "SFT Loss",
+            "Value": 6.743251800537109
+        },
+        {
+            "Step": 50,
+            "Metric": "Learning Rate",
+            "Value": 2e-05
+        },
+        {
+            "Step": 51,
+            "Metric": "SFT Loss",
+            "Value": 5.5736985206604
+        },
+        {
+            "Step": 51,
+            "Metric": "Learning Rate",
+            "Value": 1.9955555555555557e-05
+        },
+        {
+            "Step": 52,
+            "Metric": "SFT Loss",
+            "Value": 5.360650539398193
+        },
+        {
+            "Step": 52,
+            "Metric": "Learning Rate",
+            "Value": 1.9911111111111112e-05
+        },
+        {
+            "Step": 53,
+            "Metric": "SFT Loss",
+            "Value": 5.423285484313965
+        },
+        {
+            "Step": 53,
+            "Metric": "Learning Rate",
+            "Value": 1.9866666666666667e-05
+        },
+        {
+            "Step": 54,
+            "Metric": "SFT Loss",
+            "Value": 5.108491897583008
+        },
+        {
+            "Step": 54,
+            "Metric": "Learning Rate",
+            "Value": 1.9822222222222226e-05
+        },
+        {
+            "Step": 55,
+            "Metric": "SFT Loss",
+            "Value": 4.632509231567383
+        },
+        {
+            "Step": 55,
+            "Metric": "Learning Rate",
+            "Value": 1.977777777777778e-05
+        },
+        {
+            "Step": 56,
+            "Metric": "SFT Loss",
+            "Value": 4.9901933670043945
+        },
+        {
+            "Step": 56,
+            "Metric": "Learning Rate",
+            "Value": 1.9733333333333336e-05
+        },
+        {
+            "Step": 57,
+            "Metric": "SFT Loss",
+            "Value": 4.968444347381592
+        },
+        {
+            "Step": 57,
+            "Metric": "Learning Rate",
+            "Value": 1.968888888888889e-05
+        },
+        {
+            "Step": 58,
+            "Metric": "SFT Loss",
+            "Value": 5.028273582458496
+        },
+        {
+            "Step": 58,
+            "Metric": "Learning Rate",
+            "Value": 1.9644444444444447e-05
+        },
+        {
+            "Step": 59,
+            "Metric": "SFT Loss",
+            "Value": 5.093855381011963
+        },
+        {
+            "Step": 59,
+            "Metric": "Learning Rate",
+            "Value": 1.9600000000000002e-05
+        },
+        {
+            "Step": 60,
+            "Metric": "SFT Loss",
+            "Value": 4.720518112182617
+        },
+        {
+            "Step": 60,
+            "Metric": "Learning Rate",
+            "Value": 1.9555555555555557e-05
+        },
+        {
+            "Step": 61,
+            "Metric": "SFT Loss",
+            "Value": 4.872599124908447
+        },
+        {
+            "Step": 61,
+            "Metric": "Learning Rate",
+            "Value": 1.9511111111111113e-05
+        },
+        {
+            "Step": 62,
+            "Metric": "SFT Loss",
+            "Value": 4.398301124572754
+        },
+        {
+            "Step": 62,
+            "Metric": "Learning Rate",
+            "Value": 1.9466666666666668e-05
+        },
+        {
+            "Step": 63,
+            "Metric": "SFT Loss",
+            "Value": 5.259819030761719
+        },
+        {
+            "Step": 63,
+            "Metric": "Learning Rate",
+            "Value": 1.9422222222222223e-05
+        },
+        {
+            "Step": 64,
+            "Metric": "SFT Loss",
+            "Value": 5.536286354064941
+        },
+        {
+            "Step": 64,
+            "Metric": "Learning Rate",
+            "Value": 1.9377777777777778e-05
+        },
+        {
+            "Step": 65,
+            "Metric": "SFT Loss",
+            "Value": 4.998850345611572
+        },
+        {
+            "Step": 65,
+            "Metric": "Learning Rate",
+            "Value": 1.9333333333333333e-05
+        },
+        {
+            "Step": 66,
+            "Metric": "SFT Loss",
+            "Value": 4.723838806152344
+        },
+        {
+            "Step": 66,
+            "Metric": "Learning Rate",
+            "Value": 1.928888888888889e-05
+        },
+        {
+            "Step": 67,
+            "Metric": "SFT Loss",
+            "Value": 5.087211608886719
+        },
+        {
+            "Step": 67,
+            "Metric": "Learning Rate",
+            "Value": 1.9244444444444444e-05
+        },
+        {
+            "Step": 68,
+            "Metric": "SFT Loss",
+            "Value": 4.477473258972168
+        },
+        {
+            "Step": 68,
+            "Metric": "Learning Rate",
+            "Value": 1.9200000000000003e-05
+        },
+        {
+            "Step": 69,
+            "Metric": "SFT Loss",
+            "Value": 4.780407905578613
+        },
+        {
+            "Step": 69,
+            "Metric": "Learning Rate",
+            "Value": 1.9155555555555558e-05
+        },
+        {
+            "Step": 70,
+            "Metric": "SFT Loss",
+            "Value": 4.482248783111572
+        },
+        {
+            "Step": 70,
+            "Metric": "Learning Rate",
+            "Value": 1.9111111111111113e-05
+        },
+        {
+            "Step": 71,
+            "Metric": "SFT Loss",
+            "Value": 4.773695468902588
+        },
+        {
+            "Step": 71,
+            "Metric": "Learning Rate",
+            "Value": 1.9066666666666668e-05
+        },
+        {
+            "Step": 72,
+            "Metric": "SFT Loss",
+            "Value": 4.399933815002441
+        },
+        {
+            "Step": 72,
+            "Metric": "Learning Rate",
+            "Value": 1.9022222222222223e-05
+        },
+        {
+            "Step": 73,
+            "Metric": "SFT Loss",
+            "Value": 4.540095329284668
+        },
+        {
+            "Step": 73,
+            "Metric": "Learning Rate",
+            "Value": 1.897777777777778e-05
+        },
+        {
+            "Step": 74,
+            "Metric": "SFT Loss",
+            "Value": 4.6496663093566895
+        },
+        {
+            "Step": 74,
+            "Metric": "Learning Rate",
+            "Value": 1.8933333333333334e-05
+        },
+        {
+            "Step": 75,
+            "Metric": "SFT Loss",
+            "Value": 5.276064872741699
+        },
+        {
+            "Step": 75,
+            "Metric": "Learning Rate",
+            "Value": 1.888888888888889e-05
+        },
+        {
+            "Step": 76,
+            "Metric": "SFT Loss",
+            "Value": 4.346099853515625
+        },
+        {
+            "Step": 76,
+            "Metric": "Learning Rate",
+            "Value": 1.8844444444444444e-05
+        },
+        {
+            "Step": 77,
+            "Metric": "SFT Loss",
+            "Value": 4.5329694747924805
+        },
+        {
+            "Step": 77,
+            "Metric": "Learning Rate",
+            "Value": 1.88e-05
+        },
+        {
+            "Step": 78,
+            "Metric": "SFT Loss",
+            "Value": 4.541317939758301
+        },
+        {
+            "Step": 78,
+            "Metric": "Learning Rate",
+            "Value": 1.8755555555555558e-05
+        },
+        {
+            "Step": 79,
+            "Metric": "SFT Loss",
+            "Value": 4.832979202270508
+        },
+        {
+            "Step": 79,
+            "Metric": "Learning Rate",
+            "Value": 1.8711111111111113e-05
+        },
+        {
+            "Step": 80,
+            "Metric": "SFT Loss",
+            "Value": 4.471445560455322
+        },
+        {
+            "Step": 80,
+            "Metric": "Learning Rate",
+            "Value": 1.866666666666667e-05
+        },
+        {
+            "Step": 81,
+            "Metric": "SFT Loss",
+            "Value": 5.19096040725708
+        },
+        {
+            "Step": 81,
+            "Metric": "Learning Rate",
+            "Value": 1.8622222222222224e-05
+        },
+        {
+            "Step": 82,
+            "Metric": "SFT Loss",
+            "Value": 4.298245906829834
+        },
+        {
+            "Step": 82,
+            "Metric": "Learning Rate",
+            "Value": 1.857777777777778e-05
+        },
+        {
+            "Step": 83,
+            "Metric": "SFT Loss",
+            "Value": 5.057285785675049
+        },
+        {
+            "Step": 83,
+            "Metric": "Learning Rate",
+            "Value": 1.8533333333333334e-05
+        },
+        {
+            "Step": 84,
+            "Metric": "SFT Loss",
+            "Value": 4.01115083694458
+        },
+        {
+            "Step": 84,
+            "Metric": "Learning Rate",
+            "Value": 1.848888888888889e-05
+        },
+        {
+            "Step": 85,
+            "Metric": "SFT Loss",
+            "Value": 4.00934362411499
+        },
+        {
+            "Step": 85,
+            "Metric": "Learning Rate",
+            "Value": 1.8444444444444448e-05
+        },
+        {
+            "Step": 86,
+            "Metric": "SFT Loss",
+            "Value": 4.560959339141846
+        },
+        {
+            "Step": 86,
+            "Metric": "Learning Rate",
+            "Value": 1.8400000000000003e-05
+        },
+        {
+            "Step": 87,
+            "Metric": "SFT Loss",
+            "Value": 3.884817361831665
+        },
+        {
+            "Step": 87,
+            "Metric": "Learning Rate",
+            "Value": 1.835555555555556e-05
+        },
+        {
+            "Step": 88,
+            "Metric": "SFT Loss",
+            "Value": 4.446163177490234
+        },
+        {
+            "Step": 88,
+            "Metric": "Learning Rate",
+            "Value": 1.8311111111111114e-05
+        },
+        {
+            "Step": 89,
+            "Metric": "SFT Loss",
+            "Value": 4.543856143951416
+        },
+        {
+            "Step": 89,
+            "Metric": "Learning Rate",
+            "Value": 1.826666666666667e-05
+        },
+        {
+            "Step": 90,
+            "Metric": "SFT Loss",
+            "Value": 4.007848262786865
+        },
+        {
+            "Step": 90,
+            "Metric": "Learning Rate",
+            "Value": 1.8222222222222224e-05
+        },
+        {
+            "Step": 91,
+            "Metric": "SFT Loss",
+            "Value": 4.391502857208252
+        },
+        {
+            "Step": 91,
+            "Metric": "Learning Rate",
+            "Value": 1.817777777777778e-05
+        },
+        {
+            "Step": 92,
+            "Metric": "SFT Loss",
+            "Value": 4.319259166717529
+        },
+        {
+            "Step": 92,
+            "Metric": "Learning Rate",
+            "Value": 1.8133333333333335e-05
+        },
+        {
+            "Step": 93,
+            "Metric": "SFT Loss",
+            "Value": 4.551959991455078
+        },
+        {
+            "Step": 93,
+            "Metric": "Learning Rate",
+            "Value": 1.808888888888889e-05
+        },
+        {
+            "Step": 94,
+            "Metric": "SFT Loss",
+            "Value": 4.233450412750244
+        },
+        {
+            "Step": 94,
+            "Metric": "Learning Rate",
+            "Value": 1.8044444444444445e-05
+        },
+        {
+            "Step": 95,
+            "Metric": "SFT Loss",
+            "Value": 4.298363208770752
+        },
+        {
+            "Step": 95,
+            "Metric": "Learning Rate",
+            "Value": 1.8e-05
+        },
+        {
+            "Step": 96,
+            "Metric": "SFT Loss",
+            "Value": 4.241702079772949
+        },
+        {
+            "Step": 96,
+            "Metric": "Learning Rate",
+            "Value": 1.7955555555555556e-05
+        },
+        {
+            "Step": 97,
+            "Metric": "SFT Loss",
+            "Value": 3.702441692352295
+        },
+        {
+            "Step": 97,
+            "Metric": "Learning Rate",
+            "Value": 1.791111111111111e-05
+        },
+        {
+            "Step": 98,
+            "Metric": "SFT Loss",
+            "Value": 4.456193923950195
+        },
+        {
+            "Step": 98,
+            "Metric": "Learning Rate",
+            "Value": 1.7866666666666666e-05
+        },
+        {
+            "Step": 99,
+            "Metric": "SFT Loss",
+            "Value": 3.991964817047119
+        },
+        {
+            "Step": 99,
+            "Metric": "Learning Rate",
+            "Value": 1.782222222222222e-05
+        },
+        {
+            "Step": 100,
+            "Metric": "SFT Loss",
+            "Value": 3.4140963554382324
+        },
+        {
+            "Step": 100,
+            "Metric": "Learning Rate",
+            "Value": 1.7777777777777777e-05
+        },
+        {
+            "Step": 101,
+            "Metric": "SFT Loss",
+            "Value": 4.197049140930176
+        },
+        {
+            "Step": 101,
+            "Metric": "Learning Rate",
+            "Value": 1.7733333333333335e-05
+        },
+        {
+            "Step": 102,
+            "Metric": "SFT Loss",
+            "Value": 4.2692036628723145
+        },
+        {
+            "Step": 102,
+            "Metric": "Learning Rate",
+            "Value": 1.768888888888889e-05
+        },
+        {
+            "Step": 103,
+            "Metric": "SFT Loss",
+            "Value": 3.8439722061157227
+        },
+        {
+            "Step": 103,
+            "Metric": "Learning Rate",
+            "Value": 1.7644444444444446e-05
+        },
+        {
+            "Step": 104,
+            "Metric": "SFT Loss",
+            "Value": 3.943871021270752
+        },
+        {
+            "Step": 104,
+            "Metric": "Learning Rate",
+            "Value": 1.76e-05
+        },
+        {
+            "Step": 105,
+            "Metric": "SFT Loss",
+            "Value": 4.58375358581543
+        },
+        {
+            "Step": 105,
+            "Metric": "Learning Rate",
+            "Value": 1.7555555555555556e-05
+        },
+        {
+            "Step": 106,
+            "Metric": "SFT Loss",
+            "Value": 3.6572935581207275
+        },
+        {
+            "Step": 106,
+            "Metric": "Learning Rate",
+            "Value": 1.751111111111111e-05
+        },
+        {
+            "Step": 107,
+            "Metric": "SFT Loss",
+            "Value": 3.9028666019439697
+        },
+        {
+            "Step": 107,
+            "Metric": "Learning Rate",
+            "Value": 1.7466666666666667e-05
+        },
+        {
+            "Step": 108,
+            "Metric": "SFT Loss",
+            "Value": 4.1736321449279785
+        },
+        {
+            "Step": 108,
+            "Metric": "Learning Rate",
+            "Value": 1.7422222222222222e-05
+        },
+        {
+            "Step": 109,
+            "Metric": "SFT Loss",
+            "Value": 3.8696651458740234
+        },
+        {
+            "Step": 109,
+            "Metric": "Learning Rate",
+            "Value": 1.737777777777778e-05
+        },
+        {
+            "Step": 110,
+            "Metric": "SFT Loss",
+            "Value": 3.711902618408203
+        },
+        {
+            "Step": 110,
+            "Metric": "Learning Rate",
+            "Value": 1.7333333333333336e-05
+        },
+        {
+            "Step": 111,
+            "Metric": "SFT Loss",
+            "Value": 3.8743908405303955
+        },
+        {
+            "Step": 111,
+            "Metric": "Learning Rate",
+            "Value": 1.728888888888889e-05
+        },
+        {
+            "Step": 112,
+            "Metric": "SFT Loss",
+            "Value": 4.811700344085693
+        },
+        {
+            "Step": 112,
+            "Metric": "Learning Rate",
+            "Value": 1.7244444444444446e-05
+        },
+        {
+            "Step": 113,
+            "Metric": "SFT Loss",
+            "Value": 3.9556643962860107
+        },
+        {
+            "Step": 113,
+            "Metric": "Learning Rate",
+            "Value": 1.72e-05
+        },
+        {
+            "Step": 114,
+            "Metric": "SFT Loss",
+            "Value": 3.762240409851074
+        },
+        {
+            "Step": 114,
+            "Metric": "Learning Rate",
+            "Value": 1.7155555555555557e-05
+        },
+        {
+            "Step": 115,
+            "Metric": "SFT Loss",
+            "Value": 3.8440146446228027
+        },
+        {
+            "Step": 115,
+            "Metric": "Learning Rate",
+            "Value": 1.7111111111111112e-05
+        },
+        {
+            "Step": 116,
+            "Metric": "SFT Loss",
+            "Value": 3.7602431774139404
+        },
+        {
+            "Step": 116,
+            "Metric": "Learning Rate",
+            "Value": 1.706666666666667e-05
+        },
+        {
+            "Step": 117,
+            "Metric": "SFT Loss",
+            "Value": 3.3839704990386963
+        },
+        {
+            "Step": 117,
+            "Metric": "Learning Rate",
+            "Value": 1.7022222222222226e-05
+        },
+        {
+            "Step": 118,
+            "Metric": "SFT Loss",
+            "Value": 4.222746849060059
+        },
+        {
+            "Step": 118,
+            "Metric": "Learning Rate",
+            "Value": 1.697777777777778e-05
+        },
+        {
+            "Step": 119,
+            "Metric": "SFT Loss",
+            "Value": 4.096693515777588
+        },
+        {
+            "Step": 119,
+            "Metric": "Learning Rate",
+            "Value": 1.6933333333333336e-05
+        },
+        {
+            "Step": 120,
+            "Metric": "SFT Loss",
+            "Value": 3.2182490825653076
+        },
+        {
+            "Step": 120,
+            "Metric": "Learning Rate",
+            "Value": 1.688888888888889e-05
+        },
+        {
+            "Step": 121,
+            "Metric": "SFT Loss",
+            "Value": 4.5842437744140625
+        },
+        {
+            "Step": 121,
+            "Metric": "Learning Rate",
+            "Value": 1.6844444444444447e-05
+        },
+        {
+            "Step": 122,
+            "Metric": "SFT Loss",
+            "Value": 3.760061264038086
+        },
+        {
+            "Step": 122,
+            "Metric": "Learning Rate",
+            "Value": 1.6800000000000002e-05
+        },
+        {
+            "Step": 123,
+            "Metric": "SFT Loss",
+            "Value": 4.013190746307373
+        },
+        {
+            "Step": 123,
+            "Metric": "Learning Rate",
+            "Value": 1.6755555555555557e-05
+        },
+        {
+            "Step": 124,
+            "Metric": "SFT Loss",
+            "Value": 3.986571788787842
+        },
+        {
+            "Step": 124,
+            "Metric": "Learning Rate",
+            "Value": 1.6711111111111112e-05
+        },
+        {
+            "Step": 125,
+            "Metric": "SFT Loss",
+            "Value": 3.589707612991333
+        },
+        {
+            "Step": 125,
+            "Metric": "Learning Rate",
+            "Value": 1.6666666666666667e-05
+        },
+        {
+            "Step": 126,
+            "Metric": "SFT Loss",
+            "Value": 3.719574213027954
+        },
+        {
+            "Step": 126,
+            "Metric": "Learning Rate",
+            "Value": 1.6622222222222223e-05
+        },
+        {
+            "Step": 127,
+            "Metric": "SFT Loss",
+            "Value": 3.9422574043273926
+        },
+        {
+            "Step": 127,
+            "Metric": "Learning Rate",
+            "Value": 1.6577777777777778e-05
+        },
+        {
+            "Step": 128,
+            "Metric": "SFT Loss",
+            "Value": 3.654411792755127
+        },
+        {
+            "Step": 128,
+            "Metric": "Learning Rate",
+            "Value": 1.6533333333333333e-05
+        },
+        {
+            "Step": 129,
+            "Metric": "SFT Loss",
+            "Value": 3.6934542655944824
+        },
+        {
+            "Step": 129,
+            "Metric": "Learning Rate",
+            "Value": 1.648888888888889e-05
+        },
+        {
+            "Step": 130,
+            "Metric": "SFT Loss",
+            "Value": 3.9743876457214355
+        },
+        {
+            "Step": 130,
+            "Metric": "Learning Rate",
+            "Value": 1.6444444444444444e-05
+        },
+        {
+            "Step": 131,
+            "Metric": "SFT Loss",
+            "Value": 3.4909720420837402
+        },
+        {
+            "Step": 131,
+            "Metric": "Learning Rate",
+            "Value": 1.64e-05
+        },
+        {
+            "Step": 132,
+            "Metric": "SFT Loss",
+            "Value": 4.221559524536133
+        },
+        {
+            "Step": 132,
+            "Metric": "Learning Rate",
+            "Value": 1.6355555555555557e-05
+        },
+        {
+            "Step": 133,
+            "Metric": "SFT Loss",
+            "Value": 3.9914636611938477
+        },
+        {
+            "Step": 133,
+            "Metric": "Learning Rate",
+            "Value": 1.6311111111111113e-05
+        },
+        {
+            "Step": 134,
+            "Metric": "SFT Loss",
+            "Value": 3.7926385402679443
+        },
+        {
+            "Step": 134,
+            "Metric": "Learning Rate",
+            "Value": 1.6266666666666668e-05
+        },
+        {
+            "Step": 135,
+            "Metric": "SFT Loss",
+            "Value": 4.259970664978027
+        },
+        {
+            "Step": 135,
+            "Metric": "Learning Rate",
+            "Value": 1.6222222222222223e-05
+        },
+        {
+            "Step": 136,
+            "Metric": "SFT Loss",
+            "Value": 3.239041566848755
+        },
+        {
+            "Step": 136,
+            "Metric": "Learning Rate",
+            "Value": 1.617777777777778e-05
+        },
+        {
+            "Step": 137,
+            "Metric": "SFT Loss",
+            "Value": 3.918592691421509
+        },
+        {
+            "Step": 137,
+            "Metric": "Learning Rate",
+            "Value": 1.6133333333333334e-05
+        },
+        {
+            "Step": 138,
+            "Metric": "SFT Loss",
+            "Value": 4.1163763999938965
+        },
+        {
+            "Step": 138,
+            "Metric": "Learning Rate",
+            "Value": 1.608888888888889e-05
+        },
+        {
+            "Step": 139,
+            "Metric": "SFT Loss",
+            "Value": 3.4058291912078857
+        },
+        {
+            "Step": 139,
+            "Metric": "Learning Rate",
+            "Value": 1.6044444444444444e-05
+        },
+        {
+            "Step": 140,
+            "Metric": "SFT Loss",
+            "Value": 4.034569263458252
+        },
+        {
+            "Step": 140,
+            "Metric": "Learning Rate",
+            "Value": 1.6000000000000003e-05
+        }
+    ],
+    "sft_complete": false
+}

checkpoints/stable-run-sft-step-140/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/stable-run-sft-step-160/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}