thkim0305 commited on May 15, 2025

Commit

c3dd1b8

verified ·

1 Parent(s): 163326b

Upload folder using huggingface_hub

Browse files

Files changed (44) hide show

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr0.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr100.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr125.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr150.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr175.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr200.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr25.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr50.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr75.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_trainer_state.json +742 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr0.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr100.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr125.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr150.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr175.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr200.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr25.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr50.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr75.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_trainer_state.json +742 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr0.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr100.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr125.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr150.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr175.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr200.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr25.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr50.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr75.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_trainer_state.json +742 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr0.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr100.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr125.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr150.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr175.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr200.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr25.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr50.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr75.pth +3 -0
client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_trainer_state.json +742 -0

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9c87175d6670ea0a7e93a81d8836225b3c726b3daa4fbfe87fefa157cea616a
+size 389170122

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b0102e813ed9d28a49d25fcc64b847bda863108e19f3ff5681263b527d6a413
+size 389172166

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr100.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d8efd7b883c051ce014f750e26cb5cb90a1e5fb3319b48953a83b49f23c5546
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr125.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1eaa483fa6f46352a8b7d5f44c5c792f501ea238c1ce4fd396993be54dd2ef58
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr150.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcb63eb11795c0a75df6ba716dec5a301d613230b740101ba1422ad03a8d3455
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr175.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:128b4087fc1df81576986c9f476fa1d82ff7268f03b0fe5cc6e193a5079c8f6b
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr200.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72c214c649182fabc10bd7248537f81c5df845d5b4cb6592ba47f932f0576bc3
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr25.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd3b132d03a92166634fa1e31f278cb279365653994dcb731d5e955b870c8272
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr50.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bf804f790082b1e20fc3ee8d7fe51388c1fb419aee382d3e8052b939525aaf0
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_client_model_round1_itr75.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce18d753cf3cd6d1fc131bfbdf829243456103ba84069d3fb80747cac5beb3af
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/0_trainer_state.json ADDED Viewed

	@@ -0,0 +1,742 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 201,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.009950248756218905,
+      "grad_norm": 1.316588044166565,
+      "learning_rate": 1e-05,
+      "loss": 1.7881,
+      "step": 2
+    },
+    {
+      "epoch": 0.01990049751243781,
+      "grad_norm": 1.1037206649780273,
+      "learning_rate": 1e-05,
+      "loss": 1.7363,
+      "step": 4
+    },
+    {
+      "epoch": 0.029850746268656716,
+      "grad_norm": 0.7940536141395569,
+      "learning_rate": 1e-05,
+      "loss": 1.707,
+      "step": 6
+    },
+    {
+      "epoch": 0.03980099502487562,
+      "grad_norm": 0.8492249250411987,
+      "learning_rate": 1e-05,
+      "loss": 1.6855,
+      "step": 8
+    },
+    {
+      "epoch": 0.04975124378109453,
+      "grad_norm": 1.1886231899261475,
+      "learning_rate": 1e-05,
+      "loss": 1.7168,
+      "step": 10
+    },
+    {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 1.4966411590576172,
+      "learning_rate": 1e-05,
+      "loss": 2.1992,
+      "step": 12
+    },
+    {
+      "epoch": 0.06965174129353234,
+      "grad_norm": 1.4271999597549438,
+      "learning_rate": 1e-05,
+      "loss": 1.7031,
+      "step": 14
+    },
+    {
+      "epoch": 0.07960199004975124,
+      "grad_norm": 1.644882321357727,
+      "learning_rate": 1e-05,
+      "loss": 2.1426,
+      "step": 16
+    },
+    {
+      "epoch": 0.08955223880597014,
+      "grad_norm": 1.7688827514648438,
+      "learning_rate": 1e-05,
+      "loss": 2.1768,
+      "step": 18
+    },
+    {
+      "epoch": 0.09950248756218906,
+      "grad_norm": 0.8430641889572144,
+      "learning_rate": 1e-05,
+      "loss": 1.9033,
+      "step": 20
+    },
+    {
+      "epoch": 0.10945273631840796,
+      "grad_norm": 1.0195722579956055,
+      "learning_rate": 1e-05,
+      "loss": 1.7842,
+      "step": 22
+    },
+    {
+      "epoch": 0.11940298507462686,
+      "grad_norm": 0.7112452387809753,
+      "learning_rate": 1e-05,
+      "loss": 1.8604,
+      "step": 24
+    },
+    {
+      "epoch": 0.12935323383084577,
+      "grad_norm": 1.6654636859893799,
+      "learning_rate": 1e-05,
+      "loss": 1.5967,
+      "step": 26
+    },
+    {
+      "epoch": 0.13930348258706468,
+      "grad_norm": 0.5782097578048706,
+      "learning_rate": 1e-05,
+      "loss": 1.7471,
+      "step": 28
+    },
+    {
+      "epoch": 0.14925373134328357,
+      "grad_norm": 1.0965440273284912,
+      "learning_rate": 1e-05,
+      "loss": 1.6221,
+      "step": 30
+    },
+    {
+      "epoch": 0.15920398009950248,
+      "grad_norm": 1.0025074481964111,
+      "learning_rate": 1e-05,
+      "loss": 1.9658,
+      "step": 32
+    },
+    {
+      "epoch": 0.1691542288557214,
+      "grad_norm": 1.0948214530944824,
+      "learning_rate": 1e-05,
+      "loss": 2.0059,
+      "step": 34
+    },
+    {
+      "epoch": 0.1791044776119403,
+      "grad_norm": 1.1663291454315186,
+      "learning_rate": 1e-05,
+      "loss": 1.8125,
+      "step": 36
+    },
+    {
+      "epoch": 0.1890547263681592,
+      "grad_norm": 0.6280285120010376,
+      "learning_rate": 1e-05,
+      "loss": 1.833,
+      "step": 38
+    },
+    {
+      "epoch": 0.19900497512437812,
+      "grad_norm": 0.7364129424095154,
+      "learning_rate": 1e-05,
+      "loss": 1.6533,
+      "step": 40
+    },
+    {
+      "epoch": 0.208955223880597,
+      "grad_norm": 1.1327072381973267,
+      "learning_rate": 1e-05,
+      "loss": 1.9336,
+      "step": 42
+    },
+    {
+      "epoch": 0.21890547263681592,
+      "grad_norm": 0.7770842909812927,
+      "learning_rate": 1e-05,
+      "loss": 1.7471,
+      "step": 44
+    },
+    {
+      "epoch": 0.22885572139303484,
+      "grad_norm": 0.7920796871185303,
+      "learning_rate": 1e-05,
+      "loss": 1.9375,
+      "step": 46
+    },
+    {
+      "epoch": 0.23880597014925373,
+      "grad_norm": 0.8180975914001465,
+      "learning_rate": 1e-05,
+      "loss": 1.999,
+      "step": 48
+    },
+    {
+      "epoch": 0.24875621890547264,
+      "grad_norm": 0.9668822884559631,
+      "learning_rate": 1e-05,
+      "loss": 1.8721,
+      "step": 50
+    },
+    {
+      "epoch": 0.25870646766169153,
+      "grad_norm": 0.6620003581047058,
+      "learning_rate": 1e-05,
+      "loss": 1.6611,
+      "step": 52
+    },
+    {
+      "epoch": 0.26865671641791045,
+      "grad_norm": 1.0094668865203857,
+      "learning_rate": 1e-05,
+      "loss": 2.0352,
+      "step": 54
+    },
+    {
+      "epoch": 0.27860696517412936,
+      "grad_norm": 0.8333507776260376,
+      "learning_rate": 1e-05,
+      "loss": 1.9297,
+      "step": 56
+    },
+    {
+      "epoch": 0.2885572139303483,
+      "grad_norm": 0.6568053364753723,
+      "learning_rate": 1e-05,
+      "loss": 1.8447,
+      "step": 58
+    },
+    {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 1.129006028175354,
+      "learning_rate": 1e-05,
+      "loss": 1.8936,
+      "step": 60
+    },
+    {
+      "epoch": 0.30845771144278605,
+      "grad_norm": 0.7393130660057068,
+      "learning_rate": 1e-05,
+      "loss": 1.9336,
+      "step": 62
+    },
+    {
+      "epoch": 0.31840796019900497,
+      "grad_norm": 0.4612615704536438,
+      "learning_rate": 1e-05,
+      "loss": 1.9365,
+      "step": 64
+    },
+    {
+      "epoch": 0.3283582089552239,
+      "grad_norm": 0.6561993360519409,
+      "learning_rate": 1e-05,
+      "loss": 1.8389,
+      "step": 66
+    },
+    {
+      "epoch": 0.3383084577114428,
+      "grad_norm": 1.0325121879577637,
+      "learning_rate": 1e-05,
+      "loss": 1.8486,
+      "step": 68
+    },
+    {
+      "epoch": 0.3482587064676617,
+      "grad_norm": 0.7401711344718933,
+      "learning_rate": 1e-05,
+      "loss": 1.8662,
+      "step": 70
+    },
+    {
+      "epoch": 0.3582089552238806,
+      "grad_norm": 0.6198751330375671,
+      "learning_rate": 1e-05,
+      "loss": 1.8506,
+      "step": 72
+    },
+    {
+      "epoch": 0.3681592039800995,
+      "grad_norm": 0.6299334764480591,
+      "learning_rate": 1e-05,
+      "loss": 1.8555,
+      "step": 74
+    },
+    {
+      "epoch": 0.3781094527363184,
+      "grad_norm": 0.8257051706314087,
+      "learning_rate": 1e-05,
+      "loss": 1.7344,
+      "step": 76
+    },
+    {
+      "epoch": 0.3880597014925373,
+      "grad_norm": 0.8762025237083435,
+      "learning_rate": 1e-05,
+      "loss": 1.7891,
+      "step": 78
+    },
+    {
+      "epoch": 0.39800995024875624,
+      "grad_norm": 1.2744340896606445,
+      "learning_rate": 1e-05,
+      "loss": 1.9102,
+      "step": 80
+    },
+    {
+      "epoch": 0.4079601990049751,
+      "grad_norm": 0.5431731939315796,
+      "learning_rate": 1e-05,
+      "loss": 1.7705,
+      "step": 82
+    },
+    {
+      "epoch": 0.417910447761194,
+      "grad_norm": 0.8810946345329285,
+      "learning_rate": 1e-05,
+      "loss": 1.6855,
+      "step": 84
+    },
+    {
+      "epoch": 0.42786069651741293,
+      "grad_norm": 0.8568848967552185,
+      "learning_rate": 1e-05,
+      "loss": 1.7959,
+      "step": 86
+    },
+    {
+      "epoch": 0.43781094527363185,
+      "grad_norm": 0.9605632424354553,
+      "learning_rate": 1e-05,
+      "loss": 1.873,
+      "step": 88
+    },
+    {
+      "epoch": 0.44776119402985076,
+      "grad_norm": 0.512973964214325,
+      "learning_rate": 1e-05,
+      "loss": 1.7891,
+      "step": 90
+    },
+    {
+      "epoch": 0.4577114427860697,
+      "grad_norm": 0.723425567150116,
+      "learning_rate": 1e-05,
+      "loss": 1.877,
+      "step": 92
+    },
+    {
+      "epoch": 0.46766169154228854,
+      "grad_norm": 0.5228793025016785,
+      "learning_rate": 1e-05,
+      "loss": 1.999,
+      "step": 94
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 0.7799379825592041,
+      "learning_rate": 1e-05,
+      "loss": 1.751,
+      "step": 96
+    },
+    {
+      "epoch": 0.48756218905472637,
+      "grad_norm": 1.0080820322036743,
+      "learning_rate": 1e-05,
+      "loss": 1.877,
+      "step": 98
+    },
+    {
+      "epoch": 0.4975124378109453,
+      "grad_norm": 0.9821782112121582,
+      "learning_rate": 1e-05,
+      "loss": 1.8867,
+      "step": 100
+    },
+    {
+      "epoch": 0.5074626865671642,
+      "grad_norm": 0.5222265720367432,
+      "learning_rate": 1e-05,
+      "loss": 1.793,
+      "step": 102
+    },
+    {
+      "epoch": 0.5174129353233831,
+      "grad_norm": 0.5731136798858643,
+      "learning_rate": 1e-05,
+      "loss": 1.915,
+      "step": 104
+    },
+    {
+      "epoch": 0.527363184079602,
+      "grad_norm": 0.6745629906654358,
+      "learning_rate": 1e-05,
+      "loss": 1.7998,
+      "step": 106
+    },
+    {
+      "epoch": 0.5373134328358209,
+      "grad_norm": 0.7346249222755432,
+      "learning_rate": 1e-05,
+      "loss": 1.7988,
+      "step": 108
+    },
+    {
+      "epoch": 0.5472636815920398,
+      "grad_norm": 0.6089544892311096,
+      "learning_rate": 1e-05,
+      "loss": 1.7949,
+      "step": 110
+    },
+    {
+      "epoch": 0.5572139303482587,
+      "grad_norm": 0.9230899214744568,
+      "learning_rate": 1e-05,
+      "loss": 1.9463,
+      "step": 112
+    },
+    {
+      "epoch": 0.5671641791044776,
+      "grad_norm": 0.8394888639450073,
+      "learning_rate": 1e-05,
+      "loss": 1.9131,
+      "step": 114
+    },
+    {
+      "epoch": 0.5771144278606966,
+      "grad_norm": 0.603209376335144,
+      "learning_rate": 1e-05,
+      "loss": 1.8389,
+      "step": 116
+    },
+    {
+      "epoch": 0.5870646766169154,
+      "grad_norm": 0.6753935813903809,
+      "learning_rate": 1e-05,
+      "loss": 1.8379,
+      "step": 118
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.7781857252120972,
+      "learning_rate": 1e-05,
+      "loss": 1.8662,
+      "step": 120
+    },
+    {
+      "epoch": 0.6069651741293532,
+      "grad_norm": 0.6543675661087036,
+      "learning_rate": 1e-05,
+      "loss": 1.8711,
+      "step": 122
+    },
+    {
+      "epoch": 0.6169154228855721,
+      "grad_norm": 0.7465837001800537,
+      "learning_rate": 1e-05,
+      "loss": 1.8457,
+      "step": 124
+    },
+    {
+      "epoch": 0.6268656716417911,
+      "grad_norm": 0.6059397459030151,
+      "learning_rate": 1e-05,
+      "loss": 1.8184,
+      "step": 126
+    },
+    {
+      "epoch": 0.6368159203980099,
+      "grad_norm": 0.6485504508018494,
+      "learning_rate": 1e-05,
+      "loss": 1.877,
+      "step": 128
+    },
+    {
+      "epoch": 0.6467661691542289,
+      "grad_norm": 0.6433750987052917,
+      "learning_rate": 1e-05,
+      "loss": 1.7803,
+      "step": 130
+    },
+    {
+      "epoch": 0.6567164179104478,
+      "grad_norm": 0.6054277420043945,
+      "learning_rate": 1e-05,
+      "loss": 1.8145,
+      "step": 132
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.9794463515281677,
+      "learning_rate": 1e-05,
+      "loss": 1.6592,
+      "step": 134
+    },
+    {
+      "epoch": 0.6766169154228856,
+      "grad_norm": 1.128212332725525,
+      "learning_rate": 1e-05,
+      "loss": 2.042,
+      "step": 136
+    },
+    {
+      "epoch": 0.6865671641791045,
+      "grad_norm": 0.848319947719574,
+      "learning_rate": 1e-05,
+      "loss": 1.9219,
+      "step": 138
+    },
+    {
+      "epoch": 0.6965174129353234,
+      "grad_norm": 1.446349859237671,
+      "learning_rate": 1e-05,
+      "loss": 1.9805,
+      "step": 140
+    },
+    {
+      "epoch": 0.7064676616915423,
+      "grad_norm": 0.8592532277107239,
+      "learning_rate": 1e-05,
+      "loss": 1.9404,
+      "step": 142
+    },
+    {
+      "epoch": 0.7164179104477612,
+      "grad_norm": 0.7463251948356628,
+      "learning_rate": 1e-05,
+      "loss": 2.0098,
+      "step": 144
+    },
+    {
+      "epoch": 0.7263681592039801,
+      "grad_norm": 0.6972345113754272,
+      "learning_rate": 1e-05,
+      "loss": 1.9043,
+      "step": 146
+    },
+    {
+      "epoch": 0.736318407960199,
+      "grad_norm": 1.0360370874404907,
+      "learning_rate": 1e-05,
+      "loss": 1.918,
+      "step": 148
+    },
+    {
+      "epoch": 0.746268656716418,
+      "grad_norm": 0.7613181471824646,
+      "learning_rate": 1e-05,
+      "loss": 1.8232,
+      "step": 150
+    },
+    {
+      "epoch": 0.7562189054726368,
+      "grad_norm": 0.8578123450279236,
+      "learning_rate": 1e-05,
+      "loss": 1.9209,
+      "step": 152
+    },
+    {
+      "epoch": 0.7661691542288557,
+      "grad_norm": 0.6234486103057861,
+      "learning_rate": 1e-05,
+      "loss": 1.8105,
+      "step": 154
+    },
+    {
+      "epoch": 0.7761194029850746,
+      "grad_norm": 0.8788239359855652,
+      "learning_rate": 1e-05,
+      "loss": 1.7852,
+      "step": 156
+    },
+    {
+      "epoch": 0.7860696517412935,
+      "grad_norm": 0.5887688994407654,
+      "learning_rate": 1e-05,
+      "loss": 1.835,
+      "step": 158
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "grad_norm": 0.5808454155921936,
+      "learning_rate": 1e-05,
+      "loss": 1.8691,
+      "step": 160
+    },
+    {
+      "epoch": 0.8059701492537313,
+      "grad_norm": 0.8322702050209045,
+      "learning_rate": 1e-05,
+      "loss": 1.8652,
+      "step": 162
+    },
+    {
+      "epoch": 0.8159203980099502,
+      "grad_norm": 0.6851075291633606,
+      "learning_rate": 1e-05,
+      "loss": 2.043,
+      "step": 164
+    },
+    {
+      "epoch": 0.8258706467661692,
+      "grad_norm": 0.6591010093688965,
+      "learning_rate": 1e-05,
+      "loss": 1.8418,
+      "step": 166
+    },
+    {
+      "epoch": 0.835820895522388,
+      "grad_norm": 0.9328513145446777,
+      "learning_rate": 1e-05,
+      "loss": 1.8467,
+      "step": 168
+    },
+    {
+      "epoch": 0.845771144278607,
+      "grad_norm": 0.7491399049758911,
+      "learning_rate": 1e-05,
+      "loss": 1.7734,
+      "step": 170
+    },
+    {
+      "epoch": 0.8557213930348259,
+      "grad_norm": 0.6368930339813232,
+      "learning_rate": 1e-05,
+      "loss": 1.8408,
+      "step": 172
+    },
+    {
+      "epoch": 0.8656716417910447,
+      "grad_norm": 0.6846456527709961,
+      "learning_rate": 1e-05,
+      "loss": 1.9053,
+      "step": 174
+    },
+    {
+      "epoch": 0.8756218905472637,
+      "grad_norm": 0.5860757231712341,
+      "learning_rate": 1e-05,
+      "loss": 1.8438,
+      "step": 176
+    },
+    {
+      "epoch": 0.8855721393034826,
+      "grad_norm": 0.6338534355163574,
+      "learning_rate": 1e-05,
+      "loss": 1.8496,
+      "step": 178
+    },
+    {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 0.5710776448249817,
+      "learning_rate": 1e-05,
+      "loss": 1.7627,
+      "step": 180
+    },
+    {
+      "epoch": 0.9054726368159204,
+      "grad_norm": 0.7385186553001404,
+      "learning_rate": 1e-05,
+      "loss": 1.791,
+      "step": 182
+    },
+    {
+      "epoch": 0.9154228855721394,
+      "grad_norm": 0.5550143122673035,
+      "learning_rate": 1e-05,
+      "loss": 1.7607,
+      "step": 184
+    },
+    {
+      "epoch": 0.9253731343283582,
+      "grad_norm": 0.6846106648445129,
+      "learning_rate": 1e-05,
+      "loss": 1.8447,
+      "step": 186
+    },
+    {
+      "epoch": 0.9353233830845771,
+      "grad_norm": 0.43355798721313477,
+      "learning_rate": 1e-05,
+      "loss": 1.7822,
+      "step": 188
+    },
+    {
+      "epoch": 0.945273631840796,
+      "grad_norm": 0.6083195209503174,
+      "learning_rate": 1e-05,
+      "loss": 1.8418,
+      "step": 190
+    },
+    {
+      "epoch": 0.9552238805970149,
+      "grad_norm": 1.3910738229751587,
+      "learning_rate": 1e-05,
+      "loss": 2.0508,
+      "step": 192
+    },
+    {
+      "epoch": 0.9651741293532339,
+      "grad_norm": 0.6805091500282288,
+      "learning_rate": 1e-05,
+      "loss": 1.8906,
+      "step": 194
+    },
+    {
+      "epoch": 0.9751243781094527,
+      "grad_norm": 0.7249168753623962,
+      "learning_rate": 1e-05,
+      "loss": 1.9424,
+      "step": 196
+    },
+    {
+      "epoch": 0.9850746268656716,
+      "grad_norm": 0.6910979747772217,
+      "learning_rate": 1e-05,
+      "loss": 1.8467,
+      "step": 198
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "grad_norm": 0.5376845598220825,
+      "learning_rate": 1e-05,
+      "loss": 1.8105,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "step": 201,
+      "total_flos": 4.207228707510682e+16,
+      "train_loss": 1.8549926150497513,
+      "train_runtime": 548.5019,
+      "train_samples_per_second": 1.466,
+      "train_steps_per_second": 0.366
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 201,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.207228707510682e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:001f4000001fb736aff464f30f0d782601e31161ce407d88322d15b792880c1a
+size 389170122

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e8b0d276fa4d098986bf6074ca63416ea79b7ec5a916f8e4a01940fc76660ea
+size 389172166

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr100.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d437b04572abbed85cb39c65fabeb508959096c75388d5bef11b19e797566c0e
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr125.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8a4da4cc37ea14cc4b5aee2b93783d9e7237d59b56cb34e8efac177e0efb89b
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr150.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10b27d2f9cf8fe79ff703abcfc09de76db592720e6c8c20b3111e702fe7ac719
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr175.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:191069f1dce0ec6078bf81d2ff2e78e66a559f44093cc8003ac4893a73b8e058
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr200.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:102805372f12920f3fa2ed2d140065828e2e2d25ab3432d393c954c4ce1d6c98
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr25.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d82e1b14da8bbba34bdd50adbbf25114daf82ba7984c890086c6b7e42fefba2
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr50.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4a1906c160dc30bf726a4f54af8b913ba4043c992dbc5d778a3e5f4cf346c13
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_client_model_round1_itr75.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:069a89736b0f91c14b1703db6b7d7c151a1213b54437d9a99f4972fe03ffab7b
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/1_trainer_state.json ADDED Viewed

	@@ -0,0 +1,742 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 201,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.009950248756218905,
+      "grad_norm": 1.3227640390396118,
+      "learning_rate": 1e-05,
+      "loss": 1.8506,
+      "step": 2
+    },
+    {
+      "epoch": 0.01990049751243781,
+      "grad_norm": 1.6141871213912964,
+      "learning_rate": 1e-05,
+      "loss": 1.8975,
+      "step": 4
+    },
+    {
+      "epoch": 0.029850746268656716,
+      "grad_norm": 1.6484756469726562,
+      "learning_rate": 1e-05,
+      "loss": 1.749,
+      "step": 6
+    },
+    {
+      "epoch": 0.03980099502487562,
+      "grad_norm": 1.487459659576416,
+      "learning_rate": 1e-05,
+      "loss": 1.6318,
+      "step": 8
+    },
+    {
+      "epoch": 0.04975124378109453,
+      "grad_norm": 1.5136044025421143,
+      "learning_rate": 1e-05,
+      "loss": 1.5537,
+      "step": 10
+    },
+    {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 1.2955031394958496,
+      "learning_rate": 1e-05,
+      "loss": 1.623,
+      "step": 12
+    },
+    {
+      "epoch": 0.06965174129353234,
+      "grad_norm": 1.6998140811920166,
+      "learning_rate": 1e-05,
+      "loss": 2.0244,
+      "step": 14
+    },
+    {
+      "epoch": 0.07960199004975124,
+      "grad_norm": 2.039724111557007,
+      "learning_rate": 1e-05,
+      "loss": 1.3848,
+      "step": 16
+    },
+    {
+      "epoch": 0.08955223880597014,
+      "grad_norm": 3.201810598373413,
+      "learning_rate": 1e-05,
+      "loss": 1.9473,
+      "step": 18
+    },
+    {
+      "epoch": 0.09950248756218906,
+      "grad_norm": 2.301619291305542,
+      "learning_rate": 1e-05,
+      "loss": 0.9546,
+      "step": 20
+    },
+    {
+      "epoch": 0.10945273631840796,
+      "grad_norm": 3.1304359436035156,
+      "learning_rate": 1e-05,
+      "loss": 1.5273,
+      "step": 22
+    },
+    {
+      "epoch": 0.11940298507462686,
+      "grad_norm": 1.8952662944793701,
+      "learning_rate": 1e-05,
+      "loss": 0.742,
+      "step": 24
+    },
+    {
+      "epoch": 0.12935323383084577,
+      "grad_norm": 4.763426780700684,
+      "learning_rate": 1e-05,
+      "loss": 1.4138,
+      "step": 26
+    },
+    {
+      "epoch": 0.13930348258706468,
+      "grad_norm": 3.3053810596466064,
+      "learning_rate": 1e-05,
+      "loss": 1.009,
+      "step": 28
+    },
+    {
+      "epoch": 0.14925373134328357,
+      "grad_norm": 3.5452332496643066,
+      "learning_rate": 1e-05,
+      "loss": 1.4029,
+      "step": 30
+    },
+    {
+      "epoch": 0.15920398009950248,
+      "grad_norm": 3.621952533721924,
+      "learning_rate": 1e-05,
+      "loss": 0.972,
+      "step": 32
+    },
+    {
+      "epoch": 0.1691542288557214,
+      "grad_norm": 3.8620715141296387,
+      "learning_rate": 1e-05,
+      "loss": 1.1833,
+      "step": 34
+    },
+    {
+      "epoch": 0.1791044776119403,
+      "grad_norm": 5.8020195960998535,
+      "learning_rate": 1e-05,
+      "loss": 1.7115,
+      "step": 36
+    },
+    {
+      "epoch": 0.1890547263681592,
+      "grad_norm": 3.4086718559265137,
+      "learning_rate": 1e-05,
+      "loss": 1.1666,
+      "step": 38
+    },
+    {
+      "epoch": 0.19900497512437812,
+      "grad_norm": 2.975222587585449,
+      "learning_rate": 1e-05,
+      "loss": 0.7056,
+      "step": 40
+    },
+    {
+      "epoch": 0.208955223880597,
+      "grad_norm": 3.689805507659912,
+      "learning_rate": 1e-05,
+      "loss": 1.5175,
+      "step": 42
+    },
+    {
+      "epoch": 0.21890547263681592,
+      "grad_norm": 5.3562912940979,
+      "learning_rate": 1e-05,
+      "loss": 0.6652,
+      "step": 44
+    },
+    {
+      "epoch": 0.22885572139303484,
+      "grad_norm": 4.174887657165527,
+      "learning_rate": 1e-05,
+      "loss": 0.4799,
+      "step": 46
+    },
+    {
+      "epoch": 0.23880597014925373,
+      "grad_norm": 3.432663679122925,
+      "learning_rate": 1e-05,
+      "loss": 0.7211,
+      "step": 48
+    },
+    {
+      "epoch": 0.24875621890547264,
+      "grad_norm": 4.918137073516846,
+      "learning_rate": 1e-05,
+      "loss": 0.8524,
+      "step": 50
+    },
+    {
+      "epoch": 0.25870646766169153,
+      "grad_norm": 1.390620470046997,
+      "learning_rate": 1e-05,
+      "loss": 0.1488,
+      "step": 52
+    },
+    {
+      "epoch": 0.26865671641791045,
+      "grad_norm": 4.325483322143555,
+      "learning_rate": 1e-05,
+      "loss": 0.9623,
+      "step": 54
+    },
+    {
+      "epoch": 0.27860696517412936,
+      "grad_norm": 1.1009166240692139,
+      "learning_rate": 1e-05,
+      "loss": 0.3015,
+      "step": 56
+    },
+    {
+      "epoch": 0.2885572139303483,
+      "grad_norm": 5.028674125671387,
+      "learning_rate": 1e-05,
+      "loss": 0.8217,
+      "step": 58
+    },
+    {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 6.246382713317871,
+      "learning_rate": 1e-05,
+      "loss": 0.5652,
+      "step": 60
+    },
+    {
+      "epoch": 0.30845771144278605,
+      "grad_norm": 3.5103182792663574,
+      "learning_rate": 1e-05,
+      "loss": 0.4114,
+      "step": 62
+    },
+    {
+      "epoch": 0.31840796019900497,
+      "grad_norm": 5.664974689483643,
+      "learning_rate": 1e-05,
+      "loss": 0.918,
+      "step": 64
+    },
+    {
+      "epoch": 0.3283582089552239,
+      "grad_norm": 10.550684928894043,
+      "learning_rate": 1e-05,
+      "loss": 0.8192,
+      "step": 66
+    },
+    {
+      "epoch": 0.3383084577114428,
+      "grad_norm": 0.7836717367172241,
+      "learning_rate": 1e-05,
+      "loss": 0.3381,
+      "step": 68
+    },
+    {
+      "epoch": 0.3482587064676617,
+      "grad_norm": 1.888235330581665,
+      "learning_rate": 1e-05,
+      "loss": 0.1491,
+      "step": 70
+    },
+    {
+      "epoch": 0.3582089552238806,
+      "grad_norm": 7.468411445617676,
+      "learning_rate": 1e-05,
+      "loss": 0.9326,
+      "step": 72
+    },
+    {
+      "epoch": 0.3681592039800995,
+      "grad_norm": 8.028440475463867,
+      "learning_rate": 1e-05,
+      "loss": 1.3224,
+      "step": 74
+    },
+    {
+      "epoch": 0.3781094527363184,
+      "grad_norm": 10.142037391662598,
+      "learning_rate": 1e-05,
+      "loss": 0.6093,
+      "step": 76
+    },
+    {
+      "epoch": 0.3880597014925373,
+      "grad_norm": 4.81419563293457,
+      "learning_rate": 1e-05,
+      "loss": 0.4134,
+      "step": 78
+    },
+    {
+      "epoch": 0.39800995024875624,
+      "grad_norm": 7.888396739959717,
+      "learning_rate": 1e-05,
+      "loss": 1.6637,
+      "step": 80
+    },
+    {
+      "epoch": 0.4079601990049751,
+      "grad_norm": 1.8005106449127197,
+      "learning_rate": 1e-05,
+      "loss": 1.7748,
+      "step": 82
+    },
+    {
+      "epoch": 0.417910447761194,
+      "grad_norm": 0.9087793827056885,
+      "learning_rate": 1e-05,
+      "loss": 0.3785,
+      "step": 84
+    },
+    {
+      "epoch": 0.42786069651741293,
+      "grad_norm": 4.730865955352783,
+      "learning_rate": 1e-05,
+      "loss": 0.5779,
+      "step": 86
+    },
+    {
+      "epoch": 0.43781094527363185,
+      "grad_norm": 8.102535247802734,
+      "learning_rate": 1e-05,
+      "loss": 0.6772,
+      "step": 88
+    },
+    {
+      "epoch": 0.44776119402985076,
+      "grad_norm": 6.577178001403809,
+      "learning_rate": 1e-05,
+      "loss": 1.6124,
+      "step": 90
+    },
+    {
+      "epoch": 0.4577114427860697,
+      "grad_norm": 1.7844473123550415,
+      "learning_rate": 1e-05,
+      "loss": 0.4683,
+      "step": 92
+    },
+    {
+      "epoch": 0.46766169154228854,
+      "grad_norm": 5.1499247550964355,
+      "learning_rate": 1e-05,
+      "loss": 0.8164,
+      "step": 94
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 3.6172220706939697,
+      "learning_rate": 1e-05,
+      "loss": 0.9205,
+      "step": 96
+    },
+    {
+      "epoch": 0.48756218905472637,
+      "grad_norm": 1.3999346494674683,
+      "learning_rate": 1e-05,
+      "loss": 0.4349,
+      "step": 98
+    },
+    {
+      "epoch": 0.4975124378109453,
+      "grad_norm": 4.574583530426025,
+      "learning_rate": 1e-05,
+      "loss": 0.5055,
+      "step": 100
+    },
+    {
+      "epoch": 0.5074626865671642,
+      "grad_norm": 3.0469908714294434,
+      "learning_rate": 1e-05,
+      "loss": 0.6799,
+      "step": 102
+    },
+    {
+      "epoch": 0.5174129353233831,
+      "grad_norm": 1.137192726135254,
+      "learning_rate": 1e-05,
+      "loss": 0.2079,
+      "step": 104
+    },
+    {
+      "epoch": 0.527363184079602,
+      "grad_norm": 8.398505210876465,
+      "learning_rate": 1e-05,
+      "loss": 0.8173,
+      "step": 106
+    },
+    {
+      "epoch": 0.5373134328358209,
+      "grad_norm": 4.197858810424805,
+      "learning_rate": 1e-05,
+      "loss": 0.811,
+      "step": 108
+    },
+    {
+      "epoch": 0.5472636815920398,
+      "grad_norm": 3.6865429878234863,
+      "learning_rate": 1e-05,
+      "loss": 0.9762,
+      "step": 110
+    },
+    {
+      "epoch": 0.5572139303482587,
+      "grad_norm": 2.2864203453063965,
+      "learning_rate": 1e-05,
+      "loss": 0.2215,
+      "step": 112
+    },
+    {
+      "epoch": 0.5671641791044776,
+      "grad_norm": 0.3491150438785553,
+      "learning_rate": 1e-05,
+      "loss": 0.1091,
+      "step": 114
+    },
+    {
+      "epoch": 0.5771144278606966,
+      "grad_norm": 0.8744693398475647,
+      "learning_rate": 1e-05,
+      "loss": 0.1872,
+      "step": 116
+    },
+    {
+      "epoch": 0.5870646766169154,
+      "grad_norm": 7.648612976074219,
+      "learning_rate": 1e-05,
+      "loss": 0.4138,
+      "step": 118
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 4.401617050170898,
+      "learning_rate": 1e-05,
+      "loss": 0.988,
+      "step": 120
+    },
+    {
+      "epoch": 0.6069651741293532,
+      "grad_norm": 5.498955726623535,
+      "learning_rate": 1e-05,
+      "loss": 0.2035,
+      "step": 122
+    },
+    {
+      "epoch": 0.6169154228855721,
+      "grad_norm": 7.8499250411987305,
+      "learning_rate": 1e-05,
+      "loss": 1.3216,
+      "step": 124
+    },
+    {
+      "epoch": 0.6268656716417911,
+      "grad_norm": 4.023660182952881,
+      "learning_rate": 1e-05,
+      "loss": 0.8133,
+      "step": 126
+    },
+    {
+      "epoch": 0.6368159203980099,
+      "grad_norm": 1.412724494934082,
+      "learning_rate": 1e-05,
+      "loss": 0.3464,
+      "step": 128
+    },
+    {
+      "epoch": 0.6467661691542289,
+      "grad_norm": 5.523179531097412,
+      "learning_rate": 1e-05,
+      "loss": 0.6978,
+      "step": 130
+    },
+    {
+      "epoch": 0.6567164179104478,
+      "grad_norm": 13.196066856384277,
+      "learning_rate": 1e-05,
+      "loss": 1.3471,
+      "step": 132
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 5.424158096313477,
+      "learning_rate": 1e-05,
+      "loss": 0.6814,
+      "step": 134
+    },
+    {
+      "epoch": 0.6766169154228856,
+      "grad_norm": 1.4407273530960083,
+      "learning_rate": 1e-05,
+      "loss": 0.1066,
+      "step": 136
+    },
+    {
+      "epoch": 0.6865671641791045,
+      "grad_norm": 6.258295059204102,
+      "learning_rate": 1e-05,
+      "loss": 0.9792,
+      "step": 138
+    },
+    {
+      "epoch": 0.6965174129353234,
+      "grad_norm": 4.438701152801514,
+      "learning_rate": 1e-05,
+      "loss": 0.406,
+      "step": 140
+    },
+    {
+      "epoch": 0.7064676616915423,
+      "grad_norm": 3.083000659942627,
+      "learning_rate": 1e-05,
+      "loss": 0.915,
+      "step": 142
+    },
+    {
+      "epoch": 0.7164179104477612,
+      "grad_norm": 0.6187798976898193,
+      "learning_rate": 1e-05,
+      "loss": 0.0508,
+      "step": 144
+    },
+    {
+      "epoch": 0.7263681592039801,
+      "grad_norm": 0.6553718447685242,
+      "learning_rate": 1e-05,
+      "loss": 0.114,
+      "step": 146
+    },
+    {
+      "epoch": 0.736318407960199,
+      "grad_norm": 0.5623739957809448,
+      "learning_rate": 1e-05,
+      "loss": 0.134,
+      "step": 148
+    },
+    {
+      "epoch": 0.746268656716418,
+      "grad_norm": 9.245420455932617,
+      "learning_rate": 1e-05,
+      "loss": 1.0717,
+      "step": 150
+    },
+    {
+      "epoch": 0.7562189054726368,
+      "grad_norm": 3.2727997303009033,
+      "learning_rate": 1e-05,
+      "loss": 0.3121,
+      "step": 152
+    },
+    {
+      "epoch": 0.7661691542288557,
+      "grad_norm": 2.23881459236145,
+      "learning_rate": 1e-05,
+      "loss": 0.3009,
+      "step": 154
+    },
+    {
+      "epoch": 0.7761194029850746,
+      "grad_norm": 3.4759159088134766,
+      "learning_rate": 1e-05,
+      "loss": 0.3648,
+      "step": 156
+    },
+    {
+      "epoch": 0.7860696517412935,
+      "grad_norm": 3.8757474422454834,
+      "learning_rate": 1e-05,
+      "loss": 1.1435,
+      "step": 158
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "grad_norm": 2.606724262237549,
+      "learning_rate": 1e-05,
+      "loss": 0.227,
+      "step": 160
+    },
+    {
+      "epoch": 0.8059701492537313,
+      "grad_norm": 4.037679672241211,
+      "learning_rate": 1e-05,
+      "loss": 0.3358,
+      "step": 162
+    },
+    {
+      "epoch": 0.8159203980099502,
+      "grad_norm": 5.446840286254883,
+      "learning_rate": 1e-05,
+      "loss": 0.2191,
+      "step": 164
+    },
+    {
+      "epoch": 0.8258706467661692,
+      "grad_norm": 5.227675437927246,
+      "learning_rate": 1e-05,
+      "loss": 0.2977,
+      "step": 166
+    },
+    {
+      "epoch": 0.835820895522388,
+      "grad_norm": 3.955387592315674,
+      "learning_rate": 1e-05,
+      "loss": 0.2853,
+      "step": 168
+    },
+    {
+      "epoch": 0.845771144278607,
+      "grad_norm": 3.391467332839966,
+      "learning_rate": 1e-05,
+      "loss": 1.1612,
+      "step": 170
+    },
+    {
+      "epoch": 0.8557213930348259,
+      "grad_norm": 3.6372454166412354,
+      "learning_rate": 1e-05,
+      "loss": 0.2642,
+      "step": 172
+    },
+    {
+      "epoch": 0.8656716417910447,
+      "grad_norm": 6.628920078277588,
+      "learning_rate": 1e-05,
+      "loss": 0.7231,
+      "step": 174
+    },
+    {
+      "epoch": 0.8756218905472637,
+      "grad_norm": 0.42457300424575806,
+      "learning_rate": 1e-05,
+      "loss": 0.0519,
+      "step": 176
+    },
+    {
+      "epoch": 0.8855721393034826,
+      "grad_norm": 2.6521382331848145,
+      "learning_rate": 1e-05,
+      "loss": 0.2382,
+      "step": 178
+    },
+    {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 0.1870870143175125,
+      "learning_rate": 1e-05,
+      "loss": 0.6789,
+      "step": 180
+    },
+    {
+      "epoch": 0.9054726368159204,
+      "grad_norm": 0.5534329414367676,
+      "learning_rate": 1e-05,
+      "loss": 0.0671,
+      "step": 182
+    },
+    {
+      "epoch": 0.9154228855721394,
+      "grad_norm": 3.863987922668457,
+      "learning_rate": 1e-05,
+      "loss": 0.273,
+      "step": 184
+    },
+    {
+      "epoch": 0.9253731343283582,
+      "grad_norm": 0.2802110016345978,
+      "learning_rate": 1e-05,
+      "loss": 0.0354,
+      "step": 186
+    },
+    {
+      "epoch": 0.9353233830845771,
+      "grad_norm": 0.616949200630188,
+      "learning_rate": 1e-05,
+      "loss": 0.446,
+      "step": 188
+    },
+    {
+      "epoch": 0.945273631840796,
+      "grad_norm": 1.3538764715194702,
+      "learning_rate": 1e-05,
+      "loss": 0.1169,
+      "step": 190
+    },
+    {
+      "epoch": 0.9552238805970149,
+      "grad_norm": 7.0314836502075195,
+      "learning_rate": 1e-05,
+      "loss": 1.3759,
+      "step": 192
+    },
+    {
+      "epoch": 0.9651741293532339,
+      "grad_norm": 5.94874906539917,
+      "learning_rate": 1e-05,
+      "loss": 0.3079,
+      "step": 194
+    },
+    {
+      "epoch": 0.9751243781094527,
+      "grad_norm": 1.551829218864441,
+      "learning_rate": 1e-05,
+      "loss": 0.1686,
+      "step": 196
+    },
+    {
+      "epoch": 0.9850746268656716,
+      "grad_norm": 4.5909647941589355,
+      "learning_rate": 1e-05,
+      "loss": 0.5421,
+      "step": 198
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "grad_norm": 9.215164184570312,
+      "learning_rate": 1e-05,
+      "loss": 1.2799,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "step": 201,
+      "total_flos": 7.039446888428339e+16,
+      "train_loss": 0.7667810383127697,
+      "train_runtime": 927.2228,
+      "train_samples_per_second": 0.867,
+      "train_steps_per_second": 0.217
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 201,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.039446888428339e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15df646d9de2827fcb2d37743cc4afd5897a456ad3002625680efb7fa8968c28
+size 389170122

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cfb3b8f77215f71c2c566a8e4a38358dba929d768726552fb07421f2b738dca
+size 389172166

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr100.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0149b7f0cf6227341143067492664f94dd64ed1cb7b7a4e43c374acd8e70b13a
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr125.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6481de33461bc2f9b1d094560da45eab8e4df65fb58f5f7f6b69d331133ff23e
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr150.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60f721ef60ea29c44173fee1abab36bf5985328a8f3e6c320bedd9aa00c2ff10
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr175.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1f0974504d6f6686847abaf4785397372caac3bec0839b689e6b0e185c3e4bc
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr200.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53102b5eda8437b7d9bd9a3adf847ab340de54b86f0be83c930450508841c5dc
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr25.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60245923cf2fbdb65974d542218733dcec2b57ac6d6ad769d6dd21604bee7851
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr50.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6567e7c366e1050b54f9c259bea308d7550e4a1d4fb3a7a28a92697669d48d8
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_client_model_round1_itr75.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:823bb7bf8c020345951abefe505a2fe9a7eb24005059c7425b27e933652c1f9c
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/2_trainer_state.json ADDED Viewed

	@@ -0,0 +1,742 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 201,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.009950248756218905,
+      "grad_norm": 1.650244116783142,
+      "learning_rate": 1e-05,
+      "loss": 0.6243,
+      "step": 2
+    },
+    {
+      "epoch": 0.01990049751243781,
+      "grad_norm": 8.55079460144043,
+      "learning_rate": 1e-05,
+      "loss": 1.9013,
+      "step": 4
+    },
+    {
+      "epoch": 0.029850746268656716,
+      "grad_norm": 2.6233367919921875,
+      "learning_rate": 1e-05,
+      "loss": 0.8224,
+      "step": 6
+    },
+    {
+      "epoch": 0.03980099502487562,
+      "grad_norm": 2.576277732849121,
+      "learning_rate": 1e-05,
+      "loss": 0.9551,
+      "step": 8
+    },
+    {
+      "epoch": 0.04975124378109453,
+      "grad_norm": 2.1575682163238525,
+      "learning_rate": 1e-05,
+      "loss": 0.8281,
+      "step": 10
+    },
+    {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 2.4942679405212402,
+      "learning_rate": 1e-05,
+      "loss": 1.2534,
+      "step": 12
+    },
+    {
+      "epoch": 0.06965174129353234,
+      "grad_norm": 2.6151747703552246,
+      "learning_rate": 1e-05,
+      "loss": 1.4263,
+      "step": 14
+    },
+    {
+      "epoch": 0.07960199004975124,
+      "grad_norm": 2.6396424770355225,
+      "learning_rate": 1e-05,
+      "loss": 1.1638,
+      "step": 16
+    },
+    {
+      "epoch": 0.08955223880597014,
+      "grad_norm": 1.374642014503479,
+      "learning_rate": 1e-05,
+      "loss": 0.7122,
+      "step": 18
+    },
+    {
+      "epoch": 0.09950248756218906,
+      "grad_norm": 1.2737079858779907,
+      "learning_rate": 1e-05,
+      "loss": 0.927,
+      "step": 20
+    },
+    {
+      "epoch": 0.10945273631840796,
+      "grad_norm": 2.1679718494415283,
+      "learning_rate": 1e-05,
+      "loss": 1.0146,
+      "step": 22
+    },
+    {
+      "epoch": 0.11940298507462686,
+      "grad_norm": 1.9755343198776245,
+      "learning_rate": 1e-05,
+      "loss": 1.0562,
+      "step": 24
+    },
+    {
+      "epoch": 0.12935323383084577,
+      "grad_norm": 1.8360259532928467,
+      "learning_rate": 1e-05,
+      "loss": 0.9011,
+      "step": 26
+    },
+    {
+      "epoch": 0.13930348258706468,
+      "grad_norm": 1.3684884309768677,
+      "learning_rate": 1e-05,
+      "loss": 1.0317,
+      "step": 28
+    },
+    {
+      "epoch": 0.14925373134328357,
+      "grad_norm": 1.1041371822357178,
+      "learning_rate": 1e-05,
+      "loss": 0.7749,
+      "step": 30
+    },
+    {
+      "epoch": 0.15920398009950248,
+      "grad_norm": 1.9447084665298462,
+      "learning_rate": 1e-05,
+      "loss": 0.916,
+      "step": 32
+    },
+    {
+      "epoch": 0.1691542288557214,
+      "grad_norm": 1.2489606142044067,
+      "learning_rate": 1e-05,
+      "loss": 0.7324,
+      "step": 34
+    },
+    {
+      "epoch": 0.1791044776119403,
+      "grad_norm": 1.8743946552276611,
+      "learning_rate": 1e-05,
+      "loss": 1.1079,
+      "step": 36
+    },
+    {
+      "epoch": 0.1890547263681592,
+      "grad_norm": 1.102053165435791,
+      "learning_rate": 1e-05,
+      "loss": 0.9385,
+      "step": 38
+    },
+    {
+      "epoch": 0.19900497512437812,
+      "grad_norm": 0.8476048707962036,
+      "learning_rate": 1e-05,
+      "loss": 0.8044,
+      "step": 40
+    },
+    {
+      "epoch": 0.208955223880597,
+      "grad_norm": 0.9640145301818848,
+      "learning_rate": 1e-05,
+      "loss": 0.8799,
+      "step": 42
+    },
+    {
+      "epoch": 0.21890547263681592,
+      "grad_norm": 1.381293535232544,
+      "learning_rate": 1e-05,
+      "loss": 0.7881,
+      "step": 44
+    },
+    {
+      "epoch": 0.22885572139303484,
+      "grad_norm": 0.9105871915817261,
+      "learning_rate": 1e-05,
+      "loss": 1.0356,
+      "step": 46
+    },
+    {
+      "epoch": 0.23880597014925373,
+      "grad_norm": 2.0499324798583984,
+      "learning_rate": 1e-05,
+      "loss": 1.1104,
+      "step": 48
+    },
+    {
+      "epoch": 0.24875621890547264,
+      "grad_norm": 2.4867374897003174,
+      "learning_rate": 1e-05,
+      "loss": 0.9888,
+      "step": 50
+    },
+    {
+      "epoch": 0.25870646766169153,
+      "grad_norm": 1.052661418914795,
+      "learning_rate": 1e-05,
+      "loss": 0.7593,
+      "step": 52
+    },
+    {
+      "epoch": 0.26865671641791045,
+      "grad_norm": 0.8331828117370605,
+      "learning_rate": 1e-05,
+      "loss": 0.7891,
+      "step": 54
+    },
+    {
+      "epoch": 0.27860696517412936,
+      "grad_norm": 1.3015260696411133,
+      "learning_rate": 1e-05,
+      "loss": 0.8362,
+      "step": 56
+    },
+    {
+      "epoch": 0.2885572139303483,
+      "grad_norm": 1.1861402988433838,
+      "learning_rate": 1e-05,
+      "loss": 1.0667,
+      "step": 58
+    },
+    {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 2.5102596282958984,
+      "learning_rate": 1e-05,
+      "loss": 1.4307,
+      "step": 60
+    },
+    {
+      "epoch": 0.30845771144278605,
+      "grad_norm": 1.035914659500122,
+      "learning_rate": 1e-05,
+      "loss": 0.7061,
+      "step": 62
+    },
+    {
+      "epoch": 0.31840796019900497,
+      "grad_norm": 1.268302321434021,
+      "learning_rate": 1e-05,
+      "loss": 1.2146,
+      "step": 64
+    },
+    {
+      "epoch": 0.3283582089552239,
+      "grad_norm": 1.501561164855957,
+      "learning_rate": 1e-05,
+      "loss": 1.0767,
+      "step": 66
+    },
+    {
+      "epoch": 0.3383084577114428,
+      "grad_norm": 0.7221049070358276,
+      "learning_rate": 1e-05,
+      "loss": 0.9985,
+      "step": 68
+    },
+    {
+      "epoch": 0.3482587064676617,
+      "grad_norm": 0.9676480293273926,
+      "learning_rate": 1e-05,
+      "loss": 0.9858,
+      "step": 70
+    },
+    {
+      "epoch": 0.3582089552238806,
+      "grad_norm": 0.8725219368934631,
+      "learning_rate": 1e-05,
+      "loss": 0.854,
+      "step": 72
+    },
+    {
+      "epoch": 0.3681592039800995,
+      "grad_norm": 0.7807052731513977,
+      "learning_rate": 1e-05,
+      "loss": 0.8716,
+      "step": 74
+    },
+    {
+      "epoch": 0.3781094527363184,
+      "grad_norm": 0.7535572052001953,
+      "learning_rate": 1e-05,
+      "loss": 0.8459,
+      "step": 76
+    },
+    {
+      "epoch": 0.3880597014925373,
+      "grad_norm": 1.4078559875488281,
+      "learning_rate": 1e-05,
+      "loss": 1.105,
+      "step": 78
+    },
+    {
+      "epoch": 0.39800995024875624,
+      "grad_norm": 0.957761287689209,
+      "learning_rate": 1e-05,
+      "loss": 1.0386,
+      "step": 80
+    },
+    {
+      "epoch": 0.4079601990049751,
+      "grad_norm": 0.8926840424537659,
+      "learning_rate": 1e-05,
+      "loss": 0.9438,
+      "step": 82
+    },
+    {
+      "epoch": 0.417910447761194,
+      "grad_norm": 1.8459022045135498,
+      "learning_rate": 1e-05,
+      "loss": 0.8696,
+      "step": 84
+    },
+    {
+      "epoch": 0.42786069651741293,
+      "grad_norm": 1.311964511871338,
+      "learning_rate": 1e-05,
+      "loss": 0.9351,
+      "step": 86
+    },
+    {
+      "epoch": 0.43781094527363185,
+      "grad_norm": 1.8599036931991577,
+      "learning_rate": 1e-05,
+      "loss": 1.1685,
+      "step": 88
+    },
+    {
+      "epoch": 0.44776119402985076,
+      "grad_norm": 0.9435080289840698,
+      "learning_rate": 1e-05,
+      "loss": 0.8364,
+      "step": 90
+    },
+    {
+      "epoch": 0.4577114427860697,
+      "grad_norm": 0.8074705600738525,
+      "learning_rate": 1e-05,
+      "loss": 1.0356,
+      "step": 92
+    },
+    {
+      "epoch": 0.46766169154228854,
+      "grad_norm": 0.7916580438613892,
+      "learning_rate": 1e-05,
+      "loss": 0.8716,
+      "step": 94
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 1.0159028768539429,
+      "learning_rate": 1e-05,
+      "loss": 0.9404,
+      "step": 96
+    },
+    {
+      "epoch": 0.48756218905472637,
+      "grad_norm": 0.6591694355010986,
+      "learning_rate": 1e-05,
+      "loss": 0.8706,
+      "step": 98
+    },
+    {
+      "epoch": 0.4975124378109453,
+      "grad_norm": 1.0024625062942505,
+      "learning_rate": 1e-05,
+      "loss": 0.9551,
+      "step": 100
+    },
+    {
+      "epoch": 0.5074626865671642,
+      "grad_norm": 1.3378303050994873,
+      "learning_rate": 1e-05,
+      "loss": 0.8682,
+      "step": 102
+    },
+    {
+      "epoch": 0.5174129353233831,
+      "grad_norm": 0.9471051096916199,
+      "learning_rate": 1e-05,
+      "loss": 0.9287,
+      "step": 104
+    },
+    {
+      "epoch": 0.527363184079602,
+      "grad_norm": 1.0026133060455322,
+      "learning_rate": 1e-05,
+      "loss": 1.0786,
+      "step": 106
+    },
+    {
+      "epoch": 0.5373134328358209,
+      "grad_norm": 0.8960136771202087,
+      "learning_rate": 1e-05,
+      "loss": 1.0117,
+      "step": 108
+    },
+    {
+      "epoch": 0.5472636815920398,
+      "grad_norm": 0.5560504794120789,
+      "learning_rate": 1e-05,
+      "loss": 0.8799,
+      "step": 110
+    },
+    {
+      "epoch": 0.5572139303482587,
+      "grad_norm": 1.0694944858551025,
+      "learning_rate": 1e-05,
+      "loss": 0.9097,
+      "step": 112
+    },
+    {
+      "epoch": 0.5671641791044776,
+      "grad_norm": 0.8429641127586365,
+      "learning_rate": 1e-05,
+      "loss": 0.9556,
+      "step": 114
+    },
+    {
+      "epoch": 0.5771144278606966,
+      "grad_norm": 0.6551101207733154,
+      "learning_rate": 1e-05,
+      "loss": 0.9912,
+      "step": 116
+    },
+    {
+      "epoch": 0.5870646766169154,
+      "grad_norm": 1.2814500331878662,
+      "learning_rate": 1e-05,
+      "loss": 0.938,
+      "step": 118
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.5971533060073853,
+      "learning_rate": 1e-05,
+      "loss": 0.8203,
+      "step": 120
+    },
+    {
+      "epoch": 0.6069651741293532,
+      "grad_norm": 0.6333916783332825,
+      "learning_rate": 1e-05,
+      "loss": 0.7949,
+      "step": 122
+    },
+    {
+      "epoch": 0.6169154228855721,
+      "grad_norm": 1.5460799932479858,
+      "learning_rate": 1e-05,
+      "loss": 1.0107,
+      "step": 124
+    },
+    {
+      "epoch": 0.6268656716417911,
+      "grad_norm": 0.6799649596214294,
+      "learning_rate": 1e-05,
+      "loss": 0.9155,
+      "step": 126
+    },
+    {
+      "epoch": 0.6368159203980099,
+      "grad_norm": 0.5778260827064514,
+      "learning_rate": 1e-05,
+      "loss": 0.9985,
+      "step": 128
+    },
+    {
+      "epoch": 0.6467661691542289,
+      "grad_norm": 0.7546162605285645,
+      "learning_rate": 1e-05,
+      "loss": 0.9199,
+      "step": 130
+    },
+    {
+      "epoch": 0.6567164179104478,
+      "grad_norm": 0.5724232196807861,
+      "learning_rate": 1e-05,
+      "loss": 0.9399,
+      "step": 132
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.2401442527770996,
+      "learning_rate": 1e-05,
+      "loss": 0.8687,
+      "step": 134
+    },
+    {
+      "epoch": 0.6766169154228856,
+      "grad_norm": 0.8218169212341309,
+      "learning_rate": 1e-05,
+      "loss": 0.8857,
+      "step": 136
+    },
+    {
+      "epoch": 0.6865671641791045,
+      "grad_norm": 0.690995991230011,
+      "learning_rate": 1e-05,
+      "loss": 0.9438,
+      "step": 138
+    },
+    {
+      "epoch": 0.6965174129353234,
+      "grad_norm": 0.9527719020843506,
+      "learning_rate": 1e-05,
+      "loss": 1.0239,
+      "step": 140
+    },
+    {
+      "epoch": 0.7064676616915423,
+      "grad_norm": 0.6030732989311218,
+      "learning_rate": 1e-05,
+      "loss": 0.9722,
+      "step": 142
+    },
+    {
+      "epoch": 0.7164179104477612,
+      "grad_norm": 0.6105135679244995,
+      "learning_rate": 1e-05,
+      "loss": 0.8628,
+      "step": 144
+    },
+    {
+      "epoch": 0.7263681592039801,
+      "grad_norm": 0.7813135981559753,
+      "learning_rate": 1e-05,
+      "loss": 0.8213,
+      "step": 146
+    },
+    {
+      "epoch": 0.736318407960199,
+      "grad_norm": 0.5830418467521667,
+      "learning_rate": 1e-05,
+      "loss": 0.834,
+      "step": 148
+    },
+    {
+      "epoch": 0.746268656716418,
+      "grad_norm": 1.0577740669250488,
+      "learning_rate": 1e-05,
+      "loss": 0.9692,
+      "step": 150
+    },
+    {
+      "epoch": 0.7562189054726368,
+      "grad_norm": 0.813637912273407,
+      "learning_rate": 1e-05,
+      "loss": 0.8735,
+      "step": 152
+    },
+    {
+      "epoch": 0.7661691542288557,
+      "grad_norm": 0.5650802254676819,
+      "learning_rate": 1e-05,
+      "loss": 1.0767,
+      "step": 154
+    },
+    {
+      "epoch": 0.7761194029850746,
+      "grad_norm": 0.7651078104972839,
+      "learning_rate": 1e-05,
+      "loss": 0.8862,
+      "step": 156
+    },
+    {
+      "epoch": 0.7860696517412935,
+      "grad_norm": 0.5638197064399719,
+      "learning_rate": 1e-05,
+      "loss": 1.0239,
+      "step": 158
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "grad_norm": 0.5717598795890808,
+      "learning_rate": 1e-05,
+      "loss": 0.9868,
+      "step": 160
+    },
+    {
+      "epoch": 0.8059701492537313,
+      "grad_norm": 0.9155240058898926,
+      "learning_rate": 1e-05,
+      "loss": 0.8545,
+      "step": 162
+    },
+    {
+      "epoch": 0.8159203980099502,
+      "grad_norm": 0.673218309879303,
+      "learning_rate": 1e-05,
+      "loss": 0.8979,
+      "step": 164
+    },
+    {
+      "epoch": 0.8258706467661692,
+      "grad_norm": 0.933534562587738,
+      "learning_rate": 1e-05,
+      "loss": 0.958,
+      "step": 166
+    },
+    {
+      "epoch": 0.835820895522388,
+      "grad_norm": 0.6906251907348633,
+      "learning_rate": 1e-05,
+      "loss": 0.8301,
+      "step": 168
+    },
+    {
+      "epoch": 0.845771144278607,
+      "grad_norm": 0.9870006442070007,
+      "learning_rate": 1e-05,
+      "loss": 0.8652,
+      "step": 170
+    },
+    {
+      "epoch": 0.8557213930348259,
+      "grad_norm": 1.019015908241272,
+      "learning_rate": 1e-05,
+      "loss": 0.9165,
+      "step": 172
+    },
+    {
+      "epoch": 0.8656716417910447,
+      "grad_norm": 0.997454047203064,
+      "learning_rate": 1e-05,
+      "loss": 0.8403,
+      "step": 174
+    },
+    {
+      "epoch": 0.8756218905472637,
+      "grad_norm": 1.6273800134658813,
+      "learning_rate": 1e-05,
+      "loss": 0.957,
+      "step": 176
+    },
+    {
+      "epoch": 0.8855721393034826,
+      "grad_norm": 0.8904904127120972,
+      "learning_rate": 1e-05,
+      "loss": 0.8452,
+      "step": 178
+    },
+    {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 0.7554193139076233,
+      "learning_rate": 1e-05,
+      "loss": 0.7539,
+      "step": 180
+    },
+    {
+      "epoch": 0.9054726368159204,
+      "grad_norm": 1.757675051689148,
+      "learning_rate": 1e-05,
+      "loss": 0.9287,
+      "step": 182
+    },
+    {
+      "epoch": 0.9154228855721394,
+      "grad_norm": 0.8368033170700073,
+      "learning_rate": 1e-05,
+      "loss": 0.8506,
+      "step": 184
+    },
+    {
+      "epoch": 0.9253731343283582,
+      "grad_norm": 0.956574022769928,
+      "learning_rate": 1e-05,
+      "loss": 0.8433,
+      "step": 186
+    },
+    {
+      "epoch": 0.9353233830845771,
+      "grad_norm": 1.2842135429382324,
+      "learning_rate": 1e-05,
+      "loss": 0.8799,
+      "step": 188
+    },
+    {
+      "epoch": 0.945273631840796,
+      "grad_norm": 1.017176628112793,
+      "learning_rate": 1e-05,
+      "loss": 0.8638,
+      "step": 190
+    },
+    {
+      "epoch": 0.9552238805970149,
+      "grad_norm": 1.4684029817581177,
+      "learning_rate": 1e-05,
+      "loss": 0.947,
+      "step": 192
+    },
+    {
+      "epoch": 0.9651741293532339,
+      "grad_norm": 1.4607092142105103,
+      "learning_rate": 1e-05,
+      "loss": 0.9966,
+      "step": 194
+    },
+    {
+      "epoch": 0.9751243781094527,
+      "grad_norm": 1.6244029998779297,
+      "learning_rate": 1e-05,
+      "loss": 0.6952,
+      "step": 196
+    },
+    {
+      "epoch": 0.9850746268656716,
+      "grad_norm": 1.253040075302124,
+      "learning_rate": 1e-05,
+      "loss": 0.9458,
+      "step": 198
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "grad_norm": 1.4702417850494385,
+      "learning_rate": 1e-05,
+      "loss": 0.9985,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "step": 201,
+      "total_flos": 1.9968928570671104e+16,
+      "train_loss": 0.9424890926228234,
+      "train_runtime": 463.9481,
+      "train_samples_per_second": 1.733,
+      "train_steps_per_second": 0.433
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 201,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.9968928570671104e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30cc75502c7f91affcd69bae806c3a2fe927b1221cd916baa5bea77645e25e78
+size 389170122

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a601c0dba0cc0f6c171ddac346957dc7e71b334cb4bbf3956e3bde1916356a6
+size 389172166

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr100.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:101636b78258e532fc44f1cee697217979c28b0d326484f53cf6c0abce3c37f7
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr125.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83f89ec80d240b002848de09dac06b77d84b42e1e37182bdb52d999334b81ad8
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr150.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f987a5f3a9d1914fe9208860d108d875a3959e3d2381703a5f24d86b47c9d53
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr175.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6415975ce46cd58092b9080498c7c786dc519f47e055cea660db53da5c6f9111
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr200.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7556d4da4dd89b709e46b2a2f07409fd60900bb2f19d815cf84e74c51b1732a
+size 389172958

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr25.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5363c67f1cb193fd3ddc8d555a59035a42e9696642c620732b30151b2ac03ecd
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr50.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16702cf0d38a1e9b1e390bdb1b52c302265fc3095e097bacff50f0802b9c0bef
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_client_model_round1_itr75.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fe002259d80ce003b73b25fa6f46c45a5e4aae678bce953929a2360c7d0acec
+size 389172562

client_states_sft_bs4_saveoptim_lr1e-5_sc8_1tasks_1rounds_fixitr201_T0125_decay099_sft_r20_20/3_trainer_state.json ADDED Viewed

	@@ -0,0 +1,742 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 201,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.009950248756218905,
+      "grad_norm": 3.4984848499298096,
+      "learning_rate": 1e-05,
+      "loss": 2.4546,
+      "step": 2
+    },
+    {
+      "epoch": 0.01990049751243781,
+      "grad_norm": 6.905043125152588,
+      "learning_rate": 1e-05,
+      "loss": 2.5471,
+      "step": 4
+    },
+    {
+      "epoch": 0.029850746268656716,
+      "grad_norm": 3.0716166496276855,
+      "learning_rate": 1e-05,
+      "loss": 1.7067,
+      "step": 6
+    },
+    {
+      "epoch": 0.03980099502487562,
+      "grad_norm": 3.0438055992126465,
+      "learning_rate": 1e-05,
+      "loss": 1.0265,
+      "step": 8
+    },
+    {
+      "epoch": 0.04975124378109453,
+      "grad_norm": 5.619898319244385,
+      "learning_rate": 1e-05,
+      "loss": 1.8415,
+      "step": 10
+    },
+    {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 5.910048961639404,
+      "learning_rate": 1e-05,
+      "loss": 2.0034,
+      "step": 12
+    },
+    {
+      "epoch": 0.06965174129353234,
+      "grad_norm": 4.535861492156982,
+      "learning_rate": 1e-05,
+      "loss": 1.6565,
+      "step": 14
+    },
+    {
+      "epoch": 0.07960199004975124,
+      "grad_norm": 3.565920114517212,
+      "learning_rate": 1e-05,
+      "loss": 1.3917,
+      "step": 16
+    },
+    {
+      "epoch": 0.08955223880597014,
+      "grad_norm": 3.367178440093994,
+      "learning_rate": 1e-05,
+      "loss": 1.2771,
+      "step": 18
+    },
+    {
+      "epoch": 0.09950248756218906,
+      "grad_norm": 3.4126410484313965,
+      "learning_rate": 1e-05,
+      "loss": 1.2509,
+      "step": 20
+    },
+    {
+      "epoch": 0.10945273631840796,
+      "grad_norm": 2.830953598022461,
+      "learning_rate": 1e-05,
+      "loss": 0.8848,
+      "step": 22
+    },
+    {
+      "epoch": 0.11940298507462686,
+      "grad_norm": 2.7264418601989746,
+      "learning_rate": 1e-05,
+      "loss": 1.4029,
+      "step": 24
+    },
+    {
+      "epoch": 0.12935323383084577,
+      "grad_norm": 4.596713066101074,
+      "learning_rate": 1e-05,
+      "loss": 1.8621,
+      "step": 26
+    },
+    {
+      "epoch": 0.13930348258706468,
+      "grad_norm": 3.3301849365234375,
+      "learning_rate": 1e-05,
+      "loss": 1.1167,
+      "step": 28
+    },
+    {
+      "epoch": 0.14925373134328357,
+      "grad_norm": 3.9882688522338867,
+      "learning_rate": 1e-05,
+      "loss": 1.4297,
+      "step": 30
+    },
+    {
+      "epoch": 0.15920398009950248,
+      "grad_norm": 0.8713480830192566,
+      "learning_rate": 1e-05,
+      "loss": 0.8509,
+      "step": 32
+    },
+    {
+      "epoch": 0.1691542288557214,
+      "grad_norm": 5.365267753601074,
+      "learning_rate": 1e-05,
+      "loss": 1.2606,
+      "step": 34
+    },
+    {
+      "epoch": 0.1791044776119403,
+      "grad_norm": 3.6241588592529297,
+      "learning_rate": 1e-05,
+      "loss": 1.1967,
+      "step": 36
+    },
+    {
+      "epoch": 0.1890547263681592,
+      "grad_norm": 2.176697254180908,
+      "learning_rate": 1e-05,
+      "loss": 0.8659,
+      "step": 38
+    },
+    {
+      "epoch": 0.19900497512437812,
+      "grad_norm": 3.8057022094726562,
+      "learning_rate": 1e-05,
+      "loss": 1.3048,
+      "step": 40
+    },
+    {
+      "epoch": 0.208955223880597,
+      "grad_norm": 5.057631015777588,
+      "learning_rate": 1e-05,
+      "loss": 0.8538,
+      "step": 42
+    },
+    {
+      "epoch": 0.21890547263681592,
+      "grad_norm": 3.2521402835845947,
+      "learning_rate": 1e-05,
+      "loss": 0.967,
+      "step": 44
+    },
+    {
+      "epoch": 0.22885572139303484,
+      "grad_norm": 4.557372570037842,
+      "learning_rate": 1e-05,
+      "loss": 1.2981,
+      "step": 46
+    },
+    {
+      "epoch": 0.23880597014925373,
+      "grad_norm": 4.477596759796143,
+      "learning_rate": 1e-05,
+      "loss": 0.5941,
+      "step": 48
+    },
+    {
+      "epoch": 0.24875621890547264,
+      "grad_norm": 3.518733263015747,
+      "learning_rate": 1e-05,
+      "loss": 1.6752,
+      "step": 50
+    },
+    {
+      "epoch": 0.25870646766169153,
+      "grad_norm": 7.677566051483154,
+      "learning_rate": 1e-05,
+      "loss": 1.4171,
+      "step": 52
+    },
+    {
+      "epoch": 0.26865671641791045,
+      "grad_norm": 2.7589364051818848,
+      "learning_rate": 1e-05,
+      "loss": 0.5706,
+      "step": 54
+    },
+    {
+      "epoch": 0.27860696517412936,
+      "grad_norm": 2.9053287506103516,
+      "learning_rate": 1e-05,
+      "loss": 1.2631,
+      "step": 56
+    },
+    {
+      "epoch": 0.2885572139303483,
+      "grad_norm": 8.476534843444824,
+      "learning_rate": 1e-05,
+      "loss": 1.4675,
+      "step": 58
+    },
+    {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 7.858043670654297,
+      "learning_rate": 1e-05,
+      "loss": 2.94,
+      "step": 60
+    },
+    {
+      "epoch": 0.30845771144278605,
+      "grad_norm": 3.2298996448516846,
+      "learning_rate": 1e-05,
+      "loss": 0.5,
+      "step": 62
+    },
+    {
+      "epoch": 0.31840796019900497,
+      "grad_norm": 5.179959774017334,
+      "learning_rate": 1e-05,
+      "loss": 0.8592,
+      "step": 64
+    },
+    {
+      "epoch": 0.3283582089552239,
+      "grad_norm": 10.46849536895752,
+      "learning_rate": 1e-05,
+      "loss": 2.096,
+      "step": 66
+    },
+    {
+      "epoch": 0.3383084577114428,
+      "grad_norm": 1.686103105545044,
+      "learning_rate": 1e-05,
+      "loss": 1.3382,
+      "step": 68
+    },
+    {
+      "epoch": 0.3482587064676617,
+      "grad_norm": 3.9357430934906006,
+      "learning_rate": 1e-05,
+      "loss": 1.5427,
+      "step": 70
+    },
+    {
+      "epoch": 0.3582089552238806,
+      "grad_norm": 6.08726692199707,
+      "learning_rate": 1e-05,
+      "loss": 1.7477,
+      "step": 72
+    },
+    {
+      "epoch": 0.3681592039800995,
+      "grad_norm": 4.0442376136779785,
+      "learning_rate": 1e-05,
+      "loss": 1.3599,
+      "step": 74
+    },
+    {
+      "epoch": 0.3781094527363184,
+      "grad_norm": 4.393518447875977,
+      "learning_rate": 1e-05,
+      "loss": 1.3049,
+      "step": 76
+    },
+    {
+      "epoch": 0.3880597014925373,
+      "grad_norm": 4.748154163360596,
+      "learning_rate": 1e-05,
+      "loss": 1.2163,
+      "step": 78
+    },
+    {
+      "epoch": 0.39800995024875624,
+      "grad_norm": 2.4480156898498535,
+      "learning_rate": 1e-05,
+      "loss": 1.5779,
+      "step": 80
+    },
+    {
+      "epoch": 0.4079601990049751,
+      "grad_norm": 4.978269577026367,
+      "learning_rate": 1e-05,
+      "loss": 1.5108,
+      "step": 82
+    },
+    {
+      "epoch": 0.417910447761194,
+      "grad_norm": 8.956459999084473,
+      "learning_rate": 1e-05,
+      "loss": 1.2402,
+      "step": 84
+    },
+    {
+      "epoch": 0.42786069651741293,
+      "grad_norm": 3.989821434020996,
+      "learning_rate": 1e-05,
+      "loss": 0.8792,
+      "step": 86
+    },
+    {
+      "epoch": 0.43781094527363185,
+      "grad_norm": 7.240758895874023,
+      "learning_rate": 1e-05,
+      "loss": 1.8413,
+      "step": 88
+    },
+    {
+      "epoch": 0.44776119402985076,
+      "grad_norm": 1.3386205434799194,
+      "learning_rate": 1e-05,
+      "loss": 0.5992,
+      "step": 90
+    },
+    {
+      "epoch": 0.4577114427860697,
+      "grad_norm": 5.485062599182129,
+      "learning_rate": 1e-05,
+      "loss": 0.9109,
+      "step": 92
+    },
+    {
+      "epoch": 0.46766169154228854,
+      "grad_norm": 5.22202205657959,
+      "learning_rate": 1e-05,
+      "loss": 0.8113,
+      "step": 94
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 2.953240156173706,
+      "learning_rate": 1e-05,
+      "loss": 1.0452,
+      "step": 96
+    },
+    {
+      "epoch": 0.48756218905472637,
+      "grad_norm": 3.98473858833313,
+      "learning_rate": 1e-05,
+      "loss": 1.4785,
+      "step": 98
+    },
+    {
+      "epoch": 0.4975124378109453,
+      "grad_norm": 0.524372935295105,
+      "learning_rate": 1e-05,
+      "loss": 1.0392,
+      "step": 100
+    },
+    {
+      "epoch": 0.5074626865671642,
+      "grad_norm": 5.757716655731201,
+      "learning_rate": 1e-05,
+      "loss": 1.507,
+      "step": 102
+    },
+    {
+      "epoch": 0.5174129353233831,
+      "grad_norm": 3.7972941398620605,
+      "learning_rate": 1e-05,
+      "loss": 2.0817,
+      "step": 104
+    },
+    {
+      "epoch": 0.527363184079602,
+      "grad_norm": 2.1441078186035156,
+      "learning_rate": 1e-05,
+      "loss": 1.1439,
+      "step": 106
+    },
+    {
+      "epoch": 0.5373134328358209,
+      "grad_norm": 4.19448184967041,
+      "learning_rate": 1e-05,
+      "loss": 0.5984,
+      "step": 108
+    },
+    {
+      "epoch": 0.5472636815920398,
+      "grad_norm": 2.471952438354492,
+      "learning_rate": 1e-05,
+      "loss": 0.6786,
+      "step": 110
+    },
+    {
+      "epoch": 0.5572139303482587,
+      "grad_norm": 3.152708053588867,
+      "learning_rate": 1e-05,
+      "loss": 0.441,
+      "step": 112
+    },
+    {
+      "epoch": 0.5671641791044776,
+      "grad_norm": 5.703269004821777,
+      "learning_rate": 1e-05,
+      "loss": 0.662,
+      "step": 114
+    },
+    {
+      "epoch": 0.5771144278606966,
+      "grad_norm": 4.732028007507324,
+      "learning_rate": 1e-05,
+      "loss": 0.7527,
+      "step": 116
+    },
+    {
+      "epoch": 0.5870646766169154,
+      "grad_norm": 10.553655624389648,
+      "learning_rate": 1e-05,
+      "loss": 2.7411,
+      "step": 118
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 6.645718574523926,
+      "learning_rate": 1e-05,
+      "loss": 1.6926,
+      "step": 120
+    },
+    {
+      "epoch": 0.6069651741293532,
+      "grad_norm": 2.5227789878845215,
+      "learning_rate": 1e-05,
+      "loss": 1.2725,
+      "step": 122
+    },
+    {
+      "epoch": 0.6169154228855721,
+      "grad_norm": 4.154623508453369,
+      "learning_rate": 1e-05,
+      "loss": 1.1329,
+      "step": 124
+    },
+    {
+      "epoch": 0.6268656716417911,
+      "grad_norm": 3.382685661315918,
+      "learning_rate": 1e-05,
+      "loss": 0.5432,
+      "step": 126
+    },
+    {
+      "epoch": 0.6368159203980099,
+      "grad_norm": 11.674966812133789,
+      "learning_rate": 1e-05,
+      "loss": 0.6193,
+      "step": 128
+    },
+    {
+      "epoch": 0.6467661691542289,
+      "grad_norm": 3.64872145652771,
+      "learning_rate": 1e-05,
+      "loss": 0.9732,
+      "step": 130
+    },
+    {
+      "epoch": 0.6567164179104478,
+      "grad_norm": 6.72369384765625,
+      "learning_rate": 1e-05,
+      "loss": 1.1707,
+      "step": 132
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 5.803842067718506,
+      "learning_rate": 1e-05,
+      "loss": 1.6948,
+      "step": 134
+    },
+    {
+      "epoch": 0.6766169154228856,
+      "grad_norm": 6.422171592712402,
+      "learning_rate": 1e-05,
+      "loss": 0.734,
+      "step": 136
+    },
+    {
+      "epoch": 0.6865671641791045,
+      "grad_norm": 11.723003387451172,
+      "learning_rate": 1e-05,
+      "loss": 2.1305,
+      "step": 138
+    },
+    {
+      "epoch": 0.6965174129353234,
+      "grad_norm": 4.657910346984863,
+      "learning_rate": 1e-05,
+      "loss": 1.7126,
+      "step": 140
+    },
+    {
+      "epoch": 0.7064676616915423,
+      "grad_norm": 6.460371494293213,
+      "learning_rate": 1e-05,
+      "loss": 1.6042,
+      "step": 142
+    },
+    {
+      "epoch": 0.7164179104477612,
+      "grad_norm": 2.946357250213623,
+      "learning_rate": 1e-05,
+      "loss": 1.3644,
+      "step": 144
+    },
+    {
+      "epoch": 0.7263681592039801,
+      "grad_norm": 3.000802993774414,
+      "learning_rate": 1e-05,
+      "loss": 0.7483,
+      "step": 146
+    },
+    {
+      "epoch": 0.736318407960199,
+      "grad_norm": 5.282987594604492,
+      "learning_rate": 1e-05,
+      "loss": 1.0917,
+      "step": 148
+    },
+    {
+      "epoch": 0.746268656716418,
+      "grad_norm": 0.4844614565372467,
+      "learning_rate": 1e-05,
+      "loss": 0.3645,
+      "step": 150
+    },
+    {
+      "epoch": 0.7562189054726368,
+      "grad_norm": 4.852270126342773,
+      "learning_rate": 1e-05,
+      "loss": 1.1297,
+      "step": 152
+    },
+    {
+      "epoch": 0.7661691542288557,
+      "grad_norm": 3.115569829940796,
+      "learning_rate": 1e-05,
+      "loss": 1.2097,
+      "step": 154
+    },
+    {
+      "epoch": 0.7761194029850746,
+      "grad_norm": 4.892626762390137,
+      "learning_rate": 1e-05,
+      "loss": 0.8909,
+      "step": 156
+    },
+    {
+      "epoch": 0.7860696517412935,
+      "grad_norm": 4.782143592834473,
+      "learning_rate": 1e-05,
+      "loss": 0.7592,
+      "step": 158
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "grad_norm": 1.9109928607940674,
+      "learning_rate": 1e-05,
+      "loss": 0.4162,
+      "step": 160
+    },
+    {
+      "epoch": 0.8059701492537313,
+      "grad_norm": 8.50790786743164,
+      "learning_rate": 1e-05,
+      "loss": 2.4984,
+      "step": 162
+    },
+    {
+      "epoch": 0.8159203980099502,
+      "grad_norm": 3.661428213119507,
+      "learning_rate": 1e-05,
+      "loss": 1.0022,
+      "step": 164
+    },
+    {
+      "epoch": 0.8258706467661692,
+      "grad_norm": 5.116476058959961,
+      "learning_rate": 1e-05,
+      "loss": 0.9979,
+      "step": 166
+    },
+    {
+      "epoch": 0.835820895522388,
+      "grad_norm": 6.289146900177002,
+      "learning_rate": 1e-05,
+      "loss": 0.8444,
+      "step": 168
+    },
+    {
+      "epoch": 0.845771144278607,
+      "grad_norm": 2.4712114334106445,
+      "learning_rate": 1e-05,
+      "loss": 0.7441,
+      "step": 170
+    },
+    {
+      "epoch": 0.8557213930348259,
+      "grad_norm": 4.545423984527588,
+      "learning_rate": 1e-05,
+      "loss": 0.4958,
+      "step": 172
+    },
+    {
+      "epoch": 0.8656716417910447,
+      "grad_norm": 2.7957515716552734,
+      "learning_rate": 1e-05,
+      "loss": 0.6294,
+      "step": 174
+    },
+    {
+      "epoch": 0.8756218905472637,
+      "grad_norm": 5.590768337249756,
+      "learning_rate": 1e-05,
+      "loss": 0.4968,
+      "step": 176
+    },
+    {
+      "epoch": 0.8855721393034826,
+      "grad_norm": 5.343775749206543,
+      "learning_rate": 1e-05,
+      "loss": 0.4072,
+      "step": 178
+    },
+    {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 8.360288619995117,
+      "learning_rate": 1e-05,
+      "loss": 1.0587,
+      "step": 180
+    },
+    {
+      "epoch": 0.9054726368159204,
+      "grad_norm": 3.4952993392944336,
+      "learning_rate": 1e-05,
+      "loss": 0.742,
+      "step": 182
+    },
+    {
+      "epoch": 0.9154228855721394,
+      "grad_norm": 5.865167617797852,
+      "learning_rate": 1e-05,
+      "loss": 2.4214,
+      "step": 184
+    },
+    {
+      "epoch": 0.9253731343283582,
+      "grad_norm": 3.2211215496063232,
+      "learning_rate": 1e-05,
+      "loss": 1.2642,
+      "step": 186
+    },
+    {
+      "epoch": 0.9353233830845771,
+      "grad_norm": 4.869852066040039,
+      "learning_rate": 1e-05,
+      "loss": 1.7789,
+      "step": 188
+    },
+    {
+      "epoch": 0.945273631840796,
+      "grad_norm": 9.350594520568848,
+      "learning_rate": 1e-05,
+      "loss": 0.9147,
+      "step": 190
+    },
+    {
+      "epoch": 0.9552238805970149,
+      "grad_norm": 2.942012071609497,
+      "learning_rate": 1e-05,
+      "loss": 0.6123,
+      "step": 192
+    },
+    {
+      "epoch": 0.9651741293532339,
+      "grad_norm": 5.4307332038879395,
+      "learning_rate": 1e-05,
+      "loss": 1.2541,
+      "step": 194
+    },
+    {
+      "epoch": 0.9751243781094527,
+      "grad_norm": 4.55341911315918,
+      "learning_rate": 1e-05,
+      "loss": 1.9212,
+      "step": 196
+    },
+    {
+      "epoch": 0.9850746268656716,
+      "grad_norm": 5.160548210144043,
+      "learning_rate": 1e-05,
+      "loss": 0.4836,
+      "step": 198
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "grad_norm": 0.6315759420394897,
+      "learning_rate": 1e-05,
+      "loss": 0.063,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "step": 201,
+      "total_flos": 3.816239406461747e+16,
+      "train_loss": 1.217404284880529,
+      "train_runtime": 508.9307,
+      "train_samples_per_second": 1.58,
+      "train_steps_per_second": 0.395
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 201,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.816239406461747e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}