Upload folder using huggingface_hub

Browse files

Files changed (15) hide show

.gitattributes +1 -0
checkpoint-1767/added_tokens.json +3 -0
checkpoint-1767/config.json +34 -0
checkpoint-1767/generation_config.json +14 -0
checkpoint-1767/model.safetensors +3 -0
checkpoint-1767/optimizer.pt +3 -0
checkpoint-1767/rng_state_0.pth +3 -0
checkpoint-1767/rng_state_1.pth +3 -0
checkpoint-1767/scheduler.pt +3 -0
checkpoint-1767/special_tokens_map.json +33 -0
checkpoint-1767/tokenizer.json +3 -0
checkpoint-1767/tokenizer.model +3 -0
checkpoint-1767/tokenizer_config.json +0 -0
checkpoint-1767/trainer_state.json +1442 -0
checkpoint-1767/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-1178/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-1178/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-1767/tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-1767/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

checkpoint-1767/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 1152,
+  "initializer_range": 0.02,
+  "intermediate_size": 6912,
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": 512,
+  "sliding_window_pattern": 6,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "use_cache": false,
+  "vocab_size": 262144
+}

checkpoint-1767/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "attn_implementation": "eager",
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.51.3"
+}

checkpoint-1767/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b2b59108bd29b7beeaa53835ee025fa12de14b440c53fb33b09f00513e11436
+size 1999811208

checkpoint-1767/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b641325b6269bf461599bc39a5a401fc9521c0fb71cc52aad7cf3ecfc36bd2c
+size 3999833742

checkpoint-1767/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5760f1347dfb235ea1535097ed60f32852e195369a850d128196e21060244ece
+size 14512

checkpoint-1767/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46c3975c377d1a0e4265d8759569136468ef63d7f0908f40a33f1ddcab855fa1
+size 14512

checkpoint-1767/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73939384fc48b50732563c42123ea1e7e532ca6c91a5ea6ae762421d25e4365c
+size 1064

checkpoint-1767/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1767/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

checkpoint-1767/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

checkpoint-1767/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1767/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1442 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.999081207152449,
+  "eval_steps": 500,
+  "global_step": 1767,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016962329493250407,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.1453,
+      "mean_token_accuracy": 0.5800132380177577,
+      "step": 10
+    },
+    {
+      "epoch": 0.033924658986500815,
+      "grad_norm": 2.53125,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 1.713,
+      "mean_token_accuracy": 0.6173386509219806,
+      "step": 20
+    },
+    {
+      "epoch": 0.05088698847975122,
+      "grad_norm": 1.671875,
+      "learning_rate": 5.370370370370371e-05,
+      "loss": 1.5855,
+      "mean_token_accuracy": 0.6299800969660282,
+      "step": 30
+    },
+    {
+      "epoch": 0.06784931797300163,
+      "grad_norm": 1.90625,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 1.5199,
+      "mean_token_accuracy": 0.6394588612020016,
+      "step": 40
+    },
+    {
+      "epoch": 0.08481164746625203,
+      "grad_norm": 1.5546875,
+      "learning_rate": 9.074074074074075e-05,
+      "loss": 1.5192,
+      "mean_token_accuracy": 0.6397132301082213,
+      "step": 50
+    },
+    {
+      "epoch": 0.10177397695950244,
+      "grad_norm": 1.6875,
+      "learning_rate": 9.999789785826972e-05,
+      "loss": 1.5276,
+      "mean_token_accuracy": 0.6391662692030271,
+      "step": 60
+    },
+    {
+      "epoch": 0.11873630645275285,
+      "grad_norm": 1.7734375,
+      "learning_rate": 9.998108178497258e-05,
+      "loss": 1.5183,
+      "mean_token_accuracy": 0.6404511784513791,
+      "step": 70
+    },
+    {
+      "epoch": 0.13569863594600326,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.99474552942225e-05,
+      "loss": 1.5112,
+      "mean_token_accuracy": 0.6418155938386917,
+      "step": 80
+    },
+    {
+      "epoch": 0.15266096543925367,
+      "grad_norm": 1.4765625,
+      "learning_rate": 9.989702969580565e-05,
+      "loss": 1.5161,
+      "mean_token_accuracy": 0.6407449401915073,
+      "step": 90
+    },
+    {
+      "epoch": 0.16962329493250405,
+      "grad_norm": 1.421875,
+      "learning_rate": 9.982982194964625e-05,
+      "loss": 1.4945,
+      "mean_token_accuracy": 0.6452280322710673,
+      "step": 100
+    },
+    {
+      "epoch": 0.18658562442575446,
+      "grad_norm": 1.3203125,
+      "learning_rate": 9.974585466010236e-05,
+      "loss": 1.4927,
+      "mean_token_accuracy": 0.6472473913182815,
+      "step": 110
+    },
+    {
+      "epoch": 0.20354795391900488,
+      "grad_norm": 1.390625,
+      "learning_rate": 9.964515606836321e-05,
+      "loss": 1.4876,
+      "mean_token_accuracy": 0.646234019100666,
+      "step": 120
+    },
+    {
+      "epoch": 0.2205102834122553,
+      "grad_norm": 1.390625,
+      "learning_rate": 9.952776004295077e-05,
+      "loss": 1.4768,
+      "mean_token_accuracy": 0.6493511145313581,
+      "step": 130
+    },
+    {
+      "epoch": 0.2374726129055057,
+      "grad_norm": 1.4375,
+      "learning_rate": 9.939370606832841e-05,
+      "loss": 1.4627,
+      "mean_token_accuracy": 0.6511956502993902,
+      "step": 140
+    },
+    {
+      "epoch": 0.2544349423987561,
+      "grad_norm": 1.3515625,
+      "learning_rate": 9.924303923162097e-05,
+      "loss": 1.4855,
+      "mean_token_accuracy": 0.650639555354913,
+      "step": 150
+    },
+    {
+      "epoch": 0.2713972718920065,
+      "grad_norm": 1.1875,
+      "learning_rate": 9.907581020745037e-05,
+      "loss": 1.4492,
+      "mean_token_accuracy": 0.6547389343380928,
+      "step": 160
+    },
+    {
+      "epoch": 0.2883596013852569,
+      "grad_norm": 1.2734375,
+      "learning_rate": 9.889207524089187e-05,
+      "loss": 1.4298,
+      "mean_token_accuracy": 0.65942026724418,
+      "step": 170
+    },
+    {
+      "epoch": 0.30532193087850734,
+      "grad_norm": 1.2109375,
+      "learning_rate": 9.869189612855685e-05,
+      "loss": 1.4457,
+      "mean_token_accuracy": 0.6557608020802339,
+      "step": 180
+    },
+    {
+      "epoch": 0.3222842603717577,
+      "grad_norm": 1.1328125,
+      "learning_rate": 9.847534019780848e-05,
+      "loss": 1.4136,
+      "mean_token_accuracy": 0.6603276548286279,
+      "step": 190
+    },
+    {
+      "epoch": 0.3392465898650081,
+      "grad_norm": 1.2421875,
+      "learning_rate": 9.824248028411703e-05,
+      "loss": 1.4263,
+      "mean_token_accuracy": 0.6607817115883032,
+      "step": 200
+    },
+    {
+      "epoch": 0.35620891935825855,
+      "grad_norm": 1.1015625,
+      "learning_rate": 9.79933947065628e-05,
+      "loss": 1.4148,
+      "mean_token_accuracy": 0.6610926086703937,
+      "step": 210
+    },
+    {
+      "epoch": 0.37317124885150893,
+      "grad_norm": 1.046875,
+      "learning_rate": 9.772816724149459e-05,
+      "loss": 1.3812,
+      "mean_token_accuracy": 0.6686675310134887,
+      "step": 220
+    },
+    {
+      "epoch": 0.39013357834475937,
+      "grad_norm": 1.1328125,
+      "learning_rate": 9.744688709435268e-05,
+      "loss": 1.4174,
+      "mean_token_accuracy": 0.6620935648679733,
+      "step": 230
+    },
+    {
+      "epoch": 0.40709590783800975,
+      "grad_norm": 1.125,
+      "learning_rate": 9.714964886966598e-05,
+      "loss": 1.4102,
+      "mean_token_accuracy": 0.6628513303895791,
+      "step": 240
+    },
+    {
+      "epoch": 0.42405823733126013,
+      "grad_norm": 1.1484375,
+      "learning_rate": 9.6836552539233e-05,
+      "loss": 1.3909,
+      "mean_token_accuracy": 0.6663404104610284,
+      "step": 250
+    },
+    {
+      "epoch": 0.4410205668245106,
+      "grad_norm": 1.03125,
+      "learning_rate": 9.650770340849796e-05,
+      "loss": 1.4062,
+      "mean_token_accuracy": 0.6653375633060932,
+      "step": 260
+    },
+    {
+      "epoch": 0.45798289631776096,
+      "grad_norm": 1.265625,
+      "learning_rate": 9.616321208113262e-05,
+      "loss": 1.4091,
+      "mean_token_accuracy": 0.6641857360800107,
+      "step": 270
+    },
+    {
+      "epoch": 0.4749452258110114,
+      "grad_norm": 1.078125,
+      "learning_rate": 9.580319442183654e-05,
+      "loss": 1.3828,
+      "mean_token_accuracy": 0.6680692491432031,
+      "step": 280
+    },
+    {
+      "epoch": 0.4919075553042618,
+      "grad_norm": 1.1484375,
+      "learning_rate": 9.542777151736746e-05,
+      "loss": 1.3675,
+      "mean_token_accuracy": 0.6707451656460762,
+      "step": 290
+    },
+    {
+      "epoch": 0.5088698847975122,
+      "grad_norm": 1.0625,
+      "learning_rate": 9.503706963581562e-05,
+      "loss": 1.3782,
+      "mean_token_accuracy": 0.6665912042061488,
+      "step": 300
+    },
+    {
+      "epoch": 0.5258322142907625,
+      "grad_norm": 1.171875,
+      "learning_rate": 9.463122018413532e-05,
+      "loss": 1.3536,
+      "mean_token_accuracy": 0.6734739691019058,
+      "step": 310
+    },
+    {
+      "epoch": 0.542794543784013,
+      "grad_norm": 1.015625,
+      "learning_rate": 9.4210359663948e-05,
+      "loss": 1.3887,
+      "mean_token_accuracy": 0.668233826259772,
+      "step": 320
+    },
+    {
+      "epoch": 0.5597568732772634,
+      "grad_norm": 1.0078125,
+      "learning_rate": 9.377462962563195e-05,
+      "loss": 1.3819,
+      "mean_token_accuracy": 0.6673479390641054,
+      "step": 330
+    },
+    {
+      "epoch": 0.5767192027705138,
+      "grad_norm": 1.015625,
+      "learning_rate": 9.332417662071385e-05,
+      "loss": 1.3679,
+      "mean_token_accuracy": 0.6706842251121998,
+      "step": 340
+    },
+    {
+      "epoch": 0.5936815322637642,
+      "grad_norm": 0.9609375,
+      "learning_rate": 9.285915215257828e-05,
+      "loss": 1.3615,
+      "mean_token_accuracy": 0.6692039887110393,
+      "step": 350
+    },
+    {
+      "epoch": 0.6106438617570147,
+      "grad_norm": 1.078125,
+      "learning_rate": 9.237971262551175e-05,
+      "loss": 1.3566,
+      "mean_token_accuracy": 0.6739495868484179,
+      "step": 360
+    },
+    {
+      "epoch": 0.6276061912502651,
+      "grad_norm": 1.1875,
+      "learning_rate": 9.188601929209835e-05,
+      "loss": 1.3103,
+      "mean_token_accuracy": 0.6818199207385381,
+      "step": 370
+    },
+    {
+      "epoch": 0.6445685207435154,
+      "grad_norm": 1.0,
+      "learning_rate": 9.137823819898477e-05,
+      "loss": 1.3527,
+      "mean_token_accuracy": 0.6732211743791898,
+      "step": 380
+    },
+    {
+      "epoch": 0.6615308502367658,
+      "grad_norm": 0.9453125,
+      "learning_rate": 9.08565401310329e-05,
+      "loss": 1.3332,
+      "mean_token_accuracy": 0.6759632855653763,
+      "step": 390
+    },
+    {
+      "epoch": 0.6784931797300162,
+      "grad_norm": 0.98046875,
+      "learning_rate": 9.03211005538788e-05,
+      "loss": 1.3457,
+      "mean_token_accuracy": 0.6737116026381652,
+      "step": 400
+    },
+    {
+      "epoch": 0.6954555092232667,
+      "grad_norm": 1.078125,
+      "learning_rate": 8.977209955491739e-05,
+      "loss": 1.3713,
+      "mean_token_accuracy": 0.6700817617277305,
+      "step": 410
+    },
+    {
+      "epoch": 0.7124178387165171,
+      "grad_norm": 1.03125,
+      "learning_rate": 8.920972178273257e-05,
+      "loss": 1.3243,
+      "mean_token_accuracy": 0.6765588760375977,
+      "step": 420
+    },
+    {
+      "epoch": 0.7293801682097675,
+      "grad_norm": 0.98046875,
+      "learning_rate": 8.863415638499341e-05,
+      "loss": 1.3272,
+      "mean_token_accuracy": 0.6768454472223918,
+      "step": 430
+    },
+    {
+      "epoch": 0.7463424977030179,
+      "grad_norm": 1.015625,
+      "learning_rate": 8.8045596944837e-05,
+      "loss": 1.3411,
+      "mean_token_accuracy": 0.6759745722015699,
+      "step": 440
+    },
+    {
+      "epoch": 0.7633048271962682,
+      "grad_norm": 1.0,
+      "learning_rate": 8.744424141575959e-05,
+      "loss": 1.3138,
+      "mean_token_accuracy": 0.6793065622448922,
+      "step": 450
+    },
+    {
+      "epoch": 0.7802671566895187,
+      "grad_norm": 0.9765625,
+      "learning_rate": 8.683029205503773e-05,
+      "loss": 1.3562,
+      "mean_token_accuracy": 0.6727576293051243,
+      "step": 460
+    },
+    {
+      "epoch": 0.7972294861827691,
+      "grad_norm": 1.0546875,
+      "learning_rate": 8.620395535570198e-05,
+      "loss": 1.347,
+      "mean_token_accuracy": 0.6732823781669139,
+      "step": 470
+    },
+    {
+      "epoch": 0.8141918156760195,
+      "grad_norm": 0.93359375,
+      "learning_rate": 8.556544197708596e-05,
+      "loss": 1.3011,
+      "mean_token_accuracy": 0.6819205803175767,
+      "step": 480
+    },
+    {
+      "epoch": 0.8311541451692699,
+      "grad_norm": 0.96484375,
+      "learning_rate": 8.491496667397408e-05,
+      "loss": 1.3051,
+      "mean_token_accuracy": 0.6827595402797063,
+      "step": 490
+    },
+    {
+      "epoch": 0.8481164746625203,
+      "grad_norm": 1.1015625,
+      "learning_rate": 8.42527482243719e-05,
+      "loss": 1.2991,
+      "mean_token_accuracy": 0.6841210166613261,
+      "step": 500
+    },
+    {
+      "epoch": 0.8650788041557708,
+      "grad_norm": 0.9375,
+      "learning_rate": 8.357900935592327e-05,
+      "loss": 1.3055,
+      "mean_token_accuracy": 0.679613892485698,
+      "step": 510
+    },
+    {
+      "epoch": 0.8820411336490211,
+      "grad_norm": 0.95703125,
+      "learning_rate": 8.289397667099909e-05,
+      "loss": 1.3155,
+      "mean_token_accuracy": 0.6812887417773406,
+      "step": 520
+    },
+    {
+      "epoch": 0.8990034631422715,
+      "grad_norm": 0.9453125,
+      "learning_rate": 8.219788057048286e-05,
+      "loss": 1.3154,
+      "mean_token_accuracy": 0.6792417210837205,
+      "step": 530
+    },
+    {
+      "epoch": 0.9159657926355219,
+      "grad_norm": 0.9375,
+      "learning_rate": 8.149095517627871e-05,
+      "loss": 1.3034,
+      "mean_token_accuracy": 0.6806264075140158,
+      "step": 540
+    },
+    {
+      "epoch": 0.9329281221287723,
+      "grad_norm": 0.8984375,
+      "learning_rate": 8.077343825256783e-05,
+      "loss": 1.3126,
+      "mean_token_accuracy": 0.6810529338816802,
+      "step": 550
+    },
+    {
+      "epoch": 0.9498904516220228,
+      "grad_norm": 0.9609375,
+      "learning_rate": 8.004557112583986e-05,
+      "loss": 1.3134,
+      "mean_token_accuracy": 0.6798362337052822,
+      "step": 560
+    },
+    {
+      "epoch": 0.9668527811152732,
+      "grad_norm": 0.921875,
+      "learning_rate": 7.930759860372628e-05,
+      "loss": 1.2856,
+      "mean_token_accuracy": 0.683349988112847,
+      "step": 570
+    },
+    {
+      "epoch": 0.9838151106085236,
+      "grad_norm": 0.88671875,
+      "learning_rate": 7.855976889266288e-05,
+      "loss": 1.2901,
+      "mean_token_accuracy": 0.6849393486976624,
+      "step": 580
+    },
+    {
+      "epoch": 1.001696232949325,
+      "grad_norm": 2.609375,
+      "learning_rate": 7.780233351440903e-05,
+      "loss": 1.395,
+      "mean_token_accuracy": 0.6899135421733467,
+      "step": 590
+    },
+    {
+      "epoch": 1.0186585624425755,
+      "grad_norm": 0.93359375,
+      "learning_rate": 7.703554722145201e-05,
+      "loss": 1.1017,
+      "mean_token_accuracy": 0.7215727421144644,
+      "step": 600
+    },
+    {
+      "epoch": 1.0356208919358258,
+      "grad_norm": 0.9609375,
+      "learning_rate": 7.625966791132468e-05,
+      "loss": 1.0907,
+      "mean_token_accuracy": 0.7208627772827944,
+      "step": 610
+    },
+    {
+      "epoch": 1.0525832214290762,
+      "grad_norm": 0.99609375,
+      "learning_rate": 7.547495653986536e-05,
+      "loss": 1.0893,
+      "mean_token_accuracy": 0.7245491112271945,
+      "step": 620
+    },
+    {
+      "epoch": 1.0695455509223266,
+      "grad_norm": 1.015625,
+      "learning_rate": 7.468167703344902e-05,
+      "loss": 1.0853,
+      "mean_token_accuracy": 0.7234922610223293,
+      "step": 630
+    },
+    {
+      "epoch": 1.086507880415577,
+      "grad_norm": 0.92578125,
+      "learning_rate": 7.388009620021959e-05,
+      "loss": 1.1004,
+      "mean_token_accuracy": 0.7199652560055256,
+      "step": 640
+    },
+    {
+      "epoch": 1.1034702099088274,
+      "grad_norm": 0.94921875,
+      "learning_rate": 7.307048364035266e-05,
+      "loss": 1.1206,
+      "mean_token_accuracy": 0.719177692135175,
+      "step": 650
+    },
+    {
+      "epoch": 1.120432539402078,
+      "grad_norm": 0.9375,
+      "learning_rate": 7.225311165537956e-05,
+      "loss": 1.0905,
+      "mean_token_accuracy": 0.7229047452410062,
+      "step": 660
+    },
+    {
+      "epoch": 1.1373948688953284,
+      "grad_norm": 0.90234375,
+      "learning_rate": 7.142825515660259e-05,
+      "loss": 1.1184,
+      "mean_token_accuracy": 0.7195753792921702,
+      "step": 670
+    },
+    {
+      "epoch": 1.1543571983885788,
+      "grad_norm": 0.9453125,
+      "learning_rate": 7.059619157263245e-05,
+      "loss": 1.1152,
+      "mean_token_accuracy": 0.7191205089290936,
+      "step": 680
+    },
+    {
+      "epoch": 1.1713195278818291,
+      "grad_norm": 0.984375,
+      "learning_rate": 6.975720075607927e-05,
+      "loss": 1.1029,
+      "mean_token_accuracy": 0.7206906000773112,
+      "step": 690
+    },
+    {
+      "epoch": 1.1882818573750795,
+      "grad_norm": 0.953125,
+      "learning_rate": 6.891156488942811e-05,
+      "loss": 1.0929,
+      "mean_token_accuracy": 0.7221428496142228,
+      "step": 700
+    },
+    {
+      "epoch": 1.20524418686833,
+      "grad_norm": 1.03125,
+      "learning_rate": 6.805956839013107e-05,
+      "loss": 1.1047,
+      "mean_token_accuracy": 0.7189865835011006,
+      "step": 710
+    },
+    {
+      "epoch": 1.2222065163615803,
+      "grad_norm": 0.97265625,
+      "learning_rate": 6.720149781494738e-05,
+      "loss": 1.1151,
+      "mean_token_accuracy": 0.7195135744909446,
+      "step": 720
+    },
+    {
+      "epoch": 1.2391688458548307,
+      "grad_norm": 1.0,
+      "learning_rate": 6.633764176356434e-05,
+      "loss": 1.0717,
+      "mean_token_accuracy": 0.7264206613103549,
+      "step": 730
+    },
+    {
+      "epoch": 1.2561311753480813,
+      "grad_norm": 1.0625,
+      "learning_rate": 6.546829078153086e-05,
+      "loss": 1.109,
+      "mean_token_accuracy": 0.718661529570818,
+      "step": 740
+    },
+    {
+      "epoch": 1.2730935048413317,
+      "grad_norm": 0.94140625,
+      "learning_rate": 6.459373726253672e-05,
+      "loss": 1.0936,
+      "mean_token_accuracy": 0.7220857585469882,
+      "step": 750
+    },
+    {
+      "epoch": 1.290055834334582,
+      "grad_norm": 0.9453125,
+      "learning_rate": 6.371427535007008e-05,
+      "loss": 1.0909,
+      "mean_token_accuracy": 0.7229609449704488,
+      "step": 760
+    },
+    {
+      "epoch": 1.3070181638278324,
+      "grad_norm": 0.8984375,
+      "learning_rate": 6.283020083848661e-05,
+      "loss": 1.1011,
+      "mean_token_accuracy": 0.7228824739654859,
+      "step": 770
+    },
+    {
+      "epoch": 1.3239804933210828,
+      "grad_norm": 0.91015625,
+      "learning_rate": 6.194181107352331e-05,
+      "loss": 1.0762,
+      "mean_token_accuracy": 0.7260710549851258,
+      "step": 780
+    },
+    {
+      "epoch": 1.3409428228143332,
+      "grad_norm": 0.88671875,
+      "learning_rate": 6.104940485229054e-05,
+      "loss": 1.097,
+      "mean_token_accuracy": 0.7203553736209869,
+      "step": 790
+    },
+    {
+      "epoch": 1.3579051523075836,
+      "grad_norm": 1.0234375,
+      "learning_rate": 6.015328232277593e-05,
+      "loss": 1.1041,
+      "mean_token_accuracy": 0.722166525820891,
+      "step": 800
+    },
+    {
+      "epoch": 1.374867481800834,
+      "grad_norm": 0.97265625,
+      "learning_rate": 5.925374488289388e-05,
+      "loss": 1.096,
+      "mean_token_accuracy": 0.7233567799131075,
+      "step": 810
+    },
+    {
+      "epoch": 1.3918298112940843,
+      "grad_norm": 0.96875,
+      "learning_rate": 5.8351095079114745e-05,
+      "loss": 1.103,
+      "mean_token_accuracy": 0.721570813159148,
+      "step": 820
+    },
+    {
+      "epoch": 1.4087921407873347,
+      "grad_norm": 0.95703125,
+      "learning_rate": 5.74456365047077e-05,
+      "loss": 1.1058,
+      "mean_token_accuracy": 0.7204289863506953,
+      "step": 830
+    },
+    {
+      "epoch": 1.425754470280585,
+      "grad_norm": 1.0859375,
+      "learning_rate": 5.653767369763148e-05,
+      "loss": 1.0895,
+      "mean_token_accuracy": 0.7256171715756258,
+      "step": 840
+    },
+    {
+      "epoch": 1.4427167997738355,
+      "grad_norm": 0.953125,
+      "learning_rate": 5.562751203810742e-05,
+      "loss": 1.0696,
+      "mean_token_accuracy": 0.72752467567722,
+      "step": 850
+    },
+    {
+      "epoch": 1.459679129267086,
+      "grad_norm": 0.95703125,
+      "learning_rate": 5.471545764590924e-05,
+      "loss": 1.0586,
+      "mean_token_accuracy": 0.7292891172071297,
+      "step": 860
+    },
+    {
+      "epoch": 1.4766414587603365,
+      "grad_norm": 0.92578125,
+      "learning_rate": 5.3801817277404066e-05,
+      "loss": 1.0876,
+      "mean_token_accuracy": 0.7224949277937412,
+      "step": 870
+    },
+    {
+      "epoch": 1.4936037882535869,
+      "grad_norm": 0.921875,
+      "learning_rate": 5.28868982223793e-05,
+      "loss": 1.0675,
+      "mean_token_accuracy": 0.7286781263848146,
+      "step": 880
+    },
+    {
+      "epoch": 1.5105661177468372,
+      "grad_norm": 0.94140625,
+      "learning_rate": 5.197100820069016e-05,
+      "loss": 1.0845,
+      "mean_token_accuracy": 0.7255125172436238,
+      "step": 890
+    },
+    {
+      "epoch": 1.5275284472400876,
+      "grad_norm": 0.94140625,
+      "learning_rate": 5.1054455258762535e-05,
+      "loss": 1.0998,
+      "mean_token_accuracy": 0.7214603280027707,
+      "step": 900
+    },
+    {
+      "epoch": 1.544490776733338,
+      "grad_norm": 0.99609375,
+      "learning_rate": 5.0137547665985985e-05,
+      "loss": 1.1018,
+      "mean_token_accuracy": 0.7225766807794571,
+      "step": 910
+    },
+    {
+      "epoch": 1.5614531062265886,
+      "grad_norm": 0.9453125,
+      "learning_rate": 4.9220593811031786e-05,
+      "loss": 1.0482,
+      "mean_token_accuracy": 0.7321401789784432,
+      "step": 920
+    },
+    {
+      "epoch": 1.578415435719839,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.83039020981308e-05,
+      "loss": 1.0618,
+      "mean_token_accuracy": 0.7308160757025083,
+      "step": 930
+    },
+    {
+      "epoch": 1.5953777652130894,
+      "grad_norm": 0.9453125,
+      "learning_rate": 4.738778084334625e-05,
+      "loss": 1.079,
+      "mean_token_accuracy": 0.7259436552723249,
+      "step": 940
+    },
+    {
+      "epoch": 1.6123400947063398,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.6472538170875924e-05,
+      "loss": 1.054,
+      "mean_token_accuracy": 0.7302558933695157,
+      "step": 950
+    },
+    {
+      "epoch": 1.6293024241995901,
+      "grad_norm": 0.984375,
+      "learning_rate": 4.5558481909419095e-05,
+      "loss": 1.0522,
+      "mean_token_accuracy": 0.7308388692637284,
+      "step": 960
+    },
+    {
+      "epoch": 1.6462647536928405,
+      "grad_norm": 0.93359375,
+      "learning_rate": 4.46459194886428e-05,
+      "loss": 1.0886,
+      "mean_token_accuracy": 0.7265370438496271,
+      "step": 970
+    },
+    {
+      "epoch": 1.663227083186091,
+      "grad_norm": 0.9375,
+      "learning_rate": 4.373515783578226e-05,
+      "loss": 1.0657,
+      "mean_token_accuracy": 0.7278412433962027,
+      "step": 980
+    },
+    {
+      "epoch": 1.6801894126793413,
+      "grad_norm": 0.90234375,
+      "learning_rate": 4.2826503272410304e-05,
+      "loss": 1.0636,
+      "mean_token_accuracy": 0.7297646810611089,
+      "step": 990
+    },
+    {
+      "epoch": 1.6971517421725917,
+      "grad_norm": 0.90625,
+      "learning_rate": 4.1920261411410536e-05,
+      "loss": 1.0802,
+      "mean_token_accuracy": 0.7267571208377679,
+      "step": 1000
+    },
+    {
+      "epoch": 1.714114071665842,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.101673705418888e-05,
+      "loss": 1.0609,
+      "mean_token_accuracy": 0.7287999058763186,
+      "step": 1010
+    },
+    {
+      "epoch": 1.7310764011590924,
+      "grad_norm": 1.046875,
+      "learning_rate": 4.011623408815799e-05,
+      "loss": 1.0515,
+      "mean_token_accuracy": 0.7311748243868351,
+      "step": 1020
+    },
+    {
+      "epoch": 1.7480387306523428,
+      "grad_norm": 0.8984375,
+      "learning_rate": 3.9219055384529e-05,
+      "loss": 1.0815,
+      "mean_token_accuracy": 0.7260699895521004,
+      "step": 1030
+    },
+    {
+      "epoch": 1.7650010601455932,
+      "grad_norm": 0.95703125,
+      "learning_rate": 3.83255026964453e-05,
+      "loss": 1.0436,
+      "mean_token_accuracy": 0.7335223399102688,
+      "step": 1040
+    },
+    {
+      "epoch": 1.7819633896388436,
+      "grad_norm": 0.89453125,
+      "learning_rate": 3.7435876557492156e-05,
+      "loss": 1.0713,
+      "mean_token_accuracy": 0.7298086928824584,
+      "step": 1050
+    },
+    {
+      "epoch": 1.798925719132094,
+      "grad_norm": 1.0,
+      "learning_rate": 3.655047618061648e-05,
+      "loss": 1.0633,
+      "mean_token_accuracy": 0.7291242313881715,
+      "step": 1060
+    },
+    {
+      "epoch": 1.8158880486253446,
+      "grad_norm": 0.96875,
+      "learning_rate": 3.566959935749101e-05,
+      "loss": 1.062,
+      "mean_token_accuracy": 0.7298740123709043,
+      "step": 1070
+    },
+    {
+      "epoch": 1.832850378118595,
+      "grad_norm": 0.94921875,
+      "learning_rate": 3.479354235835622e-05,
+      "loss": 1.041,
+      "mean_token_accuracy": 0.7348680111269156,
+      "step": 1080
+    },
+    {
+      "epoch": 1.8498127076118454,
+      "grad_norm": 0.9375,
+      "learning_rate": 3.3922599832374226e-05,
+      "loss": 1.0601,
+      "mean_token_accuracy": 0.7297768058876196,
+      "step": 1090
+    },
+    {
+      "epoch": 1.8667750371050957,
+      "grad_norm": 0.9296875,
+      "learning_rate": 3.3057064708527686e-05,
+      "loss": 1.0516,
+      "mean_token_accuracy": 0.7326766779025395,
+      "step": 1100
+    },
+    {
+      "epoch": 1.8837373665983461,
+      "grad_norm": 0.90234375,
+      "learning_rate": 3.2197228097097346e-05,
+      "loss": 1.0737,
+      "mean_token_accuracy": 0.7286487720906735,
+      "step": 1110
+    },
+    {
+      "epoch": 1.9006996960915967,
+      "grad_norm": 0.90625,
+      "learning_rate": 3.1343379191751364e-05,
+      "loss": 1.0685,
+      "mean_token_accuracy": 0.7287176544467608,
+      "step": 1120
+    },
+    {
+      "epoch": 1.917662025584847,
+      "grad_norm": 0.83203125,
+      "learning_rate": 3.0495805172279167e-05,
+      "loss": 1.0279,
+      "mean_token_accuracy": 0.7362240366637707,
+      "step": 1130
+    },
+    {
+      "epoch": 1.9346243550780975,
+      "grad_norm": 0.9765625,
+      "learning_rate": 2.9654791108002567e-05,
+      "loss": 1.0658,
+      "mean_token_accuracy": 0.7271889204780261,
+      "step": 1140
+    },
+    {
+      "epoch": 1.9515866845713479,
+      "grad_norm": 0.96875,
+      "learning_rate": 2.8820619861896907e-05,
+      "loss": 1.0521,
+      "mean_token_accuracy": 0.7311085325976213,
+      "step": 1150
+    },
+    {
+      "epoch": 1.9685490140645983,
+      "grad_norm": 0.875,
+      "learning_rate": 2.7993571995454126e-05,
+      "loss": 1.0457,
+      "mean_token_accuracy": 0.7344075481096903,
+      "step": 1160
+    },
+    {
+      "epoch": 1.9855113435578486,
+      "grad_norm": 0.92578125,
+      "learning_rate": 2.7173925674319957e-05,
+      "loss": 1.0498,
+      "mean_token_accuracy": 0.7325132201115291,
+      "step": 1170
+    },
+    {
+      "epoch": 2.00339246589865,
+      "grad_norm": 1.40625,
+      "learning_rate": 2.6361956574736868e-05,
+      "loss": 1.139,
+      "mean_token_accuracy": 0.7362643013195116,
+      "step": 1180
+    },
+    {
+      "epoch": 2.0203547953919005,
+      "grad_norm": 1.0546875,
+      "learning_rate": 2.5557937790824382e-05,
+      "loss": 0.8593,
+      "mean_token_accuracy": 0.774844840914011,
+      "step": 1190
+    },
+    {
+      "epoch": 2.037317124885151,
+      "grad_norm": 1.0234375,
+      "learning_rate": 2.4762139742727797e-05,
+      "loss": 0.8657,
+      "mean_token_accuracy": 0.7745203738411267,
+      "step": 1200
+    },
+    {
+      "epoch": 2.0542794543784013,
+      "grad_norm": 0.9765625,
+      "learning_rate": 2.3974830085666237e-05,
+      "loss": 0.8389,
+      "mean_token_accuracy": 0.7786116595069568,
+      "step": 1210
+    },
+    {
+      "epoch": 2.0712417838716517,
+      "grad_norm": 1.0234375,
+      "learning_rate": 2.3196273619910637e-05,
+      "loss": 0.8757,
+      "mean_token_accuracy": 0.7714692994952201,
+      "step": 1220
+    },
+    {
+      "epoch": 2.088204113364902,
+      "grad_norm": 1.03125,
+      "learning_rate": 2.242673220172209e-05,
+      "loss": 0.869,
+      "mean_token_accuracy": 0.7752320093413194,
+      "step": 1230
+    },
+    {
+      "epoch": 2.1051664428581525,
+      "grad_norm": 1.0078125,
+      "learning_rate": 2.1666464655280133e-05,
+      "loss": 0.8593,
+      "mean_token_accuracy": 0.7770325655738513,
+      "step": 1240
+    },
+    {
+      "epoch": 2.122128772351403,
+      "grad_norm": 0.9765625,
+      "learning_rate": 2.0915726685631075e-05,
+      "loss": 0.8809,
+      "mean_token_accuracy": 0.7723904815812905,
+      "step": 1250
+    },
+    {
+      "epoch": 2.1390911018446532,
+      "grad_norm": 1.0625,
+      "learning_rate": 2.0174770792685243e-05,
+      "loss": 0.8523,
+      "mean_token_accuracy": 0.7762084101637204,
+      "step": 1260
+    },
+    {
+      "epoch": 2.1560534313379036,
+      "grad_norm": 1.015625,
+      "learning_rate": 1.9443846186292202e-05,
+      "loss": 0.8619,
+      "mean_token_accuracy": 0.7747002402941386,
+      "step": 1270
+    },
+    {
+      "epoch": 2.173015760831154,
+      "grad_norm": 0.9453125,
+      "learning_rate": 1.8723198702422724e-05,
+      "loss": 0.8542,
+      "mean_token_accuracy": 0.7765256710350513,
+      "step": 1280
+    },
+    {
+      "epoch": 2.1899780903244044,
+      "grad_norm": 0.921875,
+      "learning_rate": 1.8013070720485354e-05,
+      "loss": 0.8496,
+      "mean_token_accuracy": 0.7781426074604193,
+      "step": 1290
+    },
+    {
+      "epoch": 2.2069404198176548,
+      "grad_norm": 0.96875,
+      "learning_rate": 1.7313701081805506e-05,
+      "loss": 0.8945,
+      "mean_token_accuracy": 0.7692260307570299,
+      "step": 1300
+    },
+    {
+      "epoch": 2.2239027493109056,
+      "grad_norm": 0.984375,
+      "learning_rate": 1.6625325009294774e-05,
+      "loss": 0.8587,
+      "mean_token_accuracy": 0.7756107933819294,
+      "step": 1310
+    },
+    {
+      "epoch": 2.240865078804156,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.594817402833693e-05,
+      "loss": 0.8394,
+      "mean_token_accuracy": 0.7796109855175019,
+      "step": 1320
+    },
+    {
+      "epoch": 2.2578274082974064,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.5282475888917835e-05,
+      "loss": 0.8728,
+      "mean_token_accuracy": 0.7744500560065111,
+      "step": 1330
+    },
+    {
+      "epoch": 2.2747897377906567,
+      "grad_norm": 1.0,
+      "learning_rate": 1.4628454489024934e-05,
+      "loss": 0.8518,
+      "mean_token_accuracy": 0.777750201523304,
+      "step": 1340
+    },
+    {
+      "epoch": 2.291752067283907,
+      "grad_norm": 1.0859375,
+      "learning_rate": 1.398632979934235e-05,
+      "loss": 0.8548,
+      "mean_token_accuracy": 0.7758344347278278,
+      "step": 1350
+    },
+    {
+      "epoch": 2.3087143967771575,
+      "grad_norm": 1.0390625,
+      "learning_rate": 1.335631778926702e-05,
+      "loss": 0.8651,
+      "mean_token_accuracy": 0.7755650137861569,
+      "step": 1360
+    },
+    {
+      "epoch": 2.325676726270408,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.2738630354270437e-05,
+      "loss": 0.8697,
+      "mean_token_accuracy": 0.7738447397947311,
+      "step": 1370
+    },
+    {
+      "epoch": 2.3426390557636583,
+      "grad_norm": 0.984375,
+      "learning_rate": 1.2133475244630615e-05,
+      "loss": 0.8657,
+      "mean_token_accuracy": 0.7746792284150918,
+      "step": 1380
+    },
+    {
+      "epoch": 2.3596013852569087,
+      "grad_norm": 0.984375,
+      "learning_rate": 1.154105599555837e-05,
+      "loss": 0.8817,
+      "mean_token_accuracy": 0.7732328993578752,
+      "step": 1390
+    },
+    {
+      "epoch": 2.376563714750159,
+      "grad_norm": 0.9921875,
+      "learning_rate": 1.0961571858741088e-05,
+      "loss": 0.861,
+      "mean_token_accuracy": 0.7760703690350056,
+      "step": 1400
+    },
+    {
+      "epoch": 2.3935260442434094,
+      "grad_norm": 1.0625,
+      "learning_rate": 1.0395217735327362e-05,
+      "loss": 0.8615,
+      "mean_token_accuracy": 0.775514493137598,
+      "step": 1410
+    },
+    {
+      "epoch": 2.41048837373666,
+      "grad_norm": 0.984375,
+      "learning_rate": 9.84218411037477e-06,
+      "loss": 0.874,
+      "mean_token_accuracy": 0.7736226240793864,
+      "step": 1420
+    },
+    {
+      "epoch": 2.42745070322991,
+      "grad_norm": 1.0,
+      "learning_rate": 9.30265698878291e-06,
+      "loss": 0.8676,
+      "mean_token_accuracy": 0.7738830464581649,
+      "step": 1430
+    },
+    {
+      "epoch": 2.4444130327231606,
+      "grad_norm": 1.5,
+      "learning_rate": 8.776817832733436e-06,
+      "loss": 0.8733,
+      "mean_token_accuracy": 0.7751010999083519,
+      "step": 1440
+    },
+    {
+      "epoch": 2.461375362216411,
+      "grad_norm": 0.98046875,
+      "learning_rate": 8.264843500657799e-06,
+      "loss": 0.8521,
+      "mean_token_accuracy": 0.7777772823969523,
+      "step": 1450
+    },
+    {
+      "epoch": 2.4783376917096613,
+      "grad_norm": 0.9765625,
+      "learning_rate": 7.766906187753442e-06,
+      "loss": 0.8635,
+      "mean_token_accuracy": 0.773188495139281,
+      "step": 1460
+    },
+    {
+      "epoch": 2.4953000212029117,
+      "grad_norm": 0.96875,
+      "learning_rate": 7.283173368068497e-06,
+      "loss": 0.844,
+      "mean_token_accuracy": 0.7778890219827493,
+      "step": 1470
+    },
+    {
+      "epoch": 2.5122623506961625,
+      "grad_norm": 1.0546875,
+      "learning_rate": 6.8138077381742e-06,
+      "loss": 0.8645,
+      "mean_token_accuracy": 0.7747706746061643,
+      "step": 1480
+    },
+    {
+      "epoch": 2.5292246801894125,
+      "grad_norm": 1.015625,
+      "learning_rate": 6.3589671624443405e-06,
+      "loss": 0.868,
+      "mean_token_accuracy": 0.774104047069947,
+      "step": 1490
+    },
+    {
+      "epoch": 2.5461870096826633,
+      "grad_norm": 1.0234375,
+      "learning_rate": 5.918804619959806e-06,
+      "loss": 0.8732,
+      "mean_token_accuracy": 0.7745006288091342,
+      "step": 1500
+    },
+    {
+      "epoch": 2.5631493391759133,
+      "grad_norm": 0.98828125,
+      "learning_rate": 5.493468153056236e-06,
+      "loss": 0.8811,
+      "mean_token_accuracy": 0.7711024150252342,
+      "step": 1510
+    },
+    {
+      "epoch": 2.580111668669164,
+      "grad_norm": 0.96484375,
+      "learning_rate": 5.083100817532177e-06,
+      "loss": 0.8709,
+      "mean_token_accuracy": 0.7753738241891066,
+      "step": 1520
+    },
+    {
+      "epoch": 2.5970739981624145,
+      "grad_norm": 0.98046875,
+      "learning_rate": 4.687840634534302e-06,
+      "loss": 0.8596,
+      "mean_token_accuracy": 0.7756442760427793,
+      "step": 1530
+    },
+    {
+      "epoch": 2.614036327655665,
+      "grad_norm": 1.0234375,
+      "learning_rate": 4.307820544135937e-06,
+      "loss": 0.8553,
+      "mean_token_accuracy": 0.7786166049540043,
+      "step": 1540
+    },
+    {
+      "epoch": 2.6309986571489152,
+      "grad_norm": 1.03125,
+      "learning_rate": 3.943168360624672e-06,
+      "loss": 0.8614,
+      "mean_token_accuracy": 0.7758901623388131,
+      "step": 1550
+    },
+    {
+      "epoch": 2.6479609866421656,
+      "grad_norm": 1.0234375,
+      "learning_rate": 3.594006729513771e-06,
+      "loss": 0.8507,
+      "mean_token_accuracy": 0.7781767211854458,
+      "step": 1560
+    },
+    {
+      "epoch": 2.664923316135416,
+      "grad_norm": 1.0078125,
+      "learning_rate": 3.260453086292187e-06,
+      "loss": 0.8734,
+      "mean_token_accuracy": 0.7742785550653934,
+      "step": 1570
+    },
+    {
+      "epoch": 2.6818856456286664,
+      "grad_norm": 1.078125,
+      "learning_rate": 2.942619616926806e-06,
+      "loss": 0.8792,
+      "mean_token_accuracy": 0.772778149942557,
+      "step": 1580
+    },
+    {
+      "epoch": 2.6988479751219168,
+      "grad_norm": 1.0,
+      "learning_rate": 2.640613220130278e-06,
+      "loss": 0.8412,
+      "mean_token_accuracy": 0.7816825255751609,
+      "step": 1590
+    },
+    {
+      "epoch": 2.715810304615167,
+      "grad_norm": 0.96875,
+      "learning_rate": 2.3545354714072264e-06,
+      "loss": 0.8622,
+      "mean_token_accuracy": 0.7764831451078256,
+      "step": 1600
+    },
+    {
+      "epoch": 2.7327726341084175,
+      "grad_norm": 0.9296875,
+      "learning_rate": 2.0844825888907738e-06,
+      "loss": 0.8662,
+      "mean_token_accuracy": 0.7740148122111956,
+      "step": 1610
+    },
+    {
+      "epoch": 2.749734963601668,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.8305454009809097e-06,
+      "loss": 0.8801,
+      "mean_token_accuracy": 0.7726842557390531,
+      "step": 1620
+    },
+    {
+      "epoch": 2.7666972930949183,
+      "grad_norm": 1.0234375,
+      "learning_rate": 1.5928093157957403e-06,
+      "loss": 0.8601,
+      "mean_token_accuracy": 0.7756263218820095,
+      "step": 1630
+    },
+    {
+      "epoch": 2.7836596225881687,
+      "grad_norm": 0.97265625,
+      "learning_rate": 1.3713542924456479e-06,
+      "loss": 0.8507,
+      "mean_token_accuracy": 0.777658429245154,
+      "step": 1640
+    },
+    {
+      "epoch": 2.800621952081419,
+      "grad_norm": 1.03125,
+      "learning_rate": 1.1662548141402163e-06,
+      "loss": 0.8511,
+      "mean_token_accuracy": 0.7770614944398403,
+      "step": 1650
+    },
+    {
+      "epoch": 2.8175842815746694,
+      "grad_norm": 1.015625,
+      "learning_rate": 9.775798631368626e-07,
+      "loss": 0.8463,
+      "mean_token_accuracy": 0.7784749428431194,
+      "step": 1660
+    },
+    {
+      "epoch": 2.83454661106792,
+      "grad_norm": 1.03125,
+      "learning_rate": 8.053928975396418e-07,
+      "loss": 0.8785,
+      "mean_token_accuracy": 0.7732983765502771,
+      "step": 1670
+    },
+    {
+      "epoch": 2.85150894056117,
+      "grad_norm": 1.03125,
+      "learning_rate": 6.497518299560634e-07,
+      "loss": 0.8695,
+      "mean_token_accuracy": 0.7760962655146917,
+      "step": 1680
+    },
+    {
+      "epoch": 2.868471270054421,
+      "grad_norm": 0.9453125,
+      "learning_rate": 5.107090080189725e-07,
+      "loss": 0.844,
+      "mean_token_accuracy": 0.7783816205958526,
+      "step": 1690
+    },
+    {
+      "epoch": 2.885433599547671,
+      "grad_norm": 1.0234375,
+      "learning_rate": 3.883111967802111e-07,
+      "loss": 0.8782,
+      "mean_token_accuracy": 0.7730122750004133,
+      "step": 1700
+    },
+    {
+      "epoch": 2.902395929040922,
+      "grad_norm": 1.046875,
+      "learning_rate": 2.8259956298185566e-07,
+      "loss": 0.8752,
+      "mean_token_accuracy": 0.7732014996310075,
+      "step": 1710
+    },
+    {
+      "epoch": 2.919358258534172,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.9360966121035329e-07,
+      "loss": 0.8592,
+      "mean_token_accuracy": 0.7777578723927339,
+      "step": 1720
+    },
+    {
+      "epoch": 2.9363205880274226,
+      "grad_norm": 1.015625,
+      "learning_rate": 1.213714219382933e-07,
+      "loss": 0.8657,
+      "mean_token_accuracy": 0.7750948662559192,
+      "step": 1730
+    },
+    {
+      "epoch": 2.953282917520673,
+      "grad_norm": 1.015625,
+      "learning_rate": 6.59091414576929e-08,
+      "loss": 0.8642,
+      "mean_token_accuracy": 0.7749369906882445,
+      "step": 1740
+    },
+    {
+      "epoch": 2.9702452470139233,
+      "grad_norm": 1.03125,
+      "learning_rate": 2.7241473708283783e-08,
+      "loss": 0.8584,
+      "mean_token_accuracy": 0.7779290979107221,
+      "step": 1750
+    },
+    {
+      "epoch": 2.9872075765071737,
+      "grad_norm": 0.94921875,
+      "learning_rate": 5.381424003553237e-09,
+      "loss": 0.8599,
+      "mean_token_accuracy": 0.7751329804460207,
+      "step": 1760
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1767,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.981901778352865e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1767/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6f91b55a648dec5ac9a0e5602cfae2ecc39937955253e07f1e669899c924bdd
+size 6136