Upload folder using huggingface_hub

Browse files

Files changed (15) hide show

.gitattributes +1 -0
checkpoint-1178/added_tokens.json +3 -0
checkpoint-1178/config.json +34 -0
checkpoint-1178/generation_config.json +14 -0
checkpoint-1178/model.safetensors +3 -0
checkpoint-1178/optimizer.pt +3 -0
checkpoint-1178/rng_state_0.pth +3 -0
checkpoint-1178/rng_state_1.pth +3 -0
checkpoint-1178/scheduler.pt +3 -0
checkpoint-1178/special_tokens_map.json +33 -0
checkpoint-1178/tokenizer.json +3 -0
checkpoint-1178/tokenizer.model +3 -0
checkpoint-1178/tokenizer_config.json +0 -0
checkpoint-1178/trainer_state.json +970 -0
checkpoint-1178/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-1178/tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-1178/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

checkpoint-1178/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 1152,
+  "initializer_range": 0.02,
+  "intermediate_size": 6912,
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": 512,
+  "sliding_window_pattern": 6,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "use_cache": false,
+  "vocab_size": 262144
+}

checkpoint-1178/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "attn_implementation": "eager",
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.51.3"
+}

checkpoint-1178/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ca6ff115d0c87b9828175a3905790418483efb5f3db53890191527dc9cbaca1
+size 1999811208

checkpoint-1178/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa39dfd039eb16d79744ab7a215e22fe8805022b5051464ea78fa762d7476631
+size 3999833742

checkpoint-1178/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0a6c4ff85c2ea915faa44ce3243aeed88fae9e068f9390ddc786520c0e4c0cc
+size 14512

checkpoint-1178/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3846a90b7dcfe50ad794a55718045d186eeef8318ee50e463651a0a6f4b3b747
+size 14512

checkpoint-1178/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:049642a522f78395382e2dafafcfe8b6c14961cebfb8aa168314e3e9c8f0202b
+size 1064

checkpoint-1178/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1178/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

checkpoint-1178/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

checkpoint-1178/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1178/trainer_state.json ADDED Viewed

	@@ -0,0 +1,970 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9990812071524489,
+  "eval_steps": 500,
+  "global_step": 1178,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016962329493250407,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.1453,
+      "mean_token_accuracy": 0.5800132380177577,
+      "step": 10
+    },
+    {
+      "epoch": 0.033924658986500815,
+      "grad_norm": 2.53125,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 1.713,
+      "mean_token_accuracy": 0.6173386509219806,
+      "step": 20
+    },
+    {
+      "epoch": 0.05088698847975122,
+      "grad_norm": 1.671875,
+      "learning_rate": 5.370370370370371e-05,
+      "loss": 1.5855,
+      "mean_token_accuracy": 0.6299800969660282,
+      "step": 30
+    },
+    {
+      "epoch": 0.06784931797300163,
+      "grad_norm": 1.90625,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 1.5199,
+      "mean_token_accuracy": 0.6394588612020016,
+      "step": 40
+    },
+    {
+      "epoch": 0.08481164746625203,
+      "grad_norm": 1.5546875,
+      "learning_rate": 9.074074074074075e-05,
+      "loss": 1.5192,
+      "mean_token_accuracy": 0.6397132301082213,
+      "step": 50
+    },
+    {
+      "epoch": 0.10177397695950244,
+      "grad_norm": 1.6875,
+      "learning_rate": 9.999789785826972e-05,
+      "loss": 1.5276,
+      "mean_token_accuracy": 0.6391662692030271,
+      "step": 60
+    },
+    {
+      "epoch": 0.11873630645275285,
+      "grad_norm": 1.7734375,
+      "learning_rate": 9.998108178497258e-05,
+      "loss": 1.5183,
+      "mean_token_accuracy": 0.6404511784513791,
+      "step": 70
+    },
+    {
+      "epoch": 0.13569863594600326,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.99474552942225e-05,
+      "loss": 1.5112,
+      "mean_token_accuracy": 0.6418155938386917,
+      "step": 80
+    },
+    {
+      "epoch": 0.15266096543925367,
+      "grad_norm": 1.4765625,
+      "learning_rate": 9.989702969580565e-05,
+      "loss": 1.5161,
+      "mean_token_accuracy": 0.6407449401915073,
+      "step": 90
+    },
+    {
+      "epoch": 0.16962329493250405,
+      "grad_norm": 1.421875,
+      "learning_rate": 9.982982194964625e-05,
+      "loss": 1.4945,
+      "mean_token_accuracy": 0.6452280322710673,
+      "step": 100
+    },
+    {
+      "epoch": 0.18658562442575446,
+      "grad_norm": 1.3203125,
+      "learning_rate": 9.974585466010236e-05,
+      "loss": 1.4927,
+      "mean_token_accuracy": 0.6472473913182815,
+      "step": 110
+    },
+    {
+      "epoch": 0.20354795391900488,
+      "grad_norm": 1.390625,
+      "learning_rate": 9.964515606836321e-05,
+      "loss": 1.4876,
+      "mean_token_accuracy": 0.646234019100666,
+      "step": 120
+    },
+    {
+      "epoch": 0.2205102834122553,
+      "grad_norm": 1.390625,
+      "learning_rate": 9.952776004295077e-05,
+      "loss": 1.4768,
+      "mean_token_accuracy": 0.6493511145313581,
+      "step": 130
+    },
+    {
+      "epoch": 0.2374726129055057,
+      "grad_norm": 1.4375,
+      "learning_rate": 9.939370606832841e-05,
+      "loss": 1.4627,
+      "mean_token_accuracy": 0.6511956502993902,
+      "step": 140
+    },
+    {
+      "epoch": 0.2544349423987561,
+      "grad_norm": 1.3515625,
+      "learning_rate": 9.924303923162097e-05,
+      "loss": 1.4855,
+      "mean_token_accuracy": 0.650639555354913,
+      "step": 150
+    },
+    {
+      "epoch": 0.2713972718920065,
+      "grad_norm": 1.1875,
+      "learning_rate": 9.907581020745037e-05,
+      "loss": 1.4492,
+      "mean_token_accuracy": 0.6547389343380928,
+      "step": 160
+    },
+    {
+      "epoch": 0.2883596013852569,
+      "grad_norm": 1.2734375,
+      "learning_rate": 9.889207524089187e-05,
+      "loss": 1.4298,
+      "mean_token_accuracy": 0.65942026724418,
+      "step": 170
+    },
+    {
+      "epoch": 0.30532193087850734,
+      "grad_norm": 1.2109375,
+      "learning_rate": 9.869189612855685e-05,
+      "loss": 1.4457,
+      "mean_token_accuracy": 0.6557608020802339,
+      "step": 180
+    },
+    {
+      "epoch": 0.3222842603717577,
+      "grad_norm": 1.1328125,
+      "learning_rate": 9.847534019780848e-05,
+      "loss": 1.4136,
+      "mean_token_accuracy": 0.6603276548286279,
+      "step": 190
+    },
+    {
+      "epoch": 0.3392465898650081,
+      "grad_norm": 1.2421875,
+      "learning_rate": 9.824248028411703e-05,
+      "loss": 1.4263,
+      "mean_token_accuracy": 0.6607817115883032,
+      "step": 200
+    },
+    {
+      "epoch": 0.35620891935825855,
+      "grad_norm": 1.1015625,
+      "learning_rate": 9.79933947065628e-05,
+      "loss": 1.4148,
+      "mean_token_accuracy": 0.6610926086703937,
+      "step": 210
+    },
+    {
+      "epoch": 0.37317124885150893,
+      "grad_norm": 1.046875,
+      "learning_rate": 9.772816724149459e-05,
+      "loss": 1.3812,
+      "mean_token_accuracy": 0.6686675310134887,
+      "step": 220
+    },
+    {
+      "epoch": 0.39013357834475937,
+      "grad_norm": 1.1328125,
+      "learning_rate": 9.744688709435268e-05,
+      "loss": 1.4174,
+      "mean_token_accuracy": 0.6620935648679733,
+      "step": 230
+    },
+    {
+      "epoch": 0.40709590783800975,
+      "grad_norm": 1.125,
+      "learning_rate": 9.714964886966598e-05,
+      "loss": 1.4102,
+      "mean_token_accuracy": 0.6628513303895791,
+      "step": 240
+    },
+    {
+      "epoch": 0.42405823733126013,
+      "grad_norm": 1.1484375,
+      "learning_rate": 9.6836552539233e-05,
+      "loss": 1.3909,
+      "mean_token_accuracy": 0.6663404104610284,
+      "step": 250
+    },
+    {
+      "epoch": 0.4410205668245106,
+      "grad_norm": 1.03125,
+      "learning_rate": 9.650770340849796e-05,
+      "loss": 1.4062,
+      "mean_token_accuracy": 0.6653375633060932,
+      "step": 260
+    },
+    {
+      "epoch": 0.45798289631776096,
+      "grad_norm": 1.265625,
+      "learning_rate": 9.616321208113262e-05,
+      "loss": 1.4091,
+      "mean_token_accuracy": 0.6641857360800107,
+      "step": 270
+    },
+    {
+      "epoch": 0.4749452258110114,
+      "grad_norm": 1.078125,
+      "learning_rate": 9.580319442183654e-05,
+      "loss": 1.3828,
+      "mean_token_accuracy": 0.6680692491432031,
+      "step": 280
+    },
+    {
+      "epoch": 0.4919075553042618,
+      "grad_norm": 1.1484375,
+      "learning_rate": 9.542777151736746e-05,
+      "loss": 1.3675,
+      "mean_token_accuracy": 0.6707451656460762,
+      "step": 290
+    },
+    {
+      "epoch": 0.5088698847975122,
+      "grad_norm": 1.0625,
+      "learning_rate": 9.503706963581562e-05,
+      "loss": 1.3782,
+      "mean_token_accuracy": 0.6665912042061488,
+      "step": 300
+    },
+    {
+      "epoch": 0.5258322142907625,
+      "grad_norm": 1.171875,
+      "learning_rate": 9.463122018413532e-05,
+      "loss": 1.3536,
+      "mean_token_accuracy": 0.6734739691019058,
+      "step": 310
+    },
+    {
+      "epoch": 0.542794543784013,
+      "grad_norm": 1.015625,
+      "learning_rate": 9.4210359663948e-05,
+      "loss": 1.3887,
+      "mean_token_accuracy": 0.668233826259772,
+      "step": 320
+    },
+    {
+      "epoch": 0.5597568732772634,
+      "grad_norm": 1.0078125,
+      "learning_rate": 9.377462962563195e-05,
+      "loss": 1.3819,
+      "mean_token_accuracy": 0.6673479390641054,
+      "step": 330
+    },
+    {
+      "epoch": 0.5767192027705138,
+      "grad_norm": 1.015625,
+      "learning_rate": 9.332417662071385e-05,
+      "loss": 1.3679,
+      "mean_token_accuracy": 0.6706842251121998,
+      "step": 340
+    },
+    {
+      "epoch": 0.5936815322637642,
+      "grad_norm": 0.9609375,
+      "learning_rate": 9.285915215257828e-05,
+      "loss": 1.3615,
+      "mean_token_accuracy": 0.6692039887110393,
+      "step": 350
+    },
+    {
+      "epoch": 0.6106438617570147,
+      "grad_norm": 1.078125,
+      "learning_rate": 9.237971262551175e-05,
+      "loss": 1.3566,
+      "mean_token_accuracy": 0.6739495868484179,
+      "step": 360
+    },
+    {
+      "epoch": 0.6276061912502651,
+      "grad_norm": 1.1875,
+      "learning_rate": 9.188601929209835e-05,
+      "loss": 1.3103,
+      "mean_token_accuracy": 0.6818199207385381,
+      "step": 370
+    },
+    {
+      "epoch": 0.6445685207435154,
+      "grad_norm": 1.0,
+      "learning_rate": 9.137823819898477e-05,
+      "loss": 1.3527,
+      "mean_token_accuracy": 0.6732211743791898,
+      "step": 380
+    },
+    {
+      "epoch": 0.6615308502367658,
+      "grad_norm": 0.9453125,
+      "learning_rate": 9.08565401310329e-05,
+      "loss": 1.3332,
+      "mean_token_accuracy": 0.6759632855653763,
+      "step": 390
+    },
+    {
+      "epoch": 0.6784931797300162,
+      "grad_norm": 0.98046875,
+      "learning_rate": 9.03211005538788e-05,
+      "loss": 1.3457,
+      "mean_token_accuracy": 0.6737116026381652,
+      "step": 400
+    },
+    {
+      "epoch": 0.6954555092232667,
+      "grad_norm": 1.078125,
+      "learning_rate": 8.977209955491739e-05,
+      "loss": 1.3713,
+      "mean_token_accuracy": 0.6700817617277305,
+      "step": 410
+    },
+    {
+      "epoch": 0.7124178387165171,
+      "grad_norm": 1.03125,
+      "learning_rate": 8.920972178273257e-05,
+      "loss": 1.3243,
+      "mean_token_accuracy": 0.6765588760375977,
+      "step": 420
+    },
+    {
+      "epoch": 0.7293801682097675,
+      "grad_norm": 0.98046875,
+      "learning_rate": 8.863415638499341e-05,
+      "loss": 1.3272,
+      "mean_token_accuracy": 0.6768454472223918,
+      "step": 430
+    },
+    {
+      "epoch": 0.7463424977030179,
+      "grad_norm": 1.015625,
+      "learning_rate": 8.8045596944837e-05,
+      "loss": 1.3411,
+      "mean_token_accuracy": 0.6759745722015699,
+      "step": 440
+    },
+    {
+      "epoch": 0.7633048271962682,
+      "grad_norm": 1.0,
+      "learning_rate": 8.744424141575959e-05,
+      "loss": 1.3138,
+      "mean_token_accuracy": 0.6793065622448922,
+      "step": 450
+    },
+    {
+      "epoch": 0.7802671566895187,
+      "grad_norm": 0.9765625,
+      "learning_rate": 8.683029205503773e-05,
+      "loss": 1.3562,
+      "mean_token_accuracy": 0.6727576293051243,
+      "step": 460
+    },
+    {
+      "epoch": 0.7972294861827691,
+      "grad_norm": 1.0546875,
+      "learning_rate": 8.620395535570198e-05,
+      "loss": 1.347,
+      "mean_token_accuracy": 0.6732823781669139,
+      "step": 470
+    },
+    {
+      "epoch": 0.8141918156760195,
+      "grad_norm": 0.93359375,
+      "learning_rate": 8.556544197708596e-05,
+      "loss": 1.3011,
+      "mean_token_accuracy": 0.6819205803175767,
+      "step": 480
+    },
+    {
+      "epoch": 0.8311541451692699,
+      "grad_norm": 0.96484375,
+      "learning_rate": 8.491496667397408e-05,
+      "loss": 1.3051,
+      "mean_token_accuracy": 0.6827595402797063,
+      "step": 490
+    },
+    {
+      "epoch": 0.8481164746625203,
+      "grad_norm": 1.1015625,
+      "learning_rate": 8.42527482243719e-05,
+      "loss": 1.2991,
+      "mean_token_accuracy": 0.6841210166613261,
+      "step": 500
+    },
+    {
+      "epoch": 0.8650788041557708,
+      "grad_norm": 0.9375,
+      "learning_rate": 8.357900935592327e-05,
+      "loss": 1.3055,
+      "mean_token_accuracy": 0.679613892485698,
+      "step": 510
+    },
+    {
+      "epoch": 0.8820411336490211,
+      "grad_norm": 0.95703125,
+      "learning_rate": 8.289397667099909e-05,
+      "loss": 1.3155,
+      "mean_token_accuracy": 0.6812887417773406,
+      "step": 520
+    },
+    {
+      "epoch": 0.8990034631422715,
+      "grad_norm": 0.9453125,
+      "learning_rate": 8.219788057048286e-05,
+      "loss": 1.3154,
+      "mean_token_accuracy": 0.6792417210837205,
+      "step": 530
+    },
+    {
+      "epoch": 0.9159657926355219,
+      "grad_norm": 0.9375,
+      "learning_rate": 8.149095517627871e-05,
+      "loss": 1.3034,
+      "mean_token_accuracy": 0.6806264075140158,
+      "step": 540
+    },
+    {
+      "epoch": 0.9329281221287723,
+      "grad_norm": 0.8984375,
+      "learning_rate": 8.077343825256783e-05,
+      "loss": 1.3126,
+      "mean_token_accuracy": 0.6810529338816802,
+      "step": 550
+    },
+    {
+      "epoch": 0.9498904516220228,
+      "grad_norm": 0.9609375,
+      "learning_rate": 8.004557112583986e-05,
+      "loss": 1.3134,
+      "mean_token_accuracy": 0.6798362337052822,
+      "step": 560
+    },
+    {
+      "epoch": 0.9668527811152732,
+      "grad_norm": 0.921875,
+      "learning_rate": 7.930759860372628e-05,
+      "loss": 1.2856,
+      "mean_token_accuracy": 0.683349988112847,
+      "step": 570
+    },
+    {
+      "epoch": 0.9838151106085236,
+      "grad_norm": 0.88671875,
+      "learning_rate": 7.855976889266288e-05,
+      "loss": 1.2901,
+      "mean_token_accuracy": 0.6849393486976624,
+      "step": 580
+    },
+    {
+      "epoch": 1.001696232949325,
+      "grad_norm": 2.609375,
+      "learning_rate": 7.780233351440903e-05,
+      "loss": 1.395,
+      "mean_token_accuracy": 0.6899135421733467,
+      "step": 590
+    },
+    {
+      "epoch": 1.0186585624425755,
+      "grad_norm": 0.93359375,
+      "learning_rate": 7.703554722145201e-05,
+      "loss": 1.1017,
+      "mean_token_accuracy": 0.7215727421144644,
+      "step": 600
+    },
+    {
+      "epoch": 1.0356208919358258,
+      "grad_norm": 0.9609375,
+      "learning_rate": 7.625966791132468e-05,
+      "loss": 1.0907,
+      "mean_token_accuracy": 0.7208627772827944,
+      "step": 610
+    },
+    {
+      "epoch": 1.0525832214290762,
+      "grad_norm": 0.99609375,
+      "learning_rate": 7.547495653986536e-05,
+      "loss": 1.0893,
+      "mean_token_accuracy": 0.7245491112271945,
+      "step": 620
+    },
+    {
+      "epoch": 1.0695455509223266,
+      "grad_norm": 1.015625,
+      "learning_rate": 7.468167703344902e-05,
+      "loss": 1.0853,
+      "mean_token_accuracy": 0.7234922610223293,
+      "step": 630
+    },
+    {
+      "epoch": 1.086507880415577,
+      "grad_norm": 0.92578125,
+      "learning_rate": 7.388009620021959e-05,
+      "loss": 1.1004,
+      "mean_token_accuracy": 0.7199652560055256,
+      "step": 640
+    },
+    {
+      "epoch": 1.1034702099088274,
+      "grad_norm": 0.94921875,
+      "learning_rate": 7.307048364035266e-05,
+      "loss": 1.1206,
+      "mean_token_accuracy": 0.719177692135175,
+      "step": 650
+    },
+    {
+      "epoch": 1.120432539402078,
+      "grad_norm": 0.9375,
+      "learning_rate": 7.225311165537956e-05,
+      "loss": 1.0905,
+      "mean_token_accuracy": 0.7229047452410062,
+      "step": 660
+    },
+    {
+      "epoch": 1.1373948688953284,
+      "grad_norm": 0.90234375,
+      "learning_rate": 7.142825515660259e-05,
+      "loss": 1.1184,
+      "mean_token_accuracy": 0.7195753792921702,
+      "step": 670
+    },
+    {
+      "epoch": 1.1543571983885788,
+      "grad_norm": 0.9453125,
+      "learning_rate": 7.059619157263245e-05,
+      "loss": 1.1152,
+      "mean_token_accuracy": 0.7191205089290936,
+      "step": 680
+    },
+    {
+      "epoch": 1.1713195278818291,
+      "grad_norm": 0.984375,
+      "learning_rate": 6.975720075607927e-05,
+      "loss": 1.1029,
+      "mean_token_accuracy": 0.7206906000773112,
+      "step": 690
+    },
+    {
+      "epoch": 1.1882818573750795,
+      "grad_norm": 0.953125,
+      "learning_rate": 6.891156488942811e-05,
+      "loss": 1.0929,
+      "mean_token_accuracy": 0.7221428496142228,
+      "step": 700
+    },
+    {
+      "epoch": 1.20524418686833,
+      "grad_norm": 1.03125,
+      "learning_rate": 6.805956839013107e-05,
+      "loss": 1.1047,
+      "mean_token_accuracy": 0.7189865835011006,
+      "step": 710
+    },
+    {
+      "epoch": 1.2222065163615803,
+      "grad_norm": 0.97265625,
+      "learning_rate": 6.720149781494738e-05,
+      "loss": 1.1151,
+      "mean_token_accuracy": 0.7195135744909446,
+      "step": 720
+    },
+    {
+      "epoch": 1.2391688458548307,
+      "grad_norm": 1.0,
+      "learning_rate": 6.633764176356434e-05,
+      "loss": 1.0717,
+      "mean_token_accuracy": 0.7264206613103549,
+      "step": 730
+    },
+    {
+      "epoch": 1.2561311753480813,
+      "grad_norm": 1.0625,
+      "learning_rate": 6.546829078153086e-05,
+      "loss": 1.109,
+      "mean_token_accuracy": 0.718661529570818,
+      "step": 740
+    },
+    {
+      "epoch": 1.2730935048413317,
+      "grad_norm": 0.94140625,
+      "learning_rate": 6.459373726253672e-05,
+      "loss": 1.0936,
+      "mean_token_accuracy": 0.7220857585469882,
+      "step": 750
+    },
+    {
+      "epoch": 1.290055834334582,
+      "grad_norm": 0.9453125,
+      "learning_rate": 6.371427535007008e-05,
+      "loss": 1.0909,
+      "mean_token_accuracy": 0.7229609449704488,
+      "step": 760
+    },
+    {
+      "epoch": 1.3070181638278324,
+      "grad_norm": 0.8984375,
+      "learning_rate": 6.283020083848661e-05,
+      "loss": 1.1011,
+      "mean_token_accuracy": 0.7228824739654859,
+      "step": 770
+    },
+    {
+      "epoch": 1.3239804933210828,
+      "grad_norm": 0.91015625,
+      "learning_rate": 6.194181107352331e-05,
+      "loss": 1.0762,
+      "mean_token_accuracy": 0.7260710549851258,
+      "step": 780
+    },
+    {
+      "epoch": 1.3409428228143332,
+      "grad_norm": 0.88671875,
+      "learning_rate": 6.104940485229054e-05,
+      "loss": 1.097,
+      "mean_token_accuracy": 0.7203553736209869,
+      "step": 790
+    },
+    {
+      "epoch": 1.3579051523075836,
+      "grad_norm": 1.0234375,
+      "learning_rate": 6.015328232277593e-05,
+      "loss": 1.1041,
+      "mean_token_accuracy": 0.722166525820891,
+      "step": 800
+    },
+    {
+      "epoch": 1.374867481800834,
+      "grad_norm": 0.97265625,
+      "learning_rate": 5.925374488289388e-05,
+      "loss": 1.096,
+      "mean_token_accuracy": 0.7233567799131075,
+      "step": 810
+    },
+    {
+      "epoch": 1.3918298112940843,
+      "grad_norm": 0.96875,
+      "learning_rate": 5.8351095079114745e-05,
+      "loss": 1.103,
+      "mean_token_accuracy": 0.721570813159148,
+      "step": 820
+    },
+    {
+      "epoch": 1.4087921407873347,
+      "grad_norm": 0.95703125,
+      "learning_rate": 5.74456365047077e-05,
+      "loss": 1.1058,
+      "mean_token_accuracy": 0.7204289863506953,
+      "step": 830
+    },
+    {
+      "epoch": 1.425754470280585,
+      "grad_norm": 1.0859375,
+      "learning_rate": 5.653767369763148e-05,
+      "loss": 1.0895,
+      "mean_token_accuracy": 0.7256171715756258,
+      "step": 840
+    },
+    {
+      "epoch": 1.4427167997738355,
+      "grad_norm": 0.953125,
+      "learning_rate": 5.562751203810742e-05,
+      "loss": 1.0696,
+      "mean_token_accuracy": 0.72752467567722,
+      "step": 850
+    },
+    {
+      "epoch": 1.459679129267086,
+      "grad_norm": 0.95703125,
+      "learning_rate": 5.471545764590924e-05,
+      "loss": 1.0586,
+      "mean_token_accuracy": 0.7292891172071297,
+      "step": 860
+    },
+    {
+      "epoch": 1.4766414587603365,
+      "grad_norm": 0.92578125,
+      "learning_rate": 5.3801817277404066e-05,
+      "loss": 1.0876,
+      "mean_token_accuracy": 0.7224949277937412,
+      "step": 870
+    },
+    {
+      "epoch": 1.4936037882535869,
+      "grad_norm": 0.921875,
+      "learning_rate": 5.28868982223793e-05,
+      "loss": 1.0675,
+      "mean_token_accuracy": 0.7286781263848146,
+      "step": 880
+    },
+    {
+      "epoch": 1.5105661177468372,
+      "grad_norm": 0.94140625,
+      "learning_rate": 5.197100820069016e-05,
+      "loss": 1.0845,
+      "mean_token_accuracy": 0.7255125172436238,
+      "step": 890
+    },
+    {
+      "epoch": 1.5275284472400876,
+      "grad_norm": 0.94140625,
+      "learning_rate": 5.1054455258762535e-05,
+      "loss": 1.0998,
+      "mean_token_accuracy": 0.7214603280027707,
+      "step": 900
+    },
+    {
+      "epoch": 1.544490776733338,
+      "grad_norm": 0.99609375,
+      "learning_rate": 5.0137547665985985e-05,
+      "loss": 1.1018,
+      "mean_token_accuracy": 0.7225766807794571,
+      "step": 910
+    },
+    {
+      "epoch": 1.5614531062265886,
+      "grad_norm": 0.9453125,
+      "learning_rate": 4.9220593811031786e-05,
+      "loss": 1.0482,
+      "mean_token_accuracy": 0.7321401789784432,
+      "step": 920
+    },
+    {
+      "epoch": 1.578415435719839,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.83039020981308e-05,
+      "loss": 1.0618,
+      "mean_token_accuracy": 0.7308160757025083,
+      "step": 930
+    },
+    {
+      "epoch": 1.5953777652130894,
+      "grad_norm": 0.9453125,
+      "learning_rate": 4.738778084334625e-05,
+      "loss": 1.079,
+      "mean_token_accuracy": 0.7259436552723249,
+      "step": 940
+    },
+    {
+      "epoch": 1.6123400947063398,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.6472538170875924e-05,
+      "loss": 1.054,
+      "mean_token_accuracy": 0.7302558933695157,
+      "step": 950
+    },
+    {
+      "epoch": 1.6293024241995901,
+      "grad_norm": 0.984375,
+      "learning_rate": 4.5558481909419095e-05,
+      "loss": 1.0522,
+      "mean_token_accuracy": 0.7308388692637284,
+      "step": 960
+    },
+    {
+      "epoch": 1.6462647536928405,
+      "grad_norm": 0.93359375,
+      "learning_rate": 4.46459194886428e-05,
+      "loss": 1.0886,
+      "mean_token_accuracy": 0.7265370438496271,
+      "step": 970
+    },
+    {
+      "epoch": 1.663227083186091,
+      "grad_norm": 0.9375,
+      "learning_rate": 4.373515783578226e-05,
+      "loss": 1.0657,
+      "mean_token_accuracy": 0.7278412433962027,
+      "step": 980
+    },
+    {
+      "epoch": 1.6801894126793413,
+      "grad_norm": 0.90234375,
+      "learning_rate": 4.2826503272410304e-05,
+      "loss": 1.0636,
+      "mean_token_accuracy": 0.7297646810611089,
+      "step": 990
+    },
+    {
+      "epoch": 1.6971517421725917,
+      "grad_norm": 0.90625,
+      "learning_rate": 4.1920261411410536e-05,
+      "loss": 1.0802,
+      "mean_token_accuracy": 0.7267571208377679,
+      "step": 1000
+    },
+    {
+      "epoch": 1.714114071665842,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.101673705418888e-05,
+      "loss": 1.0609,
+      "mean_token_accuracy": 0.7287999058763186,
+      "step": 1010
+    },
+    {
+      "epoch": 1.7310764011590924,
+      "grad_norm": 1.046875,
+      "learning_rate": 4.011623408815799e-05,
+      "loss": 1.0515,
+      "mean_token_accuracy": 0.7311748243868351,
+      "step": 1020
+    },
+    {
+      "epoch": 1.7480387306523428,
+      "grad_norm": 0.8984375,
+      "learning_rate": 3.9219055384529e-05,
+      "loss": 1.0815,
+      "mean_token_accuracy": 0.7260699895521004,
+      "step": 1030
+    },
+    {
+      "epoch": 1.7650010601455932,
+      "grad_norm": 0.95703125,
+      "learning_rate": 3.83255026964453e-05,
+      "loss": 1.0436,
+      "mean_token_accuracy": 0.7335223399102688,
+      "step": 1040
+    },
+    {
+      "epoch": 1.7819633896388436,
+      "grad_norm": 0.89453125,
+      "learning_rate": 3.7435876557492156e-05,
+      "loss": 1.0713,
+      "mean_token_accuracy": 0.7298086928824584,
+      "step": 1050
+    },
+    {
+      "epoch": 1.798925719132094,
+      "grad_norm": 1.0,
+      "learning_rate": 3.655047618061648e-05,
+      "loss": 1.0633,
+      "mean_token_accuracy": 0.7291242313881715,
+      "step": 1060
+    },
+    {
+      "epoch": 1.8158880486253446,
+      "grad_norm": 0.96875,
+      "learning_rate": 3.566959935749101e-05,
+      "loss": 1.062,
+      "mean_token_accuracy": 0.7298740123709043,
+      "step": 1070
+    },
+    {
+      "epoch": 1.832850378118595,
+      "grad_norm": 0.94921875,
+      "learning_rate": 3.479354235835622e-05,
+      "loss": 1.041,
+      "mean_token_accuracy": 0.7348680111269156,
+      "step": 1080
+    },
+    {
+      "epoch": 1.8498127076118454,
+      "grad_norm": 0.9375,
+      "learning_rate": 3.3922599832374226e-05,
+      "loss": 1.0601,
+      "mean_token_accuracy": 0.7297768058876196,
+      "step": 1090
+    },
+    {
+      "epoch": 1.8667750371050957,
+      "grad_norm": 0.9296875,
+      "learning_rate": 3.3057064708527686e-05,
+      "loss": 1.0516,
+      "mean_token_accuracy": 0.7326766779025395,
+      "step": 1100
+    },
+    {
+      "epoch": 1.8837373665983461,
+      "grad_norm": 0.90234375,
+      "learning_rate": 3.2197228097097346e-05,
+      "loss": 1.0737,
+      "mean_token_accuracy": 0.7286487720906735,
+      "step": 1110
+    },
+    {
+      "epoch": 1.9006996960915967,
+      "grad_norm": 0.90625,
+      "learning_rate": 3.1343379191751364e-05,
+      "loss": 1.0685,
+      "mean_token_accuracy": 0.7287176544467608,
+      "step": 1120
+    },
+    {
+      "epoch": 1.917662025584847,
+      "grad_norm": 0.83203125,
+      "learning_rate": 3.0495805172279167e-05,
+      "loss": 1.0279,
+      "mean_token_accuracy": 0.7362240366637707,
+      "step": 1130
+    },
+    {
+      "epoch": 1.9346243550780975,
+      "grad_norm": 0.9765625,
+      "learning_rate": 2.9654791108002567e-05,
+      "loss": 1.0658,
+      "mean_token_accuracy": 0.7271889204780261,
+      "step": 1140
+    },
+    {
+      "epoch": 1.9515866845713479,
+      "grad_norm": 0.96875,
+      "learning_rate": 2.8820619861896907e-05,
+      "loss": 1.0521,
+      "mean_token_accuracy": 0.7311085325976213,
+      "step": 1150
+    },
+    {
+      "epoch": 1.9685490140645983,
+      "grad_norm": 0.875,
+      "learning_rate": 2.7993571995454126e-05,
+      "loss": 1.0457,
+      "mean_token_accuracy": 0.7344075481096903,
+      "step": 1160
+    },
+    {
+      "epoch": 1.9855113435578486,
+      "grad_norm": 0.92578125,
+      "learning_rate": 2.7173925674319957e-05,
+      "loss": 1.0498,
+      "mean_token_accuracy": 0.7325132201115291,
+      "step": 1170
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1767,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.9882636273700045e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1178/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6f91b55a648dec5ac9a0e5602cfae2ecc39937955253e07f1e669899c924bdd
+size 6136