Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

checkpoint-2000/README.md +2 -2
checkpoint-2000/adapter_config.json +5 -5
checkpoint-2000/adapter_model.safetensors +2 -2
checkpoint-2000/added_tokens.json +1 -3
checkpoint-2000/optimizer.pt +2 -2
checkpoint-2000/special_tokens_map.json +0 -16
checkpoint-2000/tokenizer.json +2 -2
checkpoint-2000/tokenizer_config.json +0 -20
checkpoint-2000/trainer_state.json +201 -201
checkpoint-2000/training_args.bin +1 -1

checkpoint-2000/README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
-base_model: google/gemma-3-1b-it
 library_name: peft
 pipeline_tag: text-generation
 tags:
-- base_model:adapter:google/gemma-3-1b-it
 - lora
 - sft
 - transformers

 ---
+base_model: shorecode/gemma-3-svg-generator-lora-xla
 library_name: peft
 pipeline_tag: text-generation
 tags:
+- base_model:adapter:shorecode/gemma-3-svg-generator-lora-xla
 - lora
 - sft
 - transformers

checkpoint-2000/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "google/gemma-3-1b-it",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -31,12 +31,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
     "v_proj",
-    "up_proj",
-    "o_proj",
     "gate_proj",
     "q_proj"
   ],
   "target_parameters": null,

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "shorecode/gemma-3-svg-generator-lora-xla",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "down_proj",
+    "k_proj",
     "gate_proj",
+    "o_proj",
+    "up_proj",
     "q_proj"
   ],
   "target_parameters": null,

checkpoint-2000/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb4c881b22e201369a998a2269f505391c3df3071f452a00372d18ad8b7acfe8
-size 4936309960

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5812b45db7d0efe0329e95bd318cd43609e615ba7438b10cf201f5ddeed156d
+size 4936273096

checkpoint-2000/added_tokens.json CHANGED Viewed

@@ -1,5 +1,3 @@
 {
-  "</think>": 262146,
-  "<image_soft_token>": 262144,
-  "<think>": 262145
 }

 {
+  "<image_soft_token>": 262144
 }

checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa2f2822b39ac9940117e52b893f71391ce8be3b5c9193ba268a07ada03a97d1
-size 2624975850

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ce2877b6c340c5baf746a08803290fcd1c4c2ca4af95b7a3811f8a0de13b0f6
+size 2624957418

checkpoint-2000/special_tokens_map.json CHANGED Viewed

@@ -1,20 +1,4 @@
 {
-  "additional_special_tokens": [
-    {
-      "content": "<think>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "</think>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    }
-  ],
   "boi_token": "<start_of_image>",
   "bos_token": {
     "content": "<bos>",

 {
   "boi_token": "<start_of_image>",
   "bos_token": {
     "content": "<bos>",

checkpoint-2000/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48b0c1cd0578eea659e9d9249b1c575599a2a172bfaa9130c92d0e155f3b9fe0
-size 33384937

 version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

checkpoint-2000/tokenizer_config.json CHANGED Viewed

@@ -51321,28 +51321,8 @@
       "rstrip": false,
       "single_word": false,
       "special": true
-    },
-    "262145": {
-      "content": "<think>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "262146": {
-      "content": "</think>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
-  "additional_special_tokens": [
-    "<think>",
-    "</think>"
-  ],
   "boi_token": "<start_of_image>",
   "bos_token": "<bos>",
   "clean_up_tokenization_spaces": false,

       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "boi_token": "<start_of_image>",
   "bos_token": "<bos>",
   "clean_up_tokenization_spaces": false,

checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,423 +10,423 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 0.362657470703125,
       "epoch": 0.06148170919151552,
-      "grad_norm": 0.21484375,
       "learning_rate": 0.0002,
-      "loss": 0.365,
-      "mean_token_accuracy": 0.920078125,
       "num_tokens": 102400.0,
       "step": 100
     },
     {
       "epoch": 0.06148170919151552,
-      "eval_entropy": 0.15455180637085636,
-      "eval_loss": 0.12699459493160248,
-      "eval_mean_token_accuracy": 0.9715771754143646,
       "eval_num_tokens": 102400.0,
-      "eval_runtime": 58.9889,
-      "eval_samples_per_second": 6.137,
-      "eval_steps_per_second": 6.137,
       "step": 100
     },
     {
-      "entropy": 0.129871826171875,
       "epoch": 0.12296341838303104,
-      "grad_norm": 0.2158203125,
       "learning_rate": 0.0002,
-      "loss": 0.1138,
-      "mean_token_accuracy": 0.97357421875,
       "num_tokens": 204739.0,
       "step": 200
     },
     {
       "epoch": 0.12296341838303104,
-      "eval_entropy": 0.10937230231353591,
-      "eval_loss": 0.11088907718658447,
-      "eval_mean_token_accuracy": 0.9744475138121547,
       "eval_num_tokens": 204739.0,
-      "eval_runtime": 45.6439,
-      "eval_samples_per_second": 7.931,
-      "eval_steps_per_second": 7.931,
       "step": 200
     },
     {
-      "entropy": 0.112332763671875,
       "epoch": 0.18444512757454656,
-      "grad_norm": 0.3515625,
       "learning_rate": 0.0002,
-      "loss": 0.0994,
-      "mean_token_accuracy": 0.976171875,
       "num_tokens": 307139.0,
       "step": 300
     },
     {
       "epoch": 0.18444512757454656,
-      "eval_entropy": 0.11139961369129835,
-      "eval_loss": 0.10375571995973587,
-      "eval_mean_token_accuracy": 0.9751057493093923,
       "eval_num_tokens": 307139.0,
-      "eval_runtime": 44.7353,
-      "eval_samples_per_second": 8.092,
-      "eval_steps_per_second": 8.092,
       "step": 300
     },
     {
-      "entropy": 0.113790283203125,
       "epoch": 0.24592683676606208,
-      "grad_norm": 0.47265625,
       "learning_rate": 0.0002,
-      "loss": 0.1013,
-      "mean_token_accuracy": 0.97640625,
       "num_tokens": 409539.0,
       "step": 400
     },
     {
       "epoch": 0.24592683676606208,
-      "eval_entropy": 0.11420487040314227,
-      "eval_loss": 0.099822998046875,
-      "eval_mean_token_accuracy": 0.97564528660221,
       "eval_num_tokens": 409539.0,
-      "eval_runtime": 45.4755,
-      "eval_samples_per_second": 7.96,
-      "eval_steps_per_second": 7.96,
       "step": 400
     },
     {
-      "entropy": 0.1103631591796875,
       "epoch": 0.3074085459575776,
-      "grad_norm": 0.203125,
       "learning_rate": 0.0002,
-      "loss": 0.1006,
-      "mean_token_accuracy": 0.9761328125,
       "num_tokens": 511939.0,
       "step": 500
     },
     {
       "epoch": 0.3074085459575776,
-      "eval_entropy": 0.10883040454506215,
-      "eval_loss": 0.09676331281661987,
-      "eval_mean_token_accuracy": 0.9761200794198895,
       "eval_num_tokens": 511939.0,
-      "eval_runtime": 45.514,
-      "eval_samples_per_second": 7.954,
-      "eval_steps_per_second": 7.954,
       "step": 500
     },
     {
-      "entropy": 0.100784912109375,
       "epoch": 0.3688902551490931,
-      "grad_norm": 0.1826171875,
       "learning_rate": 0.0002,
-      "loss": 0.0887,
-      "mean_token_accuracy": 0.9786328125,
       "num_tokens": 614339.0,
       "step": 600
     },
     {
       "epoch": 0.3688902551490931,
-      "eval_entropy": 0.1045960484288674,
-      "eval_loss": 0.09669654816389084,
-      "eval_mean_token_accuracy": 0.9765409185082873,
       "eval_num_tokens": 614339.0,
-      "eval_runtime": 45.0249,
-      "eval_samples_per_second": 8.04,
-      "eval_steps_per_second": 8.04,
       "step": 600
     },
     {
-      "entropy": 0.1064935302734375,
       "epoch": 0.43037196434060865,
-      "grad_norm": 0.3359375,
       "learning_rate": 0.0002,
-      "loss": 0.0925,
-      "mean_token_accuracy": 0.9767578125,
       "num_tokens": 716739.0,
       "step": 700
     },
     {
       "epoch": 0.43037196434060865,
-      "eval_entropy": 0.09553384517437845,
-      "eval_loss": 0.09429358690977097,
-      "eval_mean_token_accuracy": 0.976530127762431,
       "eval_num_tokens": 716739.0,
-      "eval_runtime": 44.4869,
-      "eval_samples_per_second": 8.137,
-      "eval_steps_per_second": 8.137,
       "step": 700
     },
     {
-      "entropy": 0.0933135986328125,
       "epoch": 0.49185367353212417,
-      "grad_norm": 0.28125,
       "learning_rate": 0.0002,
-      "loss": 0.0831,
-      "mean_token_accuracy": 0.97962890625,
       "num_tokens": 819139.0,
       "step": 800
     },
     {
       "epoch": 0.49185367353212417,
-      "eval_entropy": 0.09884896462793508,
-      "eval_loss": 0.09294946491718292,
-      "eval_mean_token_accuracy": 0.9765732907458563,
       "eval_num_tokens": 819139.0,
-      "eval_runtime": 44.9598,
-      "eval_samples_per_second": 8.052,
-      "eval_steps_per_second": 8.052,
       "step": 800
     },
     {
-      "entropy": 0.093392333984375,
       "epoch": 0.5533353827236397,
-      "grad_norm": 0.2041015625,
       "learning_rate": 0.0002,
-      "loss": 0.0813,
-      "mean_token_accuracy": 0.98,
       "num_tokens": 921539.0,
       "step": 900
     },
     {
       "epoch": 0.5533353827236397,
-      "eval_entropy": 0.09274511179212708,
-      "eval_loss": 0.09229105710983276,
-      "eval_mean_token_accuracy": 0.9766596167127072,
       "eval_num_tokens": 921539.0,
-      "eval_runtime": 45.0568,
-      "eval_samples_per_second": 8.034,
-      "eval_steps_per_second": 8.034,
       "step": 900
     },
     {
-      "entropy": 0.095006103515625,
       "epoch": 0.6148170919151552,
-      "grad_norm": 0.16015625,
       "learning_rate": 0.0002,
-      "loss": 0.0869,
-      "mean_token_accuracy": 0.97876953125,
       "num_tokens": 1023939.0,
       "step": 1000
     },
     {
       "epoch": 0.6148170919151552,
-      "eval_entropy": 0.1029599015883978,
-      "eval_loss": 0.09008755534887314,
-      "eval_mean_token_accuracy": 0.9774257596685083,
       "eval_num_tokens": 1023939.0,
-      "eval_runtime": 44.9809,
-      "eval_samples_per_second": 8.048,
-      "eval_steps_per_second": 8.048,
       "step": 1000
     },
     {
-      "entropy": 0.1004425048828125,
       "epoch": 0.6762988011066707,
-      "grad_norm": 0.2353515625,
       "learning_rate": 0.0002,
-      "loss": 0.0875,
-      "mean_token_accuracy": 0.9771875,
       "num_tokens": 1126339.0,
       "step": 1100
     },
     {
       "epoch": 0.6762988011066707,
-      "eval_entropy": 0.09525227414968923,
-      "eval_loss": 0.09049726277589798,
-      "eval_mean_token_accuracy": 0.9773178522099447,
       "eval_num_tokens": 1126339.0,
-      "eval_runtime": 45.9151,
-      "eval_samples_per_second": 7.884,
-      "eval_steps_per_second": 7.884,
       "step": 1100
     },
     {
-      "entropy": 0.09235107421875,
       "epoch": 0.7377805102981863,
-      "grad_norm": 0.2255859375,
       "learning_rate": 0.0002,
-      "loss": 0.0831,
-      "mean_token_accuracy": 0.97900390625,
       "num_tokens": 1228739.0,
       "step": 1200
     },
     {
       "epoch": 0.7377805102981863,
-      "eval_entropy": 0.09683514168249309,
-      "eval_loss": 0.0896323174238205,
-      "eval_mean_token_accuracy": 0.977263898480663,
       "eval_num_tokens": 1228739.0,
-      "eval_runtime": 44.6006,
-      "eval_samples_per_second": 8.116,
-      "eval_steps_per_second": 8.116,
       "step": 1200
     },
     {
-      "entropy": 0.0924603271484375,
       "epoch": 0.7992622194897018,
-      "grad_norm": 0.2177734375,
       "learning_rate": 0.0002,
-      "loss": 0.0813,
-      "mean_token_accuracy": 0.97939453125,
       "num_tokens": 1331139.0,
       "step": 1300
     },
     {
       "epoch": 0.7992622194897018,
-      "eval_entropy": 0.09229459815262431,
-      "eval_loss": 0.08921755105257034,
-      "eval_mean_token_accuracy": 0.9773070614640884,
       "eval_num_tokens": 1331139.0,
-      "eval_runtime": 46.1046,
-      "eval_samples_per_second": 7.852,
-      "eval_steps_per_second": 7.852,
       "step": 1300
     },
     {
-      "entropy": 0.0900238037109375,
       "epoch": 0.8607439286812173,
-      "grad_norm": 0.1416015625,
       "learning_rate": 0.0002,
-      "loss": 0.0819,
-      "mean_token_accuracy": 0.97998046875,
       "num_tokens": 1433475.0,
       "step": 1400
     },
     {
       "epoch": 0.8607439286812173,
-      "eval_entropy": 0.09326273038242404,
-      "eval_loss": 0.08730876445770264,
-      "eval_mean_token_accuracy": 0.9778789709944752,
       "eval_num_tokens": 1433475.0,
-      "eval_runtime": 46.2555,
-      "eval_samples_per_second": 7.826,
-      "eval_steps_per_second": 7.826,
       "step": 1400
     },
     {
-      "entropy": 0.08128265380859374,
       "epoch": 0.9222256378727328,
-      "grad_norm": 0.12890625,
       "learning_rate": 0.0002,
-      "loss": 0.0737,
-      "mean_token_accuracy": 0.98046875,
       "num_tokens": 1535875.0,
       "step": 1500
     },
     {
       "epoch": 0.9222256378727328,
-      "eval_entropy": 0.08759505972677832,
-      "eval_loss": 0.08772876113653183,
-      "eval_mean_token_accuracy": 0.97747971339779,
       "eval_num_tokens": 1535875.0,
-      "eval_runtime": 46.2271,
-      "eval_samples_per_second": 7.831,
-      "eval_steps_per_second": 7.831,
       "step": 1500
     },
     {
-      "entropy": 0.0855340576171875,
       "epoch": 0.9837073470642483,
-      "grad_norm": 0.2109375,
       "learning_rate": 0.0002,
-      "loss": 0.0797,
-      "mean_token_accuracy": 0.979765625,
       "num_tokens": 1638213.0,
       "step": 1600
     },
     {
       "epoch": 0.9837073470642483,
-      "eval_entropy": 0.10621263704247237,
-      "eval_loss": 0.08904456347227097,
-      "eval_mean_token_accuracy": 0.9773178522099447,
       "eval_num_tokens": 1638213.0,
-      "eval_runtime": 46.6372,
-      "eval_samples_per_second": 7.762,
-      "eval_steps_per_second": 7.762,
       "step": 1600
     },
     {
-      "entropy": 0.07732387523555276,
       "epoch": 1.0448816477098064,
-      "grad_norm": 0.205078125,
       "learning_rate": 0.0002,
-      "loss": 0.0663,
-      "mean_token_accuracy": 0.9825298366834171,
       "num_tokens": 1740101.0,
       "step": 1700
     },
     {
       "epoch": 1.0448816477098064,
-      "eval_entropy": 0.08320103429299033,
-      "eval_loss": 0.08749625831842422,
-      "eval_mean_token_accuracy": 0.9779437154696132,
       "eval_num_tokens": 1740101.0,
-      "eval_runtime": 46.4346,
-      "eval_samples_per_second": 7.796,
-      "eval_steps_per_second": 7.796,
       "step": 1700
     },
     {
-      "entropy": 0.07719329833984374,
       "epoch": 1.1063633569013218,
-      "grad_norm": 0.1923828125,
       "learning_rate": 0.0002,
-      "loss": 0.0731,
-      "mean_token_accuracy": 0.9812890625,
       "num_tokens": 1842501.0,
       "step": 1800
     },
     {
       "epoch": 1.1063633569013218,
-      "eval_entropy": 0.07808470330844268,
-      "eval_loss": 0.08772134780883789,
-      "eval_mean_token_accuracy": 0.9776847375690608,
       "eval_num_tokens": 1842501.0,
-      "eval_runtime": 46.8283,
-      "eval_samples_per_second": 7.73,
-      "eval_steps_per_second": 7.73,
       "step": 1800
     },
     {
-      "entropy": 0.07139556884765624,
       "epoch": 1.1678450660928374,
-      "grad_norm": 0.240234375,
       "learning_rate": 0.0002,
-      "loss": 0.0663,
-      "mean_token_accuracy": 0.9823046875,
       "num_tokens": 1944901.0,
       "step": 1900
     },
     {
       "epoch": 1.1678450660928374,
-      "eval_entropy": 0.08272489263207873,
-      "eval_loss": 0.08744163066148758,
-      "eval_mean_token_accuracy": 0.9776739468232044,
       "eval_num_tokens": 1944901.0,
-      "eval_runtime": 46.5748,
-      "eval_samples_per_second": 7.772,
-      "eval_steps_per_second": 7.772,
       "step": 1900
     },
     {
-      "entropy": 0.0790863037109375,
       "epoch": 1.2293267752843529,
-      "grad_norm": 0.302734375,
       "learning_rate": 0.0002,
-      "loss": 0.0681,
-      "mean_token_accuracy": 0.981484375,
       "num_tokens": 2047301.0,
       "step": 2000
     },
     {
       "epoch": 1.2293267752843529,
-      "eval_entropy": 0.08277783472893646,
-      "eval_loss": 0.08769083023071289,
-      "eval_mean_token_accuracy": 0.9780732044198895,
       "eval_num_tokens": 2047301.0,
-      "eval_runtime": 46.2216,
-      "eval_samples_per_second": 7.832,
-      "eval_steps_per_second": 7.832,
       "step": 2000
     }
   ],
@@ -447,7 +447,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2602950679251968e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 0.06958419799804688,
       "epoch": 0.06148170919151552,
+      "grad_norm": 0.12353515625,
       "learning_rate": 0.0002,
+      "loss": 0.0684,
+      "mean_token_accuracy": 0.98111328125,
       "num_tokens": 102400.0,
       "step": 100
     },
     {
       "epoch": 0.06148170919151552,
+      "eval_entropy": 0.06598355625215815,
+      "eval_loss": 0.09076400101184845,
+      "eval_mean_token_accuracy": 0.9780192506906077,
       "eval_num_tokens": 102400.0,
+      "eval_runtime": 58.8573,
+      "eval_samples_per_second": 6.15,
+      "eval_steps_per_second": 6.15,
       "step": 100
     },
     {
+      "entropy": 0.05923065185546875,
       "epoch": 0.12296341838303104,
+      "grad_norm": 0.140625,
       "learning_rate": 0.0002,
+      "loss": 0.0597,
+      "mean_token_accuracy": 0.9837109375,
       "num_tokens": 204739.0,
       "step": 200
     },
     {
       "epoch": 0.12296341838303104,
+      "eval_entropy": 0.0683226190219268,
+      "eval_loss": 0.0902482345700264,
+      "eval_mean_token_accuracy": 0.9778681802486188,
       "eval_num_tokens": 204739.0,
+      "eval_runtime": 45.3855,
+      "eval_samples_per_second": 7.976,
+      "eval_steps_per_second": 7.976,
       "step": 200
     },
     {
+      "entropy": 0.0568572998046875,
       "epoch": 0.18444512757454656,
+      "grad_norm": 0.1689453125,
       "learning_rate": 0.0002,
+      "loss": 0.0531,
+      "mean_token_accuracy": 0.98462890625,
       "num_tokens": 307139.0,
       "step": 300
     },
     {
       "epoch": 0.18444512757454656,
+      "eval_entropy": 0.06631065073592887,
+      "eval_loss": 0.09246724843978882,
+      "eval_mean_token_accuracy": 0.9779005524861878,
       "eval_num_tokens": 307139.0,
+      "eval_runtime": 45.6788,
+      "eval_samples_per_second": 7.925,
+      "eval_steps_per_second": 7.925,
       "step": 300
     },
     {
+      "entropy": 0.06324066162109375,
       "epoch": 0.24592683676606208,
+      "grad_norm": 0.21875,
       "learning_rate": 0.0002,
+      "loss": 0.0581,
+      "mean_token_accuracy": 0.98373046875,
       "num_tokens": 409539.0,
       "step": 400
     },
     {
       "epoch": 0.24592683676606208,
+      "eval_entropy": 0.07637689917127072,
+      "eval_loss": 0.08831820636987686,
+      "eval_mean_token_accuracy": 0.9779868784530387,
       "eval_num_tokens": 409539.0,
+      "eval_runtime": 45.2583,
+      "eval_samples_per_second": 7.999,
+      "eval_steps_per_second": 7.999,
       "step": 400
     },
     {
+      "entropy": 0.06784759521484375,
       "epoch": 0.3074085459575776,
+      "grad_norm": 0.1826171875,
       "learning_rate": 0.0002,
+      "loss": 0.0584,
+      "mean_token_accuracy": 0.98369140625,
       "num_tokens": 511939.0,
       "step": 500
     },
     {
       "epoch": 0.3074085459575776,
+      "eval_entropy": 0.07653134172133978,
+      "eval_loss": 0.08888135105371475,
+      "eval_mean_token_accuracy": 0.9780300414364641,
       "eval_num_tokens": 511939.0,
+      "eval_runtime": 45.6823,
+      "eval_samples_per_second": 7.924,
+      "eval_steps_per_second": 7.924,
       "step": 500
     },
     {
+      "entropy": 0.065264892578125,
       "epoch": 0.3688902551490931,
+      "grad_norm": 0.193359375,
       "learning_rate": 0.0002,
+      "loss": 0.0516,
+      "mean_token_accuracy": 0.98486328125,
       "num_tokens": 614339.0,
       "step": 600
     },
     {
       "epoch": 0.3688902551490931,
+      "eval_entropy": 0.07568089606353591,
+      "eval_loss": 0.09014976769685745,
+      "eval_mean_token_accuracy": 0.9778897617403315,
       "eval_num_tokens": 614339.0,
+      "eval_runtime": 45.9066,
+      "eval_samples_per_second": 7.886,
+      "eval_steps_per_second": 7.886,
       "step": 600
     },
     {
+      "entropy": 0.0712152099609375,
       "epoch": 0.43037196434060865,
+      "grad_norm": 0.2421875,
       "learning_rate": 0.0002,
+      "loss": 0.0584,
+      "mean_token_accuracy": 0.983046875,
       "num_tokens": 716739.0,
       "step": 700
     },
     {
       "epoch": 0.43037196434060865,
+      "eval_entropy": 0.07403969106094613,
+      "eval_loss": 0.09142003953456879,
+      "eval_mean_token_accuracy": 0.977965296961326,
       "eval_num_tokens": 716739.0,
+      "eval_runtime": 45.4178,
+      "eval_samples_per_second": 7.97,
+      "eval_steps_per_second": 7.97,
       "step": 700
     },
     {
+      "entropy": 0.0648382568359375,
       "epoch": 0.49185367353212417,
+      "grad_norm": 0.162109375,
       "learning_rate": 0.0002,
+      "loss": 0.0512,
+      "mean_token_accuracy": 0.9851953125,
       "num_tokens": 819139.0,
       "step": 800
     },
     {
       "epoch": 0.49185367353212417,
+      "eval_entropy": 0.07564245403142265,
+      "eval_loss": 0.08956116437911987,
+      "eval_mean_token_accuracy": 0.977846598756906,
       "eval_num_tokens": 819139.0,
+      "eval_runtime": 45.1314,
+      "eval_samples_per_second": 8.021,
+      "eval_steps_per_second": 8.021,
       "step": 800
     },
     {
+      "entropy": 0.0652081298828125,
       "epoch": 0.5533353827236397,
+      "grad_norm": 0.1474609375,
       "learning_rate": 0.0002,
+      "loss": 0.0503,
+      "mean_token_accuracy": 0.98572265625,
       "num_tokens": 921539.0,
       "step": 900
     },
     {
       "epoch": 0.5533353827236397,
+      "eval_entropy": 0.07643860874913674,
+      "eval_loss": 0.09081660211086273,
+      "eval_mean_token_accuracy": 0.977781854281768,
       "eval_num_tokens": 921539.0,
+      "eval_runtime": 45.2589,
+      "eval_samples_per_second": 7.998,
+      "eval_steps_per_second": 7.998,
       "step": 900
     },
     {
+      "entropy": 0.0689361572265625,
       "epoch": 0.6148170919151552,
+      "grad_norm": 0.1279296875,
       "learning_rate": 0.0002,
+      "loss": 0.0547,
+      "mean_token_accuracy": 0.98447265625,
       "num_tokens": 1023939.0,
       "step": 1000
     },
     {
       "epoch": 0.6148170919151552,
+      "eval_entropy": 0.07796246439053868,
+      "eval_loss": 0.09036962687969208,
+      "eval_mean_token_accuracy": 0.9782674378453039,
       "eval_num_tokens": 1023939.0,
+      "eval_runtime": 45.7559,
+      "eval_samples_per_second": 7.912,
+      "eval_steps_per_second": 7.912,
       "step": 1000
     },
     {
+      "entropy": 0.07148681640625,
       "epoch": 0.6762988011066707,
+      "grad_norm": 0.06884765625,
       "learning_rate": 0.0002,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.98369140625,
       "num_tokens": 1126339.0,
       "step": 1100
     },
     {
       "epoch": 0.6762988011066707,
+      "eval_entropy": 0.07977396085117404,
+      "eval_loss": 0.0895102471113205,
+      "eval_mean_token_accuracy": 0.9782026933701657,
       "eval_num_tokens": 1126339.0,
+      "eval_runtime": 45.3177,
+      "eval_samples_per_second": 7.988,
+      "eval_steps_per_second": 7.988,
       "step": 1100
     },
     {
+      "entropy": 0.0679693603515625,
       "epoch": 0.7377805102981863,
+      "grad_norm": 0.08837890625,
       "learning_rate": 0.0002,
+      "loss": 0.0534,
+      "mean_token_accuracy": 0.98482421875,
       "num_tokens": 1228739.0,
       "step": 1200
     },
     {
       "epoch": 0.7377805102981863,
+      "eval_entropy": 0.07723847278573895,
+      "eval_loss": 0.09167025238275528,
+      "eval_mean_token_accuracy": 0.9781595303867403,
       "eval_num_tokens": 1228739.0,
+      "eval_runtime": 45.0604,
+      "eval_samples_per_second": 8.034,
+      "eval_steps_per_second": 8.034,
       "step": 1200
     },
     {
+      "entropy": 0.0679254150390625,
       "epoch": 0.7992622194897018,
+      "grad_norm": 0.2158203125,
       "learning_rate": 0.0002,
+      "loss": 0.0537,
+      "mean_token_accuracy": 0.98462890625,
       "num_tokens": 1331139.0,
       "step": 1300
     },
     {
       "epoch": 0.7992622194897018,
+      "eval_entropy": 0.07550386038933012,
+      "eval_loss": 0.09077057242393494,
+      "eval_mean_token_accuracy": 0.9782026933701657,
       "eval_num_tokens": 1331139.0,
+      "eval_runtime": 45.1835,
+      "eval_samples_per_second": 8.012,
+      "eval_steps_per_second": 8.012,
       "step": 1300
     },
     {
+      "entropy": 0.0667388916015625,
       "epoch": 0.8607439286812173,
+      "grad_norm": 0.166015625,
       "learning_rate": 0.0002,
+      "loss": 0.0497,
+      "mean_token_accuracy": 0.98517578125,
       "num_tokens": 1433475.0,
       "step": 1400
     },
     {
       "epoch": 0.8607439286812173,
+      "eval_entropy": 0.07443018117662292,
+      "eval_loss": 0.0910056084394455,
+      "eval_mean_token_accuracy": 0.9782026933701657,
       "eval_num_tokens": 1433475.0,
+      "eval_runtime": 46.1219,
+      "eval_samples_per_second": 7.849,
+      "eval_steps_per_second": 7.849,
       "step": 1400
     },
     {
+      "entropy": 0.065689697265625,
       "epoch": 0.9222256378727328,
+      "grad_norm": 0.130859375,
       "learning_rate": 0.0002,
+      "loss": 0.0491,
+      "mean_token_accuracy": 0.985703125,
       "num_tokens": 1535875.0,
       "step": 1500
     },
     {
       "epoch": 0.9222256378727328,
+      "eval_entropy": 0.07454584448377072,
+      "eval_loss": 0.09148883074522018,
+      "eval_mean_token_accuracy": 0.9779976691988951,
       "eval_num_tokens": 1535875.0,
+      "eval_runtime": 45.4996,
+      "eval_samples_per_second": 7.956,
+      "eval_steps_per_second": 7.956,
       "step": 1500
     },
     {
+      "entropy": 0.06522216796875,
       "epoch": 0.9837073470642483,
+      "grad_norm": 0.234375,
       "learning_rate": 0.0002,
+      "loss": 0.0503,
+      "mean_token_accuracy": 0.98533203125,
       "num_tokens": 1638213.0,
       "step": 1600
     },
     {
       "epoch": 0.9837073470642483,
+      "eval_entropy": 0.08157905030645718,
+      "eval_loss": 0.08965592086315155,
+      "eval_mean_token_accuracy": 0.9780300414364641,
       "eval_num_tokens": 1638213.0,
+      "eval_runtime": 46.8838,
+      "eval_samples_per_second": 7.721,
+      "eval_steps_per_second": 7.721,
       "step": 1600
     },
     {
+      "entropy": 0.0635839107647613,
       "epoch": 1.0448816477098064,
+      "grad_norm": 0.166015625,
       "learning_rate": 0.0002,
+      "loss": 0.045,
+      "mean_token_accuracy": 0.9866323806532663,
       "num_tokens": 1740101.0,
       "step": 1700
     },
     {
       "epoch": 1.0448816477098064,
+      "eval_entropy": 0.07249357950621547,
+      "eval_loss": 0.09257431328296661,
+      "eval_mean_token_accuracy": 0.9786019509668509,
       "eval_num_tokens": 1740101.0,
+      "eval_runtime": 46.53,
+      "eval_samples_per_second": 7.78,
+      "eval_steps_per_second": 7.78,
       "step": 1700
     },
     {
+      "entropy": 0.0614752197265625,
       "epoch": 1.1063633569013218,
+      "grad_norm": 0.23828125,
       "learning_rate": 0.0002,
+      "loss": 0.0472,
+      "mean_token_accuracy": 0.98642578125,
       "num_tokens": 1842501.0,
       "step": 1800
     },
     {
       "epoch": 1.1063633569013218,
+      "eval_entropy": 0.06955445010359115,
+      "eval_loss": 0.09410356730222702,
+      "eval_mean_token_accuracy": 0.9780732044198895,
       "eval_num_tokens": 1842501.0,
+      "eval_runtime": 45.9671,
+      "eval_samples_per_second": 7.875,
+      "eval_steps_per_second": 7.875,
       "step": 1800
     },
     {
+      "entropy": 0.059293212890625,
       "epoch": 1.1678450660928374,
+      "grad_norm": 0.357421875,
       "learning_rate": 0.0002,
+      "loss": 0.0437,
+      "mean_token_accuracy": 0.986953125,
       "num_tokens": 1944901.0,
       "step": 1900
     },
     {
       "epoch": 1.1678450660928374,
+      "eval_entropy": 0.0688324817636395,
+      "eval_loss": 0.09622900187969208,
+      "eval_mean_token_accuracy": 0.9781379488950276,
       "eval_num_tokens": 1944901.0,
+      "eval_runtime": 46.9487,
+      "eval_samples_per_second": 7.711,
+      "eval_steps_per_second": 7.711,
       "step": 1900
     },
     {
+      "entropy": 0.063258056640625,
       "epoch": 1.2293267752843529,
+      "grad_norm": 0.34375,
       "learning_rate": 0.0002,
+      "loss": 0.0472,
+      "mean_token_accuracy": 0.9858984375,
       "num_tokens": 2047301.0,
       "step": 2000
     },
     {
       "epoch": 1.2293267752843529,
+      "eval_entropy": 0.06529750086325967,
+      "eval_loss": 0.09772183746099472,
+      "eval_mean_token_accuracy": 0.9782458563535912,
       "eval_num_tokens": 2047301.0,
+      "eval_runtime": 46.937,
+      "eval_samples_per_second": 7.712,
+      "eval_steps_per_second": 7.712,
       "step": 2000
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.2602922377362944e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18c7d98fab55a6e8d1ce829252f9f0e44946e60f7037415c9effaf69f276a316
 size 6289

 version https://git-lfs.github.com/spec/v1
+oid sha256:48b867a353950ebc919ed73d524747453141e001abb6f9f0f72a2a0f45975392
 size 6289