Upload checkpoint

Browse files

Files changed (9) hide show

config.json +30 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
tokenizer.json +0 -0
tokenizer_config.json +12 -0
trainer_state.json +1234 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 512,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 1024,
+  "model_type": "bert",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 4,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.1.0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30522
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98cf1c6faa88811f59aa13013ca31bf1edebffb25af2e9dac06b2bcca3d7c147
+size 133031496

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9568e4ed0e11cf9638bc4e6b2dbecafbc7bdb8ba1944256687e54d34d4e1ee9
+size 266109515

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adc224a15468b738f4e9ff1b3aafc868a0413ecd0a33f645e5656a7ef437e49b
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78f20cc4cad0ee75aa7f2126f8cc833dff4647791fd2f3757830b765541674c0
+size 1465

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "[BOS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[EOS]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1234 @@

+{
+  "best_global_step": 4000,
+  "best_metric": 0.19092191755771637,
+  "best_model_checkpoint": "/home/flytekit/n0w0f/data/mattext_ckpt/results/2026-02-05/18-01-14/pretrain/checkpoints/robocrys_rep_test-pretrain/checkpoint-4000",
+  "epoch": 8.602150537634408,
+  "eval_steps": 50,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 1.1888866424560547,
+      "learning_rate": 0.00019957849462365592,
+      "loss": 5.97920654296875,
+      "step": 50
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "eval_loss": 4.124914646148682,
+      "eval_runtime": 60.5178,
+      "eval_samples_per_second": 314.023,
+      "eval_steps_per_second": 39.261,
+      "step": 50
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 0.9824994802474976,
+      "learning_rate": 0.00019914838709677422,
+      "loss": 3.916483154296875,
+      "step": 100
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "eval_loss": 3.675534248352051,
+      "eval_runtime": 61.1234,
+      "eval_samples_per_second": 310.912,
+      "eval_steps_per_second": 38.872,
+      "step": 100
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.867065966129303,
+      "learning_rate": 0.00019871827956989248,
+      "loss": 3.620672302246094,
+      "step": 150
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "eval_loss": 3.4746599197387695,
+      "eval_runtime": 61.4793,
+      "eval_samples_per_second": 309.112,
+      "eval_steps_per_second": 38.647,
+      "step": 150
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.192267894744873,
+      "learning_rate": 0.00019828817204301075,
+      "loss": 3.471976013183594,
+      "step": 200
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "eval_loss": 3.353644371032715,
+      "eval_runtime": 60.5187,
+      "eval_samples_per_second": 314.019,
+      "eval_steps_per_second": 39.261,
+      "step": 200
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 1.0798981189727783,
+      "learning_rate": 0.00019785806451612904,
+      "loss": 3.360224609375,
+      "step": 250
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "eval_loss": 3.247636079788208,
+      "eval_runtime": 61.527,
+      "eval_samples_per_second": 308.873,
+      "eval_steps_per_second": 38.617,
+      "step": 250
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 1.3051457405090332,
+      "learning_rate": 0.00019742795698924733,
+      "loss": 3.262052307128906,
+      "step": 300
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "eval_loss": 3.1502654552459717,
+      "eval_runtime": 60.999,
+      "eval_samples_per_second": 311.546,
+      "eval_steps_per_second": 38.951,
+      "step": 300
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 1.1396135091781616,
+      "learning_rate": 0.0001969978494623656,
+      "loss": 3.225200500488281,
+      "step": 350
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "eval_loss": 3.094292163848877,
+      "eval_runtime": 61.381,
+      "eval_samples_per_second": 309.607,
+      "eval_steps_per_second": 38.709,
+      "step": 350
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 1.0816289186477661,
+      "learning_rate": 0.0001965677419354839,
+      "loss": 3.1344537353515625,
+      "step": 400
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "eval_loss": 3.0037944316864014,
+      "eval_runtime": 61.1417,
+      "eval_samples_per_second": 310.819,
+      "eval_steps_per_second": 38.861,
+      "step": 400
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 1.220457673072815,
+      "learning_rate": 0.00019613763440860216,
+      "loss": 3.024658203125,
+      "step": 450
+    },
+    {
+      "epoch": 0.967741935483871,
+      "eval_loss": 2.9253640174865723,
+      "eval_runtime": 61.6823,
+      "eval_samples_per_second": 308.095,
+      "eval_steps_per_second": 38.52,
+      "step": 450
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 1.18031644821167,
+      "learning_rate": 0.00019570752688172045,
+      "loss": 2.9539215087890627,
+      "step": 500
+    },
+    {
+      "epoch": 1.075268817204301,
+      "eval_loss": 2.827315092086792,
+      "eval_runtime": 64.027,
+      "eval_samples_per_second": 296.812,
+      "eval_steps_per_second": 37.109,
+      "step": 500
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 1.4481481313705444,
+      "learning_rate": 0.00019527741935483872,
+      "loss": 2.8536431884765623,
+      "step": 550
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "eval_loss": 2.6743366718292236,
+      "eval_runtime": 60.9092,
+      "eval_samples_per_second": 312.005,
+      "eval_steps_per_second": 39.009,
+      "step": 550
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 1.5985803604125977,
+      "learning_rate": 0.00019484731182795698,
+      "loss": 2.7353704833984374,
+      "step": 600
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "eval_loss": 2.4861812591552734,
+      "eval_runtime": 61.6826,
+      "eval_samples_per_second": 308.093,
+      "eval_steps_per_second": 38.52,
+      "step": 600
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 2.046145439147949,
+      "learning_rate": 0.00019441720430107528,
+      "loss": 2.464430084228516,
+      "step": 650
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "eval_loss": 2.0265886783599854,
+      "eval_runtime": 61.2709,
+      "eval_samples_per_second": 310.164,
+      "eval_steps_per_second": 38.779,
+      "step": 650
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 1.8674232959747314,
+      "learning_rate": 0.00019398709677419354,
+      "loss": 1.9112973022460937,
+      "step": 700
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "eval_loss": 1.3678908348083496,
+      "eval_runtime": 62.2031,
+      "eval_samples_per_second": 305.515,
+      "eval_steps_per_second": 38.197,
+      "step": 700
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 1.708408236503601,
+      "learning_rate": 0.00019355698924731184,
+      "loss": 1.4241523742675781,
+      "step": 750
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "eval_loss": 1.0675994157791138,
+      "eval_runtime": 62.2,
+      "eval_samples_per_second": 305.53,
+      "eval_steps_per_second": 38.199,
+      "step": 750
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 1.6592656373977661,
+      "learning_rate": 0.00019312688172043013,
+      "loss": 1.2252975463867188,
+      "step": 800
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "eval_loss": 0.9175282716751099,
+      "eval_runtime": 61.3094,
+      "eval_samples_per_second": 309.969,
+      "eval_steps_per_second": 38.754,
+      "step": 800
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 1.2984247207641602,
+      "learning_rate": 0.0001926967741935484,
+      "loss": 1.0399230194091797,
+      "step": 850
+    },
+    {
+      "epoch": 1.827956989247312,
+      "eval_loss": 0.8346064686775208,
+      "eval_runtime": 61.1605,
+      "eval_samples_per_second": 310.724,
+      "eval_steps_per_second": 38.849,
+      "step": 850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 1.1744712591171265,
+      "learning_rate": 0.0001922666666666667,
+      "loss": 0.9568134307861328,
+      "step": 900
+    },
+    {
+      "epoch": 1.935483870967742,
+      "eval_loss": 0.7724924087524414,
+      "eval_runtime": 62.2824,
+      "eval_samples_per_second": 305.126,
+      "eval_steps_per_second": 38.149,
+      "step": 900
+    },
+    {
+      "epoch": 2.043010752688172,
+      "grad_norm": 1.2494049072265625,
+      "learning_rate": 0.00019183655913978495,
+      "loss": 0.8979853820800782,
+      "step": 950
+    },
+    {
+      "epoch": 2.043010752688172,
+      "eval_loss": 0.7325491905212402,
+      "eval_runtime": 62.8935,
+      "eval_samples_per_second": 302.161,
+      "eval_steps_per_second": 37.778,
+      "step": 950
+    },
+    {
+      "epoch": 2.150537634408602,
+      "grad_norm": 1.0687495470046997,
+      "learning_rate": 0.00019140645161290322,
+      "loss": 0.8724540710449219,
+      "step": 1000
+    },
+    {
+      "epoch": 2.150537634408602,
+      "eval_loss": 0.6943864822387695,
+      "eval_runtime": 64.2005,
+      "eval_samples_per_second": 296.01,
+      "eval_steps_per_second": 37.009,
+      "step": 1000
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.9108296036720276,
+      "learning_rate": 0.0001909763440860215,
+      "loss": 0.8106794738769532,
+      "step": 1050
+    },
+    {
+      "epoch": 2.258064516129032,
+      "eval_loss": 0.666123628616333,
+      "eval_runtime": 60.9142,
+      "eval_samples_per_second": 311.98,
+      "eval_steps_per_second": 39.006,
+      "step": 1050
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "grad_norm": 0.8529163002967834,
+      "learning_rate": 0.00019054623655913978,
+      "loss": 0.7816014862060547,
+      "step": 1100
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "eval_loss": 0.6435992121696472,
+      "eval_runtime": 61.9346,
+      "eval_samples_per_second": 306.84,
+      "eval_steps_per_second": 38.363,
+      "step": 1100
+    },
+    {
+      "epoch": 2.4731182795698925,
+      "grad_norm": 0.9023746848106384,
+      "learning_rate": 0.00019011612903225807,
+      "loss": 0.7448858642578124,
+      "step": 1150
+    },
+    {
+      "epoch": 2.4731182795698925,
+      "eval_loss": 0.6147477626800537,
+      "eval_runtime": 60.7037,
+      "eval_samples_per_second": 313.062,
+      "eval_steps_per_second": 39.141,
+      "step": 1150
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.7893891930580139,
+      "learning_rate": 0.00018968602150537636,
+      "loss": 0.7744358062744141,
+      "step": 1200
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "eval_loss": 0.6008749604225159,
+      "eval_runtime": 62.0421,
+      "eval_samples_per_second": 306.308,
+      "eval_steps_per_second": 38.297,
+      "step": 1200
+    },
+    {
+      "epoch": 2.688172043010753,
+      "grad_norm": 0.8543435335159302,
+      "learning_rate": 0.00018925591397849463,
+      "loss": 0.698813705444336,
+      "step": 1250
+    },
+    {
+      "epoch": 2.688172043010753,
+      "eval_loss": 0.5843669176101685,
+      "eval_runtime": 61.7236,
+      "eval_samples_per_second": 307.889,
+      "eval_steps_per_second": 38.494,
+      "step": 1250
+    },
+    {
+      "epoch": 2.795698924731183,
+      "grad_norm": 0.862782895565033,
+      "learning_rate": 0.00018882580645161292,
+      "loss": 0.7231275939941406,
+      "step": 1300
+    },
+    {
+      "epoch": 2.795698924731183,
+      "eval_loss": 0.560819149017334,
+      "eval_runtime": 61.272,
+      "eval_samples_per_second": 310.158,
+      "eval_steps_per_second": 38.778,
+      "step": 1300
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 0.8126527667045593,
+      "learning_rate": 0.0001883956989247312,
+      "loss": 0.6607036590576172,
+      "step": 1350
+    },
+    {
+      "epoch": 2.903225806451613,
+      "eval_loss": 0.5523199439048767,
+      "eval_runtime": 61.41,
+      "eval_samples_per_second": 309.461,
+      "eval_steps_per_second": 38.691,
+      "step": 1350
+    },
+    {
+      "epoch": 3.010752688172043,
+      "grad_norm": 0.8788714408874512,
+      "learning_rate": 0.00018796559139784945,
+      "loss": 0.658017349243164,
+      "step": 1400
+    },
+    {
+      "epoch": 3.010752688172043,
+      "eval_loss": 0.5504087805747986,
+      "eval_runtime": 61.2893,
+      "eval_samples_per_second": 310.07,
+      "eval_steps_per_second": 38.767,
+      "step": 1400
+    },
+    {
+      "epoch": 3.118279569892473,
+      "grad_norm": 0.8354722857475281,
+      "learning_rate": 0.00018753548387096775,
+      "loss": 0.6500599670410157,
+      "step": 1450
+    },
+    {
+      "epoch": 3.118279569892473,
+      "eval_loss": 0.5395110845565796,
+      "eval_runtime": 60.5063,
+      "eval_samples_per_second": 314.083,
+      "eval_steps_per_second": 39.269,
+      "step": 1450
+    },
+    {
+      "epoch": 3.225806451612903,
+      "grad_norm": 0.8122305870056152,
+      "learning_rate": 0.000187105376344086,
+      "loss": 0.6230792999267578,
+      "step": 1500
+    },
+    {
+      "epoch": 3.225806451612903,
+      "eval_loss": 0.5187473297119141,
+      "eval_runtime": 60.7322,
+      "eval_samples_per_second": 312.915,
+      "eval_steps_per_second": 39.123,
+      "step": 1500
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.673494815826416,
+      "learning_rate": 0.0001866752688172043,
+      "loss": 0.6118016052246094,
+      "step": 1550
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "eval_loss": 0.5081239938735962,
+      "eval_runtime": 60.5862,
+      "eval_samples_per_second": 313.669,
+      "eval_steps_per_second": 39.217,
+      "step": 1550
+    },
+    {
+      "epoch": 3.4408602150537635,
+      "grad_norm": 0.8055212497711182,
+      "learning_rate": 0.0001862451612903226,
+      "loss": 0.6122843170166016,
+      "step": 1600
+    },
+    {
+      "epoch": 3.4408602150537635,
+      "eval_loss": 0.49499744176864624,
+      "eval_runtime": 60.6568,
+      "eval_samples_per_second": 313.304,
+      "eval_steps_per_second": 39.171,
+      "step": 1600
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 0.7935542464256287,
+      "learning_rate": 0.00018581505376344087,
+      "loss": 0.5825344467163086,
+      "step": 1650
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "eval_loss": 0.48452192544937134,
+      "eval_runtime": 60.5763,
+      "eval_samples_per_second": 313.72,
+      "eval_steps_per_second": 39.223,
+      "step": 1650
+    },
+    {
+      "epoch": 3.6559139784946235,
+      "grad_norm": 0.6395400166511536,
+      "learning_rate": 0.00018538494623655916,
+      "loss": 0.5727723693847656,
+      "step": 1700
+    },
+    {
+      "epoch": 3.6559139784946235,
+      "eval_loss": 0.4738766551017761,
+      "eval_runtime": 60.5051,
+      "eval_samples_per_second": 314.089,
+      "eval_steps_per_second": 39.269,
+      "step": 1700
+    },
+    {
+      "epoch": 3.763440860215054,
+      "grad_norm": 0.6544663906097412,
+      "learning_rate": 0.00018495483870967742,
+      "loss": 0.5858316421508789,
+      "step": 1750
+    },
+    {
+      "epoch": 3.763440860215054,
+      "eval_loss": 0.4562221169471741,
+      "eval_runtime": 60.4697,
+      "eval_samples_per_second": 314.273,
+      "eval_steps_per_second": 39.292,
+      "step": 1750
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 0.773256778717041,
+      "learning_rate": 0.00018452473118279572,
+      "loss": 0.5555976867675781,
+      "step": 1800
+    },
+    {
+      "epoch": 3.870967741935484,
+      "eval_loss": 0.4462752342224121,
+      "eval_runtime": 61.139,
+      "eval_samples_per_second": 310.833,
+      "eval_steps_per_second": 38.862,
+      "step": 1800
+    },
+    {
+      "epoch": 3.978494623655914,
+      "grad_norm": 0.6679997444152832,
+      "learning_rate": 0.00018409462365591398,
+      "loss": 0.5079600143432618,
+      "step": 1850
+    },
+    {
+      "epoch": 3.978494623655914,
+      "eval_loss": 0.43978169560432434,
+      "eval_runtime": 60.5103,
+      "eval_samples_per_second": 314.062,
+      "eval_steps_per_second": 39.266,
+      "step": 1850
+    },
+    {
+      "epoch": 4.086021505376344,
+      "grad_norm": 0.7930998206138611,
+      "learning_rate": 0.00018366451612903225,
+      "loss": 0.5580390548706055,
+      "step": 1900
+    },
+    {
+      "epoch": 4.086021505376344,
+      "eval_loss": 0.4352206587791443,
+      "eval_runtime": 60.8357,
+      "eval_samples_per_second": 312.382,
+      "eval_steps_per_second": 39.056,
+      "step": 1900
+    },
+    {
+      "epoch": 4.193548387096774,
+      "grad_norm": 0.6607942581176758,
+      "learning_rate": 0.00018323440860215054,
+      "loss": 0.49173324584960937,
+      "step": 1950
+    },
+    {
+      "epoch": 4.193548387096774,
+      "eval_loss": 0.4238659143447876,
+      "eval_runtime": 60.9872,
+      "eval_samples_per_second": 311.606,
+      "eval_steps_per_second": 38.959,
+      "step": 1950
+    },
+    {
+      "epoch": 4.301075268817204,
+      "grad_norm": 0.6287643909454346,
+      "learning_rate": 0.00018280430107526884,
+      "loss": 0.4687882232666016,
+      "step": 2000
+    },
+    {
+      "epoch": 4.301075268817204,
+      "eval_loss": 0.4168907403945923,
+      "eval_runtime": 61.005,
+      "eval_samples_per_second": 311.515,
+      "eval_steps_per_second": 38.948,
+      "step": 2000
+    },
+    {
+      "epoch": 4.408602150537634,
+      "grad_norm": 0.6433095932006836,
+      "learning_rate": 0.0001823741935483871,
+      "loss": 0.4763982009887695,
+      "step": 2050
+    },
+    {
+      "epoch": 4.408602150537634,
+      "eval_loss": 0.4120262861251831,
+      "eval_runtime": 61.5507,
+      "eval_samples_per_second": 308.753,
+      "eval_steps_per_second": 38.602,
+      "step": 2050
+    },
+    {
+      "epoch": 4.516129032258064,
+      "grad_norm": 0.76325523853302,
+      "learning_rate": 0.0001819440860215054,
+      "loss": 0.5169943237304687,
+      "step": 2100
+    },
+    {
+      "epoch": 4.516129032258064,
+      "eval_loss": 0.40777090191841125,
+      "eval_runtime": 61.9659,
+      "eval_samples_per_second": 306.685,
+      "eval_steps_per_second": 38.344,
+      "step": 2100
+    },
+    {
+      "epoch": 4.623655913978495,
+      "grad_norm": 0.7534022331237793,
+      "learning_rate": 0.00018151397849462366,
+      "loss": 0.4840876770019531,
+      "step": 2150
+    },
+    {
+      "epoch": 4.623655913978495,
+      "eval_loss": 0.396854966878891,
+      "eval_runtime": 61.4429,
+      "eval_samples_per_second": 309.295,
+      "eval_steps_per_second": 38.67,
+      "step": 2150
+    },
+    {
+      "epoch": 4.731182795698925,
+      "grad_norm": 0.688862144947052,
+      "learning_rate": 0.00018108387096774195,
+      "loss": 0.46516273498535154,
+      "step": 2200
+    },
+    {
+      "epoch": 4.731182795698925,
+      "eval_loss": 0.38546594977378845,
+      "eval_runtime": 60.8637,
+      "eval_samples_per_second": 312.239,
+      "eval_steps_per_second": 39.038,
+      "step": 2200
+    },
+    {
+      "epoch": 4.838709677419355,
+      "grad_norm": 0.5328208208084106,
+      "learning_rate": 0.00018065376344086022,
+      "loss": 0.5028326034545898,
+      "step": 2250
+    },
+    {
+      "epoch": 4.838709677419355,
+      "eval_loss": 0.37445569038391113,
+      "eval_runtime": 61.5819,
+      "eval_samples_per_second": 308.597,
+      "eval_steps_per_second": 38.583,
+      "step": 2250
+    },
+    {
+      "epoch": 4.946236559139785,
+      "grad_norm": 0.5857045650482178,
+      "learning_rate": 0.00018022365591397848,
+      "loss": 0.43645286560058594,
+      "step": 2300
+    },
+    {
+      "epoch": 4.946236559139785,
+      "eval_loss": 0.3690737187862396,
+      "eval_runtime": 61.4895,
+      "eval_samples_per_second": 309.061,
+      "eval_steps_per_second": 38.641,
+      "step": 2300
+    },
+    {
+      "epoch": 5.053763440860215,
+      "grad_norm": 0.6344749331474304,
+      "learning_rate": 0.00017979354838709678,
+      "loss": 0.42147178649902345,
+      "step": 2350
+    },
+    {
+      "epoch": 5.053763440860215,
+      "eval_loss": 0.3570445775985718,
+      "eval_runtime": 62.1748,
+      "eval_samples_per_second": 305.654,
+      "eval_steps_per_second": 38.215,
+      "step": 2350
+    },
+    {
+      "epoch": 5.161290322580645,
+      "grad_norm": 0.6610215306282043,
+      "learning_rate": 0.00017936344086021507,
+      "loss": 0.4157654571533203,
+      "step": 2400
+    },
+    {
+      "epoch": 5.161290322580645,
+      "eval_loss": 0.3497065603733063,
+      "eval_runtime": 61.6389,
+      "eval_samples_per_second": 308.312,
+      "eval_steps_per_second": 38.547,
+      "step": 2400
+    },
+    {
+      "epoch": 5.268817204301075,
+      "grad_norm": 0.5334368348121643,
+      "learning_rate": 0.00017893333333333336,
+      "loss": 0.4012648391723633,
+      "step": 2450
+    },
+    {
+      "epoch": 5.268817204301075,
+      "eval_loss": 0.33196908235549927,
+      "eval_runtime": 64.4623,
+      "eval_samples_per_second": 294.808,
+      "eval_steps_per_second": 36.859,
+      "step": 2450
+    },
+    {
+      "epoch": 5.376344086021505,
+      "grad_norm": 0.7559072971343994,
+      "learning_rate": 0.00017850322580645163,
+      "loss": 0.4343834686279297,
+      "step": 2500
+    },
+    {
+      "epoch": 5.376344086021505,
+      "eval_loss": 0.31756916642189026,
+      "eval_runtime": 64.0899,
+      "eval_samples_per_second": 296.521,
+      "eval_steps_per_second": 37.073,
+      "step": 2500
+    },
+    {
+      "epoch": 5.483870967741936,
+      "grad_norm": 0.6970711946487427,
+      "learning_rate": 0.0001780731182795699,
+      "loss": 0.3609016799926758,
+      "step": 2550
+    },
+    {
+      "epoch": 5.483870967741936,
+      "eval_loss": 0.3129482567310333,
+      "eval_runtime": 64.2007,
+      "eval_samples_per_second": 296.009,
+      "eval_steps_per_second": 37.009,
+      "step": 2550
+    },
+    {
+      "epoch": 5.591397849462366,
+      "grad_norm": 0.7393150329589844,
+      "learning_rate": 0.0001776430107526882,
+      "loss": 0.36085220336914064,
+      "step": 2600
+    },
+    {
+      "epoch": 5.591397849462366,
+      "eval_loss": 0.29907363653182983,
+      "eval_runtime": 64.2974,
+      "eval_samples_per_second": 295.564,
+      "eval_steps_per_second": 36.953,
+      "step": 2600
+    },
+    {
+      "epoch": 5.698924731182796,
+      "grad_norm": 0.6760246157646179,
+      "learning_rate": 0.00017721290322580645,
+      "loss": 0.3354073715209961,
+      "step": 2650
+    },
+    {
+      "epoch": 5.698924731182796,
+      "eval_loss": 0.28903692960739136,
+      "eval_runtime": 64.2379,
+      "eval_samples_per_second": 295.838,
+      "eval_steps_per_second": 36.988,
+      "step": 2650
+    },
+    {
+      "epoch": 5.806451612903226,
+      "grad_norm": 0.6342934370040894,
+      "learning_rate": 0.00017678279569892472,
+      "loss": 0.33487789154052733,
+      "step": 2700
+    },
+    {
+      "epoch": 5.806451612903226,
+      "eval_loss": 0.2763662040233612,
+      "eval_runtime": 63.0262,
+      "eval_samples_per_second": 301.525,
+      "eval_steps_per_second": 37.699,
+      "step": 2700
+    },
+    {
+      "epoch": 5.913978494623656,
+      "grad_norm": 0.6288059949874878,
+      "learning_rate": 0.00017635268817204301,
+      "loss": 0.3166103744506836,
+      "step": 2750
+    },
+    {
+      "epoch": 5.913978494623656,
+      "eval_loss": 0.27043381333351135,
+      "eval_runtime": 63.0792,
+      "eval_samples_per_second": 301.272,
+      "eval_steps_per_second": 37.667,
+      "step": 2750
+    },
+    {
+      "epoch": 6.021505376344086,
+      "grad_norm": 0.8228830695152283,
+      "learning_rate": 0.0001759225806451613,
+      "loss": 0.3166475486755371,
+      "step": 2800
+    },
+    {
+      "epoch": 6.021505376344086,
+      "eval_loss": 0.26023828983306885,
+      "eval_runtime": 64.4666,
+      "eval_samples_per_second": 294.788,
+      "eval_steps_per_second": 36.856,
+      "step": 2800
+    },
+    {
+      "epoch": 6.129032258064516,
+      "grad_norm": 0.6261463165283203,
+      "learning_rate": 0.0001754924731182796,
+      "loss": 0.30168416976928714,
+      "step": 2850
+    },
+    {
+      "epoch": 6.129032258064516,
+      "eval_loss": 0.2530518174171448,
+      "eval_runtime": 63.8775,
+      "eval_samples_per_second": 297.507,
+      "eval_steps_per_second": 37.196,
+      "step": 2850
+    },
+    {
+      "epoch": 6.236559139784946,
+      "grad_norm": 0.7265720367431641,
+      "learning_rate": 0.00017506236559139787,
+      "loss": 0.29341196060180663,
+      "step": 2900
+    },
+    {
+      "epoch": 6.236559139784946,
+      "eval_loss": 0.24442243576049805,
+      "eval_runtime": 63.2991,
+      "eval_samples_per_second": 300.226,
+      "eval_steps_per_second": 37.536,
+      "step": 2900
+    },
+    {
+      "epoch": 6.344086021505376,
+      "grad_norm": 0.5499133467674255,
+      "learning_rate": 0.00017463225806451613,
+      "loss": 0.2850730323791504,
+      "step": 2950
+    },
+    {
+      "epoch": 6.344086021505376,
+      "eval_loss": 0.237361341714859,
+      "eval_runtime": 64.5725,
+      "eval_samples_per_second": 294.305,
+      "eval_steps_per_second": 36.796,
+      "step": 2950
+    },
+    {
+      "epoch": 6.451612903225806,
+      "grad_norm": 0.7466527223587036,
+      "learning_rate": 0.00017420215053763442,
+      "loss": 0.2737441635131836,
+      "step": 3000
+    },
+    {
+      "epoch": 6.451612903225806,
+      "eval_loss": 0.22867611050605774,
+      "eval_runtime": 64.8912,
+      "eval_samples_per_second": 292.86,
+      "eval_steps_per_second": 36.615,
+      "step": 3000
+    },
+    {
+      "epoch": 6.559139784946236,
+      "grad_norm": 0.605771005153656,
+      "learning_rate": 0.0001737720430107527,
+      "loss": 0.26982501983642576,
+      "step": 3050
+    },
+    {
+      "epoch": 6.559139784946236,
+      "eval_loss": 0.22686000168323517,
+      "eval_runtime": 64.8566,
+      "eval_samples_per_second": 293.016,
+      "eval_steps_per_second": 36.635,
+      "step": 3050
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.6927595138549805,
+      "learning_rate": 0.00017334193548387096,
+      "loss": 0.2592777633666992,
+      "step": 3100
+    },
+    {
+      "epoch": 6.666666666666667,
+      "eval_loss": 0.22359216213226318,
+      "eval_runtime": 64.9559,
+      "eval_samples_per_second": 292.568,
+      "eval_steps_per_second": 36.579,
+      "step": 3100
+    },
+    {
+      "epoch": 6.774193548387097,
+      "grad_norm": 0.6070519685745239,
+      "learning_rate": 0.00017291182795698925,
+      "loss": 0.2539858436584473,
+      "step": 3150
+    },
+    {
+      "epoch": 6.774193548387097,
+      "eval_loss": 0.22382962703704834,
+      "eval_runtime": 64.9172,
+      "eval_samples_per_second": 292.742,
+      "eval_steps_per_second": 36.6,
+      "step": 3150
+    },
+    {
+      "epoch": 6.881720430107527,
+      "grad_norm": 0.7206361889839172,
+      "learning_rate": 0.00017248172043010754,
+      "loss": 0.2550803184509277,
+      "step": 3200
+    },
+    {
+      "epoch": 6.881720430107527,
+      "eval_loss": 0.22055239975452423,
+      "eval_runtime": 65.5818,
+      "eval_samples_per_second": 289.775,
+      "eval_steps_per_second": 36.23,
+      "step": 3200
+    },
+    {
+      "epoch": 6.989247311827957,
+      "grad_norm": 0.6855896711349487,
+      "learning_rate": 0.00017205161290322584,
+      "loss": 0.2432615852355957,
+      "step": 3250
+    },
+    {
+      "epoch": 6.989247311827957,
+      "eval_loss": 0.21467819809913635,
+      "eval_runtime": 66.2905,
+      "eval_samples_per_second": 286.677,
+      "eval_steps_per_second": 35.842,
+      "step": 3250
+    },
+    {
+      "epoch": 7.096774193548387,
+      "grad_norm": 0.5612008571624756,
+      "learning_rate": 0.0001716215053763441,
+      "loss": 0.24562849044799806,
+      "step": 3300
+    },
+    {
+      "epoch": 7.096774193548387,
+      "eval_loss": 0.21375121176242828,
+      "eval_runtime": 66.0151,
+      "eval_samples_per_second": 287.874,
+      "eval_steps_per_second": 35.992,
+      "step": 3300
+    },
+    {
+      "epoch": 7.204301075268817,
+      "grad_norm": 0.7433006763458252,
+      "learning_rate": 0.00017119139784946237,
+      "loss": 0.2393852424621582,
+      "step": 3350
+    },
+    {
+      "epoch": 7.204301075268817,
+      "eval_loss": 0.20871323347091675,
+      "eval_runtime": 61.9563,
+      "eval_samples_per_second": 306.732,
+      "eval_steps_per_second": 38.35,
+      "step": 3350
+    },
+    {
+      "epoch": 7.311827956989247,
+      "grad_norm": 0.6491153836250305,
+      "learning_rate": 0.00017076129032258066,
+      "loss": 0.24959787368774414,
+      "step": 3400
+    },
+    {
+      "epoch": 7.311827956989247,
+      "eval_loss": 0.21120016276836395,
+      "eval_runtime": 60.6864,
+      "eval_samples_per_second": 313.151,
+      "eval_steps_per_second": 39.152,
+      "step": 3400
+    },
+    {
+      "epoch": 7.419354838709677,
+      "grad_norm": 0.5620025992393494,
+      "learning_rate": 0.00017033118279569893,
+      "loss": 0.2320168685913086,
+      "step": 3450
+    },
+    {
+      "epoch": 7.419354838709677,
+      "eval_loss": 0.20816229283809662,
+      "eval_runtime": 61.036,
+      "eval_samples_per_second": 311.357,
+      "eval_steps_per_second": 38.928,
+      "step": 3450
+    },
+    {
+      "epoch": 7.526881720430108,
+      "grad_norm": 0.6183444261550903,
+      "learning_rate": 0.00016990107526881722,
+      "loss": 0.2322225570678711,
+      "step": 3500
+    },
+    {
+      "epoch": 7.526881720430108,
+      "eval_loss": 0.20497609674930573,
+      "eval_runtime": 60.5328,
+      "eval_samples_per_second": 313.946,
+      "eval_steps_per_second": 39.251,
+      "step": 3500
+    },
+    {
+      "epoch": 7.634408602150538,
+      "grad_norm": 0.5328448414802551,
+      "learning_rate": 0.00016947096774193548,
+      "loss": 0.23304037094116212,
+      "step": 3550
+    },
+    {
+      "epoch": 7.634408602150538,
+      "eval_loss": 0.20321960747241974,
+      "eval_runtime": 62.1711,
+      "eval_samples_per_second": 305.672,
+      "eval_steps_per_second": 38.217,
+      "step": 3550
+    },
+    {
+      "epoch": 7.741935483870968,
+      "grad_norm": 0.5241938829421997,
+      "learning_rate": 0.00016904086021505378,
+      "loss": 0.22476686477661134,
+      "step": 3600
+    },
+    {
+      "epoch": 7.741935483870968,
+      "eval_loss": 0.2034502625465393,
+      "eval_runtime": 64.8022,
+      "eval_samples_per_second": 293.262,
+      "eval_steps_per_second": 36.665,
+      "step": 3600
+    },
+    {
+      "epoch": 7.849462365591398,
+      "grad_norm": 0.5440294742584229,
+      "learning_rate": 0.00016861075268817207,
+      "loss": 0.227796630859375,
+      "step": 3650
+    },
+    {
+      "epoch": 7.849462365591398,
+      "eval_loss": 0.20562465488910675,
+      "eval_runtime": 65.1543,
+      "eval_samples_per_second": 291.677,
+      "eval_steps_per_second": 36.467,
+      "step": 3650
+    },
+    {
+      "epoch": 7.956989247311828,
+      "grad_norm": 0.5037738680839539,
+      "learning_rate": 0.00016818064516129034,
+      "loss": 0.23125221252441405,
+      "step": 3700
+    },
+    {
+      "epoch": 7.956989247311828,
+      "eval_loss": 0.20223356783390045,
+      "eval_runtime": 65.5561,
+      "eval_samples_per_second": 289.889,
+      "eval_steps_per_second": 36.244,
+      "step": 3700
+    },
+    {
+      "epoch": 8.064516129032258,
+      "grad_norm": 0.843550980091095,
+      "learning_rate": 0.0001677505376344086,
+      "loss": 0.2236369514465332,
+      "step": 3750
+    },
+    {
+      "epoch": 8.064516129032258,
+      "eval_loss": 0.19716867804527283,
+      "eval_runtime": 66.4534,
+      "eval_samples_per_second": 285.975,
+      "eval_steps_per_second": 35.754,
+      "step": 3750
+    },
+    {
+      "epoch": 8.172043010752688,
+      "grad_norm": 0.5562386512756348,
+      "learning_rate": 0.0001673204301075269,
+      "loss": 0.22720510482788087,
+      "step": 3800
+    },
+    {
+      "epoch": 8.172043010752688,
+      "eval_loss": 0.1974799931049347,
+      "eval_runtime": 66.0022,
+      "eval_samples_per_second": 287.93,
+      "eval_steps_per_second": 35.999,
+      "step": 3800
+    },
+    {
+      "epoch": 8.279569892473118,
+      "grad_norm": 0.5003981590270996,
+      "learning_rate": 0.00016689032258064516,
+      "loss": 0.22547555923461915,
+      "step": 3850
+    },
+    {
+      "epoch": 8.279569892473118,
+      "eval_loss": 0.19821035861968994,
+      "eval_runtime": 60.464,
+      "eval_samples_per_second": 314.303,
+      "eval_steps_per_second": 39.296,
+      "step": 3850
+    },
+    {
+      "epoch": 8.387096774193548,
+      "grad_norm": 0.4629065692424774,
+      "learning_rate": 0.00016646021505376345,
+      "loss": 0.22113780975341796,
+      "step": 3900
+    },
+    {
+      "epoch": 8.387096774193548,
+      "eval_loss": 0.1924905627965927,
+      "eval_runtime": 60.595,
+      "eval_samples_per_second": 313.623,
+      "eval_steps_per_second": 39.211,
+      "step": 3900
+    },
+    {
+      "epoch": 8.494623655913978,
+      "grad_norm": 0.5043092966079712,
+      "learning_rate": 0.00016603010752688172,
+      "loss": 0.21599315643310546,
+      "step": 3950
+    },
+    {
+      "epoch": 8.494623655913978,
+      "eval_loss": 0.19553141295909882,
+      "eval_runtime": 60.5,
+      "eval_samples_per_second": 314.116,
+      "eval_steps_per_second": 39.273,
+      "step": 3950
+    },
+    {
+      "epoch": 8.602150537634408,
+      "grad_norm": 0.6413733959197998,
+      "learning_rate": 0.0001656,
+      "loss": 0.2173159408569336,
+      "step": 4000
+    },
+    {
+      "epoch": 8.602150537634408,
+      "eval_loss": 0.19092191755771637,
+      "eval_runtime": 60.5854,
+      "eval_samples_per_second": 313.673,
+      "eval_steps_per_second": 39.217,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 23250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.685471179194368e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01e07a6c5703ad19cc9b65702ca484a0bbe3465c5cd2906f1c5a9b738dfbd9aa
+size 14993