Model save

Browse files

Files changed (14) hide show

last-checkpoint/config.json +0 -27
last-checkpoint/merges.txt +0 -0
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/pytorch_model.bin +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -15
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +0 -17
last-checkpoint/trainer_state.json +0 -982
last-checkpoint/training_args.bin +0 -3
last-checkpoint/vocab.json +0 -0
pytorch_model.bin +1 -1
runs/Feb06_10-35-49_turing/events.out.tfevents.1675676161.turing.964098.1 +2 -2

last-checkpoint/config.json DELETED Viewed

@@ -1,27 +0,0 @@
-{
-  "_name_or_path": "/home/pcjf/CESGA/works/lmodels/models/large",
-  "architectures": [
-    "RobertaForMaskedLM"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
-  "classifier_dropout": null,
-  "eos_token_id": 2,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "roberta",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.24.0",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 50265
-}

last-checkpoint/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:cd68ef232e3e68b2a523145fb4aab44e1178593f4ecebfe4a7fb7c2a61d39159
-size 997747845

last-checkpoint/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9c293560287e12e9f8d6f988947bc53ce911420ce65ca91ba9813acb4185c488
-size 498863417

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a06bfe35557371cd4030124443e6805028c2a839df314289636cf0caa8997b79
-size 14575

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0ff1be153872ceab362bc8f896bf3f611b155e54edf151eccfc448653a32209d
-size 627

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,15 +0,0 @@
-{
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "unk_token": "<unk>"
-}

last-checkpoint/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,17 +0,0 @@
-{
-  "add_prefix_space": false,
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "errors": "replace",
-  "mask_token": "<mask>",
-  "max_len": 512,
-  "model_max_length": 512,
-  "name_or_path": "/home/pcjf/CESGA/works/lmodels/models/large",
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "special_tokens_map_file": null,
-  "tokenizer_class": "RobertaTokenizer",
-  "trim_offsets": true,
-  "unk_token": "<unk>"
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,982 +0,0 @@
-{
-  "best_metric": 1.0537773370742798,
-  "best_model_checkpoint": "/home/pcjf/CESGA/works/lmodels/models/large/checkpoint-102000",
-  "epoch": 14.902730598086016,
-  "global_step": 103500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.22,
-      "learning_rate": 9.856011519078475e-06,
-      "loss": 3.6976,
-      "step": 1500
-    },
-    {
-      "epoch": 0.22,
-      "eval_loss": 2.2865896224975586,
-      "eval_runtime": 84.2237,
-      "eval_samples_per_second": 215.45,
-      "eval_steps_per_second": 26.94,
-      "step": 1500
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 9.712023038156948e-06,
-      "loss": 2.3057,
-      "step": 3000
-    },
-    {
-      "epoch": 0.43,
-      "eval_loss": 1.9275821447372437,
-      "eval_runtime": 83.9089,
-      "eval_samples_per_second": 216.258,
-      "eval_steps_per_second": 27.041,
-      "step": 3000
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 9.568034557235422e-06,
-      "loss": 2.0428,
-      "step": 4500
-    },
-    {
-      "epoch": 0.65,
-      "eval_loss": 1.7688409090042114,
-      "eval_runtime": 83.2995,
-      "eval_samples_per_second": 217.841,
-      "eval_steps_per_second": 27.239,
-      "step": 4500
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 9.424046076313895e-06,
-      "loss": 1.8963,
-      "step": 6000
-    },
-    {
-      "epoch": 0.86,
-      "eval_loss": 1.651775598526001,
-      "eval_runtime": 84.0186,
-      "eval_samples_per_second": 215.976,
-      "eval_steps_per_second": 27.006,
-      "step": 6000
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 9.28005759539237e-06,
-      "loss": 1.8031,
-      "step": 7500
-    },
-    {
-      "epoch": 1.08,
-      "eval_loss": 1.593921184539795,
-      "eval_runtime": 84.6892,
-      "eval_samples_per_second": 214.266,
-      "eval_steps_per_second": 26.792,
-      "step": 7500
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 9.136069114470844e-06,
-      "loss": 1.7288,
-      "step": 9000
-    },
-    {
-      "epoch": 1.3,
-      "eval_loss": 1.5367190837860107,
-      "eval_runtime": 89.3272,
-      "eval_samples_per_second": 203.141,
-      "eval_steps_per_second": 25.401,
-      "step": 9000
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 8.992080633549316e-06,
-      "loss": 1.6743,
-      "step": 10500
-    },
-    {
-      "epoch": 1.51,
-      "eval_loss": 1.4779834747314453,
-      "eval_runtime": 81.597,
-      "eval_samples_per_second": 222.386,
-      "eval_steps_per_second": 27.807,
-      "step": 10500
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 8.84809215262779e-06,
-      "loss": 1.6304,
-      "step": 12000
-    },
-    {
-      "epoch": 1.73,
-      "eval_loss": 1.4477195739746094,
-      "eval_runtime": 84.4637,
-      "eval_samples_per_second": 214.838,
-      "eval_steps_per_second": 26.864,
-      "step": 12000
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 8.704103671706265e-06,
-      "loss": 1.5896,
-      "step": 13500
-    },
-    {
-      "epoch": 1.94,
-      "eval_loss": 1.4108401536941528,
-      "eval_runtime": 84.7175,
-      "eval_samples_per_second": 214.194,
-      "eval_steps_per_second": 26.783,
-      "step": 13500
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 8.560115190784738e-06,
-      "loss": 1.5581,
-      "step": 15000
-    },
-    {
-      "epoch": 2.16,
-      "eval_loss": 1.3877344131469727,
-      "eval_runtime": 84.5715,
-      "eval_samples_per_second": 214.564,
-      "eval_steps_per_second": 26.829,
-      "step": 15000
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 8.416126709863212e-06,
-      "loss": 1.5267,
-      "step": 16500
-    },
-    {
-      "epoch": 2.38,
-      "eval_loss": 1.3697640895843506,
-      "eval_runtime": 84.7025,
-      "eval_samples_per_second": 214.232,
-      "eval_steps_per_second": 26.788,
-      "step": 16500
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 8.272138228941685e-06,
-      "loss": 1.5027,
-      "step": 18000
-    },
-    {
-      "epoch": 2.59,
-      "eval_loss": 1.3324816226959229,
-      "eval_runtime": 84.1197,
-      "eval_samples_per_second": 215.716,
-      "eval_steps_per_second": 26.973,
-      "step": 18000
-    },
-    {
-      "epoch": 2.81,
-      "learning_rate": 8.12814974802016e-06,
-      "loss": 1.4798,
-      "step": 19500
-    },
-    {
-      "epoch": 2.81,
-      "eval_loss": 1.3138675689697266,
-      "eval_runtime": 85.4337,
-      "eval_samples_per_second": 212.399,
-      "eval_steps_per_second": 26.559,
-      "step": 19500
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 7.984161267098632e-06,
-      "loss": 1.461,
-      "step": 21000
-    },
-    {
-      "epoch": 3.02,
-      "eval_loss": 1.298140525817871,
-      "eval_runtime": 84.4026,
-      "eval_samples_per_second": 214.993,
-      "eval_steps_per_second": 26.883,
-      "step": 21000
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 7.840172786177106e-06,
-      "loss": 1.4403,
-      "step": 22500
-    },
-    {
-      "epoch": 3.24,
-      "eval_loss": 1.2826968431472778,
-      "eval_runtime": 85.2074,
-      "eval_samples_per_second": 212.963,
-      "eval_steps_per_second": 26.629,
-      "step": 22500
-    },
-    {
-      "epoch": 3.46,
-      "learning_rate": 7.69618430525558e-06,
-      "loss": 1.4267,
-      "step": 24000
-    },
-    {
-      "epoch": 3.46,
-      "eval_loss": 1.270477294921875,
-      "eval_runtime": 84.6854,
-      "eval_samples_per_second": 214.275,
-      "eval_steps_per_second": 26.793,
-      "step": 24000
-    },
-    {
-      "epoch": 3.67,
-      "learning_rate": 7.552195824334054e-06,
-      "loss": 1.4095,
-      "step": 25500
-    },
-    {
-      "epoch": 3.67,
-      "eval_loss": 1.2709885835647583,
-      "eval_runtime": 84.9755,
-      "eval_samples_per_second": 213.544,
-      "eval_steps_per_second": 26.702,
-      "step": 25500
-    },
-    {
-      "epoch": 3.89,
-      "learning_rate": 7.408207343412528e-06,
-      "loss": 1.3988,
-      "step": 27000
-    },
-    {
-      "epoch": 3.89,
-      "eval_loss": 1.2431179285049438,
-      "eval_runtime": 84.5543,
-      "eval_samples_per_second": 214.608,
-      "eval_steps_per_second": 26.835,
-      "step": 27000
-    },
-    {
-      "epoch": 4.1,
-      "learning_rate": 7.264218862491001e-06,
-      "loss": 1.386,
-      "step": 28500
-    },
-    {
-      "epoch": 4.1,
-      "eval_loss": 1.2419956922531128,
-      "eval_runtime": 100.1186,
-      "eval_samples_per_second": 181.245,
-      "eval_steps_per_second": 22.663,
-      "step": 28500
-    },
-    {
-      "epoch": 4.32,
-      "learning_rate": 7.1202303815694755e-06,
-      "loss": 1.371,
-      "step": 30000
-    },
-    {
-      "epoch": 4.32,
-      "eval_loss": 1.221591591835022,
-      "eval_runtime": 84.502,
-      "eval_samples_per_second": 214.741,
-      "eval_steps_per_second": 26.851,
-      "step": 30000
-    },
-    {
-      "epoch": 4.54,
-      "learning_rate": 6.976241900647949e-06,
-      "loss": 1.3598,
-      "step": 31500
-    },
-    {
-      "epoch": 4.54,
-      "eval_loss": 1.2219996452331543,
-      "eval_runtime": 84.5085,
-      "eval_samples_per_second": 214.724,
-      "eval_steps_per_second": 26.849,
-      "step": 31500
-    },
-    {
-      "epoch": 4.75,
-      "learning_rate": 6.8322534197264226e-06,
-      "loss": 1.3537,
-      "step": 33000
-    },
-    {
-      "epoch": 4.75,
-      "eval_loss": 1.2087223529815674,
-      "eval_runtime": 85.2139,
-      "eval_samples_per_second": 212.946,
-      "eval_steps_per_second": 26.627,
-      "step": 33000
-    },
-    {
-      "epoch": 4.97,
-      "learning_rate": 6.688264938804896e-06,
-      "loss": 1.3435,
-      "step": 34500
-    },
-    {
-      "epoch": 4.97,
-      "eval_loss": 1.1993805170059204,
-      "eval_runtime": 84.8549,
-      "eval_samples_per_second": 213.847,
-      "eval_steps_per_second": 26.74,
-      "step": 34500
-    },
-    {
-      "epoch": 5.18,
-      "learning_rate": 6.54427645788337e-06,
-      "loss": 1.3324,
-      "step": 36000
-    },
-    {
-      "epoch": 5.18,
-      "eval_loss": 1.1966261863708496,
-      "eval_runtime": 85.1605,
-      "eval_samples_per_second": 213.08,
-      "eval_steps_per_second": 26.644,
-      "step": 36000
-    },
-    {
-      "epoch": 5.4,
-      "learning_rate": 6.400287976961843e-06,
-      "loss": 1.3247,
-      "step": 37500
-    },
-    {
-      "epoch": 5.4,
-      "eval_loss": 1.179038643836975,
-      "eval_runtime": 84.5668,
-      "eval_samples_per_second": 214.576,
-      "eval_steps_per_second": 26.831,
-      "step": 37500
-    },
-    {
-      "epoch": 5.62,
-      "learning_rate": 6.2562994960403175e-06,
-      "loss": 1.3189,
-      "step": 39000
-    },
-    {
-      "epoch": 5.62,
-      "eval_loss": 1.1733150482177734,
-      "eval_runtime": 86.5829,
-      "eval_samples_per_second": 209.579,
-      "eval_steps_per_second": 26.206,
-      "step": 39000
-    },
-    {
-      "epoch": 5.83,
-      "learning_rate": 6.112311015118791e-06,
-      "loss": 1.3118,
-      "step": 40500
-    },
-    {
-      "epoch": 5.83,
-      "eval_loss": 1.1638059616088867,
-      "eval_runtime": 85.3947,
-      "eval_samples_per_second": 212.496,
-      "eval_steps_per_second": 26.571,
-      "step": 40500
-    },
-    {
-      "epoch": 6.05,
-      "learning_rate": 5.968322534197265e-06,
-      "loss": 1.3033,
-      "step": 42000
-    },
-    {
-      "epoch": 6.05,
-      "eval_loss": 1.166013240814209,
-      "eval_runtime": 85.1093,
-      "eval_samples_per_second": 213.208,
-      "eval_steps_per_second": 26.66,
-      "step": 42000
-    },
-    {
-      "epoch": 6.26,
-      "learning_rate": 5.824334053275739e-06,
-      "loss": 1.2962,
-      "step": 43500
-    },
-    {
-      "epoch": 6.26,
-      "eval_loss": 1.1626156568527222,
-      "eval_runtime": 84.6549,
-      "eval_samples_per_second": 214.353,
-      "eval_steps_per_second": 26.803,
-      "step": 43500
-    },
-    {
-      "epoch": 6.48,
-      "learning_rate": 5.6803455723542124e-06,
-      "loss": 1.2939,
-      "step": 45000
-    },
-    {
-      "epoch": 6.48,
-      "eval_loss": 1.1594172716140747,
-      "eval_runtime": 85.287,
-      "eval_samples_per_second": 212.764,
-      "eval_steps_per_second": 26.604,
-      "step": 45000
-    },
-    {
-      "epoch": 6.7,
-      "learning_rate": 5.536357091432686e-06,
-      "loss": 1.2871,
-      "step": 46500
-    },
-    {
-      "epoch": 6.7,
-      "eval_loss": 1.1451094150543213,
-      "eval_runtime": 84.769,
-      "eval_samples_per_second": 214.064,
-      "eval_steps_per_second": 26.767,
-      "step": 46500
-    },
-    {
-      "epoch": 6.91,
-      "learning_rate": 5.3923686105111595e-06,
-      "loss": 1.2801,
-      "step": 48000
-    },
-    {
-      "epoch": 6.91,
-      "eval_loss": 1.1349542140960693,
-      "eval_runtime": 85.0192,
-      "eval_samples_per_second": 213.434,
-      "eval_steps_per_second": 26.688,
-      "step": 48000
-    },
-    {
-      "epoch": 7.13,
-      "learning_rate": 5.248380129589633e-06,
-      "loss": 1.2732,
-      "step": 49500
-    },
-    {
-      "epoch": 7.13,
-      "eval_loss": 1.1414066553115845,
-      "eval_runtime": 83.7422,
-      "eval_samples_per_second": 216.689,
-      "eval_steps_per_second": 27.095,
-      "step": 49500
-    },
-    {
-      "epoch": 7.34,
-      "learning_rate": 5.1043916486681065e-06,
-      "loss": 1.272,
-      "step": 51000
-    },
-    {
-      "epoch": 7.34,
-      "eval_loss": 1.1416987180709839,
-      "eval_runtime": 85.9362,
-      "eval_samples_per_second": 211.157,
-      "eval_steps_per_second": 26.403,
-      "step": 51000
-    },
-    {
-      "epoch": 7.56,
-      "learning_rate": 4.960403167746581e-06,
-      "loss": 1.2652,
-      "step": 52500
-    },
-    {
-      "epoch": 7.56,
-      "eval_loss": 1.1306627988815308,
-      "eval_runtime": 84.746,
-      "eval_samples_per_second": 214.122,
-      "eval_steps_per_second": 26.774,
-      "step": 52500
-    },
-    {
-      "epoch": 7.78,
-      "learning_rate": 4.8164146868250544e-06,
-      "loss": 1.2602,
-      "step": 54000
-    },
-    {
-      "epoch": 7.78,
-      "eval_loss": 1.1231367588043213,
-      "eval_runtime": 84.9153,
-      "eval_samples_per_second": 213.695,
-      "eval_steps_per_second": 26.721,
-      "step": 54000
-    },
-    {
-      "epoch": 7.99,
-      "learning_rate": 4.672426205903528e-06,
-      "loss": 1.2589,
-      "step": 55500
-    },
-    {
-      "epoch": 7.99,
-      "eval_loss": 1.116618275642395,
-      "eval_runtime": 85.1024,
-      "eval_samples_per_second": 213.226,
-      "eval_steps_per_second": 26.662,
-      "step": 55500
-    },
-    {
-      "epoch": 8.21,
-      "learning_rate": 4.5284377249820015e-06,
-      "loss": 1.2515,
-      "step": 57000
-    },
-    {
-      "epoch": 8.21,
-      "eval_loss": 1.1146851778030396,
-      "eval_runtime": 86.1091,
-      "eval_samples_per_second": 210.733,
-      "eval_steps_per_second": 26.35,
-      "step": 57000
-    },
-    {
-      "epoch": 8.42,
-      "learning_rate": 4.384449244060476e-06,
-      "loss": 1.2508,
-      "step": 58500
-    },
-    {
-      "epoch": 8.42,
-      "eval_loss": 1.104642391204834,
-      "eval_runtime": 86.8395,
-      "eval_samples_per_second": 208.96,
-      "eval_steps_per_second": 26.129,
-      "step": 58500
-    },
-    {
-      "epoch": 8.64,
-      "learning_rate": 4.240460763138949e-06,
-      "loss": 1.2483,
-      "step": 60000
-    },
-    {
-      "epoch": 8.64,
-      "eval_loss": 1.1124722957611084,
-      "eval_runtime": 92.3126,
-      "eval_samples_per_second": 196.571,
-      "eval_steps_per_second": 24.58,
-      "step": 60000
-    },
-    {
-      "epoch": 8.86,
-      "learning_rate": 4.096472282217423e-06,
-      "loss": 1.2439,
-      "step": 61500
-    },
-    {
-      "epoch": 8.86,
-      "eval_loss": 1.1115002632141113,
-      "eval_runtime": 85.7598,
-      "eval_samples_per_second": 211.591,
-      "eval_steps_per_second": 26.458,
-      "step": 61500
-    },
-    {
-      "epoch": 9.07,
-      "learning_rate": 3.952483801295896e-06,
-      "loss": 1.2393,
-      "step": 63000
-    },
-    {
-      "epoch": 9.07,
-      "eval_loss": 1.0992404222488403,
-      "eval_runtime": 85.8343,
-      "eval_samples_per_second": 211.407,
-      "eval_steps_per_second": 26.435,
-      "step": 63000
-    },
-    {
-      "epoch": 9.29,
-      "learning_rate": 3.8084953203743704e-06,
-      "loss": 1.2346,
-      "step": 64500
-    },
-    {
-      "epoch": 9.29,
-      "eval_loss": 1.087247610092163,
-      "eval_runtime": 85.1097,
-      "eval_samples_per_second": 213.207,
-      "eval_steps_per_second": 26.66,
-      "step": 64500
-    },
-    {
-      "epoch": 9.5,
-      "learning_rate": 3.664506839452844e-06,
-      "loss": 1.2319,
-      "step": 66000
-    },
-    {
-      "epoch": 9.5,
-      "eval_loss": 1.1074174642562866,
-      "eval_runtime": 94.0488,
-      "eval_samples_per_second": 192.942,
-      "eval_steps_per_second": 24.126,
-      "step": 66000
-    },
-    {
-      "epoch": 9.72,
-      "learning_rate": 3.520518358531318e-06,
-      "loss": 1.2275,
-      "step": 67500
-    },
-    {
-      "epoch": 9.72,
-      "eval_loss": 1.0995101928710938,
-      "eval_runtime": 86.1197,
-      "eval_samples_per_second": 210.707,
-      "eval_steps_per_second": 26.347,
-      "step": 67500
-    },
-    {
-      "epoch": 9.94,
-      "learning_rate": 3.3765298776097914e-06,
-      "loss": 1.2263,
-      "step": 69000
-    },
-    {
-      "epoch": 9.94,
-      "eval_loss": 1.079862117767334,
-      "eval_runtime": 86.1089,
-      "eval_samples_per_second": 210.733,
-      "eval_steps_per_second": 26.35,
-      "step": 69000
-    },
-    {
-      "epoch": 10.15,
-      "learning_rate": 3.2325413966882653e-06,
-      "loss": 1.2242,
-      "step": 70500
-    },
-    {
-      "epoch": 10.15,
-      "eval_loss": 1.090984582901001,
-      "eval_runtime": 89.7862,
-      "eval_samples_per_second": 202.102,
-      "eval_steps_per_second": 25.271,
-      "step": 70500
-    },
-    {
-      "epoch": 10.37,
-      "learning_rate": 3.088552915766739e-06,
-      "loss": 1.2189,
-      "step": 72000
-    },
-    {
-      "epoch": 10.37,
-      "eval_loss": 1.0839877128601074,
-      "eval_runtime": 84.5722,
-      "eval_samples_per_second": 214.562,
-      "eval_steps_per_second": 26.829,
-      "step": 72000
-    },
-    {
-      "epoch": 10.58,
-      "learning_rate": 2.9445644348452123e-06,
-      "loss": 1.2175,
-      "step": 73500
-    },
-    {
-      "epoch": 10.58,
-      "eval_loss": 1.0865727663040161,
-      "eval_runtime": 84.3078,
-      "eval_samples_per_second": 215.235,
-      "eval_steps_per_second": 26.913,
-      "step": 73500
-    },
-    {
-      "epoch": 10.8,
-      "learning_rate": 2.8005759539236867e-06,
-      "loss": 1.218,
-      "step": 75000
-    },
-    {
-      "epoch": 10.8,
-      "eval_loss": 1.0715888738632202,
-      "eval_runtime": 84.6924,
-      "eval_samples_per_second": 214.258,
-      "eval_steps_per_second": 26.791,
-      "step": 75000
-    },
-    {
-      "epoch": 11.02,
-      "learning_rate": 2.6565874730021602e-06,
-      "loss": 1.2159,
-      "step": 76500
-    },
-    {
-      "epoch": 11.02,
-      "eval_loss": 1.0899019241333008,
-      "eval_runtime": 85.705,
-      "eval_samples_per_second": 211.726,
-      "eval_steps_per_second": 26.475,
-      "step": 76500
-    },
-    {
-      "epoch": 11.23,
-      "learning_rate": 2.5125989920806338e-06,
-      "loss": 1.2153,
-      "step": 78000
-    },
-    {
-      "epoch": 11.23,
-      "eval_loss": 1.087203860282898,
-      "eval_runtime": 84.3785,
-      "eval_samples_per_second": 215.055,
-      "eval_steps_per_second": 26.891,
-      "step": 78000
-    },
-    {
-      "epoch": 11.45,
-      "learning_rate": 2.3686105111591073e-06,
-      "loss": 1.2129,
-      "step": 79500
-    },
-    {
-      "epoch": 11.45,
-      "eval_loss": 1.0858579874038696,
-      "eval_runtime": 95.1152,
-      "eval_samples_per_second": 190.779,
-      "eval_steps_per_second": 23.855,
-      "step": 79500
-    },
-    {
-      "epoch": 11.66,
-      "learning_rate": 2.2246220302375812e-06,
-      "loss": 1.2105,
-      "step": 81000
-    },
-    {
-      "epoch": 11.66,
-      "eval_loss": 1.0726720094680786,
-      "eval_runtime": 86.0753,
-      "eval_samples_per_second": 210.815,
-      "eval_steps_per_second": 26.361,
-      "step": 81000
-    },
-    {
-      "epoch": 11.88,
-      "learning_rate": 2.0806335493160548e-06,
-      "loss": 1.2081,
-      "step": 82500
-    },
-    {
-      "epoch": 11.88,
-      "eval_loss": 1.0759787559509277,
-      "eval_runtime": 85.7141,
-      "eval_samples_per_second": 211.704,
-      "eval_steps_per_second": 26.472,
-      "step": 82500
-    },
-    {
-      "epoch": 12.1,
-      "learning_rate": 1.9366450683945287e-06,
-      "loss": 1.2107,
-      "step": 84000
-    },
-    {
-      "epoch": 12.1,
-      "eval_loss": 1.0708467960357666,
-      "eval_runtime": 84.1645,
-      "eval_samples_per_second": 215.602,
-      "eval_steps_per_second": 26.959,
-      "step": 84000
-    },
-    {
-      "epoch": 12.31,
-      "learning_rate": 1.7926565874730022e-06,
-      "loss": 1.2033,
-      "step": 85500
-    },
-    {
-      "epoch": 12.31,
-      "eval_loss": 1.072534441947937,
-      "eval_runtime": 85.0352,
-      "eval_samples_per_second": 213.394,
-      "eval_steps_per_second": 26.683,
-      "step": 85500
-    },
-    {
-      "epoch": 12.53,
-      "learning_rate": 1.648668106551476e-06,
-      "loss": 1.2033,
-      "step": 87000
-    },
-    {
-      "epoch": 12.53,
-      "eval_loss": 1.0773580074310303,
-      "eval_runtime": 94.5251,
-      "eval_samples_per_second": 191.97,
-      "eval_steps_per_second": 24.004,
-      "step": 87000
-    },
-    {
-      "epoch": 12.74,
-      "learning_rate": 1.5046796256299497e-06,
-      "loss": 1.2052,
-      "step": 88500
-    },
-    {
-      "epoch": 12.74,
-      "eval_loss": 1.0760116577148438,
-      "eval_runtime": 84.4275,
-      "eval_samples_per_second": 214.93,
-      "eval_steps_per_second": 26.875,
-      "step": 88500
-    },
-    {
-      "epoch": 12.96,
-      "learning_rate": 1.3606911447084234e-06,
-      "loss": 1.2012,
-      "step": 90000
-    },
-    {
-      "epoch": 12.96,
-      "eval_loss": 1.0765339136123657,
-      "eval_runtime": 84.1883,
-      "eval_samples_per_second": 215.541,
-      "eval_steps_per_second": 26.951,
-      "step": 90000
-    },
-    {
-      "epoch": 13.17,
-      "learning_rate": 1.2167026637868972e-06,
-      "loss": 1.2011,
-      "step": 91500
-    },
-    {
-      "epoch": 13.17,
-      "eval_loss": 1.0625150203704834,
-      "eval_runtime": 84.0684,
-      "eval_samples_per_second": 215.848,
-      "eval_steps_per_second": 26.99,
-      "step": 91500
-    },
-    {
-      "epoch": 13.39,
-      "learning_rate": 1.072714182865371e-06,
-      "loss": 1.2015,
-      "step": 93000
-    },
-    {
-      "epoch": 13.39,
-      "eval_loss": 1.0583701133728027,
-      "eval_runtime": 84.3705,
-      "eval_samples_per_second": 215.075,
-      "eval_steps_per_second": 26.893,
-      "step": 93000
-    },
-    {
-      "epoch": 13.61,
-      "learning_rate": 9.287257019438446e-07,
-      "loss": 1.1986,
-      "step": 94500
-    },
-    {
-      "epoch": 13.61,
-      "eval_loss": 1.0719395875930786,
-      "eval_runtime": 84.3375,
-      "eval_samples_per_second": 215.159,
-      "eval_steps_per_second": 26.904,
-      "step": 94500
-    },
-    {
-      "epoch": 13.82,
-      "learning_rate": 7.847372210223183e-07,
-      "loss": 1.2012,
-      "step": 96000
-    },
-    {
-      "epoch": 13.82,
-      "eval_loss": 1.0656870603561401,
-      "eval_runtime": 84.0312,
-      "eval_samples_per_second": 215.944,
-      "eval_steps_per_second": 27.002,
-      "step": 96000
-    },
-    {
-      "epoch": 14.04,
-      "learning_rate": 6.40748740100792e-07,
-      "loss": 1.1983,
-      "step": 97500
-    },
-    {
-      "epoch": 14.04,
-      "eval_loss": 1.07068932056427,
-      "eval_runtime": 84.1653,
-      "eval_samples_per_second": 215.6,
-      "eval_steps_per_second": 26.959,
-      "step": 97500
-    },
-    {
-      "epoch": 14.25,
-      "learning_rate": 4.967602591792657e-07,
-      "loss": 1.1982,
-      "step": 99000
-    },
-    {
-      "epoch": 14.25,
-      "eval_loss": 1.0600839853286743,
-      "eval_runtime": 81.6267,
-      "eval_samples_per_second": 222.305,
-      "eval_steps_per_second": 27.797,
-      "step": 99000
-    },
-    {
-      "epoch": 14.47,
-      "learning_rate": 3.5277177825773936e-07,
-      "loss": 1.196,
-      "step": 100500
-    },
-    {
-      "epoch": 14.47,
-      "eval_loss": 1.055431842803955,
-      "eval_runtime": 84.0067,
-      "eval_samples_per_second": 216.007,
-      "eval_steps_per_second": 27.01,
-      "step": 100500
-    },
-    {
-      "epoch": 14.69,
-      "learning_rate": 2.0878329733621312e-07,
-      "loss": 1.1971,
-      "step": 102000
-    },
-    {
-      "epoch": 14.69,
-      "eval_loss": 1.0537773370742798,
-      "eval_runtime": 84.2231,
-      "eval_samples_per_second": 215.452,
-      "eval_steps_per_second": 26.94,
-      "step": 102000
-    },
-    {
-      "epoch": 14.9,
-      "learning_rate": 6.479481641468683e-08,
-      "loss": 1.1954,
-      "step": 103500
-    },
-    {
-      "epoch": 14.9,
-      "eval_loss": 1.0612763166427612,
-      "eval_runtime": 83.7888,
-      "eval_samples_per_second": 216.568,
-      "eval_steps_per_second": 27.08,
-      "step": 103500
-    }
-  ],
-  "max_steps": 104175,
-  "num_train_epochs": 15,
-  "total_flos": 1.5507603575881085e+18,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ef3b1845b37bbb078cf8ca8a9159180a7e5d40d1d9b5ce146385526c2fd6c125
-size 3451

last-checkpoint/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c293560287e12e9f8d6f988947bc53ce911420ce65ca91ba9813acb4185c488
 size 498863417

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2fc030a17cebe49f0bf7d940f707ed90b0474de6a2938d06804e0674cd69601
 size 498863417

runs/Feb06_10-35-49_turing/events.out.tfevents.1675676161.turing.964098.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a884945b4f71c57927acb7a14ee296e06185a165e27fa3bc7f979f8a5fcb8a39
-size 33857

 version https://git-lfs.github.com/spec/v1
+oid sha256:5de672299d86b9671a5799a15a47643c3945a326870280d8528dacd442cd3b2f
+size 34217