Upload 12 files

Browse files

Files changed (12) hide show

checkpoint-2200/config.json +36 -0
checkpoint-2200/dict.txt +0 -0
checkpoint-2200/generation_config.json +12 -0
checkpoint-2200/model.safetensors +3 -0
checkpoint-2200/optimizer.pt +3 -0
checkpoint-2200/rng_state.pth +3 -0
checkpoint-2200/scheduler.pt +3 -0
checkpoint-2200/sentencepiece.bpe.model +3 -0
checkpoint-2200/special_tokens_map.json +15 -0
checkpoint-2200/tokenizer_config.json +56 -0
checkpoint-2200/trainer_state.json +606 -0
checkpoint-2200/training_args.bin +3 -0

checkpoint-2200/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "MBartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_position_embeddings": 1024,
+  "model_type": "mbart",
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "tokenizer_class": "BartphoTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "use_cache": true,
+  "vocab_size": 40030
+}

checkpoint-2200/dict.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2200/generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "forced_eos_token_id": 2,
+  "max_new_tokens": 512,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 3,
+  "pad_token_id": 1,
+  "transformers_version": "4.50.3"
+}

checkpoint-2200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:407cb4d24c3388a40006e8c4e906c936145d3e185908a5b0f2a3c659e4bac234
+size 526442440

checkpoint-2200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fe3502d57c5dd8588695fa7bbb86e3254d40466df00c7ec184d7d2116052634
+size 1052723962

checkpoint-2200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d72cbeaa104c4552fabc8029fd59bb31035a2985e357f4d21c5a0e19104fa3f
+size 14244

checkpoint-2200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e46574a903e92238f9db1d119c9ed61c27f8bc44447e1e3154f9accc839c0d96
+size 1064

checkpoint-2200/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

checkpoint-2200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-2200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "40029": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "BartphoTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-2200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,606 @@

+{
+  "best_global_step": 600,
+  "best_metric": 72.28,
+  "best_model_checkpoint": "/content/drive/MyDrive/Summarization/checkpoints/cur_cp/checkpoint-600",
+  "epoch": 8.835341365461847,
+  "eval_steps": 100,
+  "global_step": 2200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.20080321285140562,
+      "grad_norm": 10.723053932189941,
+      "learning_rate": 4.995027130745321e-05,
+      "loss": 0.8179,
+      "step": 50
+    },
+    {
+      "epoch": 0.40160642570281124,
+      "grad_norm": 13.537382125854492,
+      "learning_rate": 4.980128306524183e-05,
+      "loss": 0.7085,
+      "step": 100
+    },
+    {
+      "epoch": 0.40160642570281124,
+      "eval_f1": 70.31,
+      "eval_gen_len": 42.92338709677419,
+      "eval_loss": 0.6963455080986023,
+      "eval_p": 74.73,
+      "eval_r": 70.54,
+      "eval_runtime": 46.3873,
+      "eval_samples_per_second": 10.693,
+      "eval_steps_per_second": 0.668,
+      "step": 100
+    },
+    {
+      "epoch": 0.6024096385542169,
+      "grad_norm": 3.749103307723999,
+      "learning_rate": 4.9553627992605066e-05,
+      "loss": 0.6667,
+      "step": 150
+    },
+    {
+      "epoch": 0.8032128514056225,
+      "grad_norm": 7.421478748321533,
+      "learning_rate": 4.9208291334580104e-05,
+      "loss": 0.5991,
+      "step": 200
+    },
+    {
+      "epoch": 0.8032128514056225,
+      "eval_f1": 68.09,
+      "eval_gen_len": 40.17741935483871,
+      "eval_loss": 0.7214160561561584,
+      "eval_p": 75.9,
+      "eval_r": 66.2,
+      "eval_runtime": 45.6263,
+      "eval_samples_per_second": 10.871,
+      "eval_steps_per_second": 0.679,
+      "step": 200
+    },
+    {
+      "epoch": 1.0040160642570282,
+      "grad_norm": 9.242626190185547,
+      "learning_rate": 4.87666469424063e-05,
+      "loss": 0.752,
+      "step": 250
+    },
+    {
+      "epoch": 1.2048192771084336,
+      "grad_norm": 4.659054756164551,
+      "learning_rate": 4.8230451807939135e-05,
+      "loss": 0.4472,
+      "step": 300
+    },
+    {
+      "epoch": 1.2048192771084336,
+      "eval_f1": 67.64,
+      "eval_gen_len": 39.01411290322581,
+      "eval_loss": 0.7062053084373474,
+      "eval_p": 75.6,
+      "eval_r": 65.19,
+      "eval_runtime": 42.4185,
+      "eval_samples_per_second": 11.693,
+      "eval_steps_per_second": 0.731,
+      "step": 300
+    },
+    {
+      "epoch": 1.4056224899598393,
+      "grad_norm": 11.880289077758789,
+      "learning_rate": 4.760183907381757e-05,
+      "loss": 0.5069,
+      "step": 350
+    },
+    {
+      "epoch": 1.606425702811245,
+      "grad_norm": 9.056407928466797,
+      "learning_rate": 4.6883309547192476e-05,
+      "loss": 0.519,
+      "step": 400
+    },
+    {
+      "epoch": 1.606425702811245,
+      "eval_f1": 71.67,
+      "eval_gen_len": 46.93346774193548,
+      "eval_loss": 0.7584968209266663,
+      "eval_p": 73.71,
+      "eval_r": 74.1,
+      "eval_runtime": 55.9551,
+      "eval_samples_per_second": 8.864,
+      "eval_steps_per_second": 0.554,
+      "step": 400
+    },
+    {
+      "epoch": 1.8072289156626506,
+      "grad_norm": 7.793162822723389,
+      "learning_rate": 4.607772175077711e-05,
+      "loss": 0.4939,
+      "step": 450
+    },
+    {
+      "epoch": 2.0080321285140563,
+      "grad_norm": 7.212235927581787,
+      "learning_rate": 4.518828055079925e-05,
+      "loss": 0.4646,
+      "step": 500
+    },
+    {
+      "epoch": 2.0080321285140563,
+      "eval_f1": 69.01,
+      "eval_gen_len": 42.16129032258065,
+      "eval_loss": 0.7297435998916626,
+      "eval_p": 73.93,
+      "eval_r": 68.57,
+      "eval_runtime": 48.8895,
+      "eval_samples_per_second": 10.145,
+      "eval_steps_per_second": 0.634,
+      "step": 500
+    },
+    {
+      "epoch": 2.208835341365462,
+      "grad_norm": 5.176413536071777,
+      "learning_rate": 4.421852440709666e-05,
+      "loss": 0.2646,
+      "step": 550
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "grad_norm": 19.735258102416992,
+      "learning_rate": 4.3172311296078595e-05,
+      "loss": 0.3214,
+      "step": 600
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "eval_f1": 72.28,
+      "eval_gen_len": 46.564516129032256,
+      "eval_loss": 0.788872241973877,
+      "eval_p": 74.17,
+      "eval_r": 74.3,
+      "eval_runtime": 54.3998,
+      "eval_samples_per_second": 9.118,
+      "eval_steps_per_second": 0.57,
+      "step": 600
+    },
+    {
+      "epoch": 2.610441767068273,
+      "grad_norm": 9.665975570678711,
+      "learning_rate": 4.205380336255594e-05,
+      "loss": 0.4161,
+      "step": 650
+    },
+    {
+      "epoch": 2.8112449799196786,
+      "grad_norm": 8.65356731414795,
+      "learning_rate": 4.08674503614997e-05,
+      "loss": 0.2973,
+      "step": 700
+    },
+    {
+      "epoch": 2.8112449799196786,
+      "eval_f1": 68.05,
+      "eval_gen_len": 41.256048387096776,
+      "eval_loss": 0.770168662071228,
+      "eval_p": 74.23,
+      "eval_r": 66.93,
+      "eval_runtime": 44.2971,
+      "eval_samples_per_second": 11.197,
+      "eval_steps_per_second": 0.7,
+      "step": 700
+    },
+    {
+      "epoch": 3.0120481927710845,
+      "grad_norm": 4.7805867195129395,
+      "learning_rate": 3.961797195560118e-05,
+      "loss": 0.3477,
+      "step": 750
+    },
+    {
+      "epoch": 3.21285140562249,
+      "grad_norm": 3.864029884338379,
+      "learning_rate": 3.8310338939059644e-05,
+      "loss": 0.2447,
+      "step": 800
+    },
+    {
+      "epoch": 3.21285140562249,
+      "eval_f1": 69.3,
+      "eval_gen_len": 42.681451612903224,
+      "eval_loss": 0.8243445158004761,
+      "eval_p": 74.09,
+      "eval_r": 68.98,
+      "eval_runtime": 47.774,
+      "eval_samples_per_second": 10.382,
+      "eval_steps_per_second": 0.649,
+      "step": 800
+    },
+    {
+      "epoch": 3.4136546184738954,
+      "grad_norm": 1.5391823053359985,
+      "learning_rate": 3.694975346229458e-05,
+      "loss": 0.2272,
+      "step": 850
+    },
+    {
+      "epoch": 3.6144578313253013,
+      "grad_norm": 12.502788543701172,
+      "learning_rate": 3.55416283362546e-05,
+      "loss": 0.2136,
+      "step": 900
+    },
+    {
+      "epoch": 3.6144578313253013,
+      "eval_f1": 72.18,
+      "eval_gen_len": 45.850806451612904,
+      "eval_loss": 0.8359085917472839,
+      "eval_p": 74.24,
+      "eval_r": 73.77,
+      "eval_runtime": 51.4887,
+      "eval_samples_per_second": 9.633,
+      "eval_steps_per_second": 0.602,
+      "step": 900
+    },
+    {
+      "epoch": 3.8152610441767068,
+      "grad_norm": 6.718369960784912,
+      "learning_rate": 3.409156549865654e-05,
+      "loss": 0.1959,
+      "step": 950
+    },
+    {
+      "epoch": 4.016064257028113,
+      "grad_norm": 32.431217193603516,
+      "learning_rate": 3.260533372782234e-05,
+      "loss": 0.2571,
+      "step": 1000
+    },
+    {
+      "epoch": 4.016064257028113,
+      "eval_f1": 69.38,
+      "eval_gen_len": 42.243951612903224,
+      "eval_loss": 0.8177807927131653,
+      "eval_p": 73.87,
+      "eval_r": 69.22,
+      "eval_runtime": 48.2955,
+      "eval_samples_per_second": 10.27,
+      "eval_steps_per_second": 0.642,
+      "step": 1000
+    },
+    {
+      "epoch": 4.216867469879518,
+      "grad_norm": 5.5347065925598145,
+      "learning_rate": 3.10888456927748e-05,
+      "loss": 0.1427,
+      "step": 1050
+    },
+    {
+      "epoch": 4.417670682730924,
+      "grad_norm": 4.728146076202393,
+      "learning_rate": 2.9548134430893604e-05,
+      "loss": 0.1356,
+      "step": 1100
+    },
+    {
+      "epoch": 4.417670682730924,
+      "eval_f1": 70.43,
+      "eval_gen_len": 44.792338709677416,
+      "eval_loss": 0.8745766878128052,
+      "eval_p": 73.6,
+      "eval_r": 71.48,
+      "eval_runtime": 49.7707,
+      "eval_samples_per_second": 9.966,
+      "eval_steps_per_second": 0.623,
+      "step": 1100
+    },
+    {
+      "epoch": 4.618473895582329,
+      "grad_norm": 4.265488147735596,
+      "learning_rate": 2.7989329346710375e-05,
+      "loss": 0.1644,
+      "step": 1150
+    },
+    {
+      "epoch": 4.8192771084337345,
+      "grad_norm": 5.412672996520996,
+      "learning_rate": 2.6418631827326857e-05,
+      "loss": 0.1564,
+      "step": 1200
+    },
+    {
+      "epoch": 4.8192771084337345,
+      "eval_f1": 70.56,
+      "eval_gen_len": 45.20967741935484,
+      "eval_loss": 0.8563244342803955,
+      "eval_p": 73.64,
+      "eval_r": 71.76,
+      "eval_runtime": 50.2355,
+      "eval_samples_per_second": 9.873,
+      "eval_steps_per_second": 0.617,
+      "step": 1200
+    },
+    {
+      "epoch": 5.020080321285141,
+      "grad_norm": 5.465022087097168,
+      "learning_rate": 2.484229057146507e-05,
+      "loss": 0.1396,
+      "step": 1250
+    },
+    {
+      "epoch": 5.220883534136546,
+      "grad_norm": 4.947805881500244,
+      "learning_rate": 2.3266576730297956e-05,
+      "loss": 0.0937,
+      "step": 1300
+    },
+    {
+      "epoch": 5.220883534136546,
+      "eval_f1": 70.17,
+      "eval_gen_len": 42.51411290322581,
+      "eval_loss": 0.8945086002349854,
+      "eval_p": 74.73,
+      "eval_r": 69.95,
+      "eval_runtime": 47.3409,
+      "eval_samples_per_second": 10.477,
+      "eval_steps_per_second": 0.655,
+      "step": 1300
+    },
+    {
+      "epoch": 5.421686746987952,
+      "grad_norm": 2.938572883605957,
+      "learning_rate": 2.1697758958957448e-05,
+      "loss": 0.0842,
+      "step": 1350
+    },
+    {
+      "epoch": 5.622489959839357,
+      "grad_norm": 7.102436542510986,
+      "learning_rate": 2.014207847797256e-05,
+      "loss": 0.1031,
+      "step": 1400
+    },
+    {
+      "epoch": 5.622489959839357,
+      "eval_f1": 71.86,
+      "eval_gen_len": 47.534274193548384,
+      "eval_loss": 0.8877253532409668,
+      "eval_p": 73.18,
+      "eval_r": 74.71,
+      "eval_runtime": 53.5518,
+      "eval_samples_per_second": 9.262,
+      "eval_steps_per_second": 0.579,
+      "step": 1400
+    },
+    {
+      "epoch": 5.823293172690763,
+      "grad_norm": 2.2575900554656982,
+      "learning_rate": 1.8605724243850502e-05,
+      "loss": 0.1126,
+      "step": 1450
+    },
+    {
+      "epoch": 6.024096385542169,
+      "grad_norm": 3.7854058742523193,
+      "learning_rate": 1.70948083275794e-05,
+      "loss": 0.095,
+      "step": 1500
+    },
+    {
+      "epoch": 6.024096385542169,
+      "eval_f1": 70.87,
+      "eval_gen_len": 45.21774193548387,
+      "eval_loss": 0.9038512706756592,
+      "eval_p": 73.83,
+      "eval_r": 72.16,
+      "eval_runtime": 52.1132,
+      "eval_samples_per_second": 9.518,
+      "eval_steps_per_second": 0.595,
+      "step": 1500
+    },
+    {
+      "epoch": 6.224899598393574,
+      "grad_norm": 3.2422773838043213,
+      "learning_rate": 1.561534159900441e-05,
+      "loss": 0.0689,
+      "step": 1550
+    },
+    {
+      "epoch": 6.42570281124498,
+      "grad_norm": 6.3022990226745605,
+      "learning_rate": 1.4173209813811788e-05,
+      "loss": 0.0764,
+      "step": 1600
+    },
+    {
+      "epoch": 6.42570281124498,
+      "eval_f1": 71.12,
+      "eval_gen_len": 46.310483870967744,
+      "eval_loss": 0.9024052619934082,
+      "eval_p": 73.55,
+      "eval_r": 73.2,
+      "eval_runtime": 51.8511,
+      "eval_samples_per_second": 9.566,
+      "eval_steps_per_second": 0.598,
+      "step": 1600
+    },
+    {
+      "epoch": 6.626506024096385,
+      "grad_norm": 3.3996074199676514,
+      "learning_rate": 1.277415019825417e-05,
+      "loss": 0.0639,
+      "step": 1650
+    },
+    {
+      "epoch": 6.827309236947791,
+      "grad_norm": 1.7633498907089233,
+      "learning_rate": 1.1423728624769695e-05,
+      "loss": 0.0499,
+      "step": 1700
+    },
+    {
+      "epoch": 6.827309236947791,
+      "eval_f1": 71.1,
+      "eval_gen_len": 45.52620967741935,
+      "eval_loss": 0.9023270010948181,
+      "eval_p": 73.73,
+      "eval_r": 72.63,
+      "eval_runtime": 48.5153,
+      "eval_samples_per_second": 10.224,
+      "eval_steps_per_second": 0.639,
+      "step": 1700
+    },
+    {
+      "epoch": 7.028112449799197,
+      "grad_norm": 0.14504443109035492,
+      "learning_rate": 1.0127317469297277e-05,
+      "loss": 0.0707,
+      "step": 1750
+    },
+    {
+      "epoch": 7.228915662650603,
+      "grad_norm": 0.9350752830505371,
+      "learning_rate": 8.890074238378074e-06,
+      "loss": 0.0422,
+      "step": 1800
+    },
+    {
+      "epoch": 7.228915662650603,
+      "eval_f1": 71.74,
+      "eval_gen_len": 46.16935483870968,
+      "eval_loss": 0.9106847643852234,
+      "eval_p": 73.84,
+      "eval_r": 73.54,
+      "eval_runtime": 53.7841,
+      "eval_samples_per_second": 9.222,
+      "eval_steps_per_second": 0.576,
+      "step": 1800
+    },
+    {
+      "epoch": 7.429718875502008,
+      "grad_norm": 2.7118020057678223,
+      "learning_rate": 7.71692105107098e-06,
+      "loss": 0.0442,
+      "step": 1850
+    },
+    {
+      "epoch": 7.6305220883534135,
+      "grad_norm": 3.540323495864868,
+      "learning_rate": 6.612525057308949e-06,
+      "loss": 0.0469,
+      "step": 1900
+    },
+    {
+      "epoch": 7.6305220883534135,
+      "eval_f1": 71.51,
+      "eval_gen_len": 45.40120967741935,
+      "eval_loss": 0.9106153845787048,
+      "eval_p": 74.15,
+      "eval_r": 73.09,
+      "eval_runtime": 51.3332,
+      "eval_samples_per_second": 9.662,
+      "eval_steps_per_second": 0.604,
+      "step": 1900
+    },
+    {
+      "epoch": 7.831325301204819,
+      "grad_norm": 1.7734179496765137,
+      "learning_rate": 5.581279870597867e-06,
+      "loss": 0.0368,
+      "step": 1950
+    },
+    {
+      "epoch": 8.032128514056225,
+      "grad_norm": 2.24417781829834,
+      "learning_rate": 4.627288088924156e-06,
+      "loss": 0.0379,
+      "step": 2000
+    },
+    {
+      "epoch": 8.032128514056225,
+      "eval_f1": 70.84,
+      "eval_gen_len": 45.127016129032256,
+      "eval_loss": 0.9157423973083496,
+      "eval_p": 73.79,
+      "eval_r": 72.15,
+      "eval_runtime": 51.0735,
+      "eval_samples_per_second": 9.711,
+      "eval_steps_per_second": 0.607,
+      "step": 2000
+    },
+    {
+      "epoch": 8.23293172690763,
+      "grad_norm": 1.954770565032959,
+      "learning_rate": 3.754344973408064e-06,
+      "loss": 0.0335,
+      "step": 2050
+    },
+    {
+      "epoch": 8.433734939759036,
+      "grad_norm": 1.5767686367034912,
+      "learning_rate": 2.9659233496337786e-06,
+      "loss": 0.0301,
+      "step": 2100
+    },
+    {
+      "epoch": 8.433734939759036,
+      "eval_f1": 71.39,
+      "eval_gen_len": 46.381048387096776,
+      "eval_loss": 0.9240424633026123,
+      "eval_p": 73.77,
+      "eval_r": 73.37,
+      "eval_runtime": 53.2399,
+      "eval_samples_per_second": 9.316,
+      "eval_steps_per_second": 0.582,
+      "step": 2100
+    },
+    {
+      "epoch": 8.634538152610443,
+      "grad_norm": 0.2601850628852844,
+      "learning_rate": 2.265159791723373e-06,
+      "loss": 0.0358,
+      "step": 2150
+    },
+    {
+      "epoch": 8.835341365461847,
+      "grad_norm": 5.757479667663574,
+      "learning_rate": 1.6548421441183875e-06,
+      "loss": 0.0254,
+      "step": 2200
+    },
+    {
+      "epoch": 8.835341365461847,
+      "eval_f1": 71.82,
+      "eval_gen_len": 46.47782258064516,
+      "eval_loss": 0.9292237162590027,
+      "eval_p": 73.8,
+      "eval_r": 74.04,
+      "eval_runtime": 54.2877,
+      "eval_samples_per_second": 9.137,
+      "eval_steps_per_second": 0.571,
+      "step": 2200
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2490,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 490953080733696.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6394e6b1fa4ef7d935e2f7613f4253c064d2fa097794737e407c70b78eea9756
+size 5560