Upload best model checkpoint

Browse files

Files changed (13) hide show

accelerator.ckpt/dl_state_dict.bin +1 -1
accelerator.ckpt/dl_state_dict_1.bin +1 -1
accelerator.ckpt/dl_state_dict_2.bin +1 -1
accelerator.ckpt/dl_state_dict_3.bin +1 -1
accelerator.ckpt/dl_state_dict_4.bin +1 -1
accelerator.ckpt/dl_state_dict_6.bin +3 -0
accelerator.ckpt/model.safetensors +1 -1
accelerator.ckpt/optimizer.bin +1 -1
accelerator.ckpt/random_states_0.pkl +1 -1
metrics.json +45 -44
model.safetensors +1 -1
special_tokens_map.json +4 -28
train_configs.json +6 -5

accelerator.ckpt/dl_state_dict.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d2567898e7971a0b5670bf6a2737bc31f98cc950fb4130fe8d746054d9f1be3
 size 1489

 version https://git-lfs.github.com/spec/v1
+oid sha256:74bd30b4bae1eb20aaee33823339f45a6a332404c6418808b3f23c5506071988
 size 1489

accelerator.ckpt/dl_state_dict_1.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43919dbdf599450386720f61a25bad24d90eca951c25271e500df587378f1abf
 size 1501

 version https://git-lfs.github.com/spec/v1
+oid sha256:e30604dce73b0be0cfc1012424f910bc5c6af6763f54add923ee866b5a7be937
 size 1501

accelerator.ckpt/dl_state_dict_2.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d18bcd689dbb471d486cfc1fcae82e7fb210ffb37bd6172295a630d9fea40b9c
 size 1501

 version https://git-lfs.github.com/spec/v1
+oid sha256:458236410ffa4bd403bb211b02671bd554643c1cf3d549a07b34d1a5efd51235
 size 1501

accelerator.ckpt/dl_state_dict_3.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7071a9b7092627c45be3df7796c8387732b699abc24c431c8d8abe771d2f1cdb
 size 1501

 version https://git-lfs.github.com/spec/v1
+oid sha256:34219474ed2666dcbc6ee637b72049654546f48e581c4940f51b0578ab15f517
 size 1501

accelerator.ckpt/dl_state_dict_4.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c852d5f1a0b46f769dceae5ed0350bbebda4ae59f4d937518014c7ffd8c39db
 size 1501

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e2b52a00ea47e691fcf45a0f6c762bfa77c060859c21428b153f729e745e5d5
 size 1501

accelerator.ckpt/dl_state_dict_6.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:073d07e02f891414b4651a8be06b723ad811730888320cbcd88c7c842ec4f401
+size 1501

accelerator.ckpt/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72cb730d48a4ebb7c171131201d4ef436a363e29f3612a1bef070eb443d27540
 size 497774208

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1a6a08657ba030890c32eb5d5eabdd191ce627dd251c567d5a58c2297ee89f0
 size 497774208

accelerator.ckpt/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bf5be8ddaa821b05c94549412b54654e98f21c54385c65705aaa6a10cbd0ea6
 size 995606091

 version https://git-lfs.github.com/spec/v1
+oid sha256:041c6162961c5ab2c547b1ccc71d343eb0fc073c7bb9a6e03b0674df256a5f1e
 size 995606091

accelerator.ckpt/random_states_0.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c2096e5fe9ed800834e5062b80cf17dbcc2e3a970c7f22cab692e6840cd078a
 size 14757

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6f53c7e2cb24c2a4de9637a6da182f87bb6ed2f90a2d4e82bf9c880f0ad7e1a
 size 14757

metrics.json CHANGED Viewed

@@ -1,51 +1,52 @@
 {
-    "rl_info/A2G": -2.228810262749903e-05,
-    "rl_info/entropy": 3.103461980819702,
-    "rl_info/total_token": 3872.0,
-    "rl_info/advantage_b4_norm": -847.2278442382812,
-    "rl_info/advantage_after_gnorm": 0.2974321246147156,
     "rl_info/kl_w_ref": 0.0,
-    "train/rl_loss": 0.0019184639677405357,
-    "train/total_loss": 0.0019184639677405357,
-    "gigaword/rouge1": 0.017424667842673495,
-    "gigaword/rouge2": 0.002778778179571005,
-    "gigaword/rougeL": 0.01708351188579019,
-    "gigaword/rougeLsum": 0.01597830557868938,
-    "gigaword/bertscore_precision": 0.5688383205235005,
-    "gigaword/bertscore_recall": 0.6489311541616917,
-    "gigaword/bertscore_f1": 0.6054284919798374,
-    "cnndm/rouge1": 0.1657242795787633,
-    "cnndm/rouge2": 0.05944159953280759,
-    "cnndm/rougeL": 0.13357654072383415,
-    "cnndm/rougeLsum": 0.14685147194336262,
-    "cnndm/bertscore_precision": 0.6781402329603831,
-    "cnndm/bertscore_recall": 0.7525439510742823,
-    "cnndm/bertscore_f1": 0.7120969245831171,
-    "xsum/rouge1": 0.12156545540546186,
-    "xsum/rouge2": 0.01235304893841479,
-    "xsum/rougeL": 0.08560314826140131,
-    "xsum/rougeLsum": 0.09009432870268685,
-    "xsum/bertscore_precision": 0.6957823038101196,
-    "xsum/bertscore_recall": 0.7223540594180425,
-    "xsum/bertscore_f1": 0.7064366390307745,
-    "samsum/rouge1": 0.08285230780746375,
-    "samsum/rouge2": 0.021593044513516627,
-    "samsum/rougeL": 0.07018645398318014,
-    "samsum/rougeLsum": 0.057873523121751924,
-    "samsum/bertscore_precision": 0.6268573751052221,
-    "samsum/bertscore_recall": 0.6982430865367254,
-    "samsum/bertscore_f1": 0.6594596952199936,
-    "eval_agg/avg_all_rougef": 0.06881127912496056,
-    "eval_agg/avg_all_bertf": 0.6708554377034307,
-    "eval_agg/avg_all": 0.3698333584141956,
-    "num_rl_rollout": 10,
     "lm_epoch": 0,
     "rl_epoch": 0,
     "step": 400,
-    "total_data_token": 109047,
-    "total_rl_token": 1767730,
-    "total_lm_token": 0,
-    "total_token": 1767730,
     "completed_steps": 400,
-    "tune_objective": 0.8896403575001602
 }

 {
+    "rl_info/A2G": -0.006648760288953781,
+    "rl_info/entropy": 3.1247427463531494,
+    "rl_info/total_token": 1710.0,
+    "rl_info/advantage_b4_norm": -524.6408081054688,
+    "rl_info/advantage_after_gnorm": 1.010803461074829,
     "rl_info/kl_w_ref": 0.0,
+    "train/rl_loss": 0.6645635962486267,
+    "train/lm_loss": 6.4453349113464355,
+    "train/total_loss": 7.109898567199707,
+    "samsum/rouge1": 0.07018707411132723,
+    "samsum/rouge2": 0.015589278392518668,
+    "samsum/rougeL": 0.05694806401174433,
+    "samsum/rougeLsum": 0.05097452753746131,
+    "samsum/bertscore_precision": 0.6306706219911575,
+    "samsum/bertscore_recall": 0.7116748541593552,
+    "samsum/bertscore_f1": 0.6681777884562811,
+    "xsum/rouge1": 0.07577425197474222,
+    "xsum/rouge2": 0.015173697537833916,
+    "xsum/rougeL": 0.06791431460162027,
+    "xsum/rougeLsum": 0.06226845688932118,
+    "xsum/bertscore_precision": 0.685419961810112,
+    "xsum/bertscore_recall": 0.6998258779446284,
+    "xsum/bertscore_f1": 0.6894047458966573,
+    "gigaword/rouge1": 0.01673533809218624,
+    "gigaword/rouge2": 0.002688706117978111,
+    "gigaword/rougeL": 0.016448820149720444,
+    "gigaword/rougeLsum": 0.015425704010653109,
+    "gigaword/bertscore_precision": 0.5675247123837471,
+    "gigaword/bertscore_recall": 0.6473609921336174,
+    "gigaword/bertscore_f1": 0.6041367189586162,
+    "cnndm/rouge1": 0.12628644770575717,
+    "cnndm/rouge2": 0.04433825429137848,
+    "cnndm/rougeL": 0.09875398462560836,
+    "cnndm/rougeLsum": 0.10678645281701828,
+    "cnndm/bertscore_precision": 0.6603378802537918,
+    "cnndm/bertscore_recall": 0.7300801773866018,
+    "cnndm/bertscore_f1": 0.6927102555831274,
+    "eval_agg/avg_all_rougef": 0.052643335804179334,
+    "eval_agg/avg_all_bertf": 0.6636073772236705,
+    "eval_agg/avg_all": 0.3581253565139249,
+    "num_rl_rollout": 4,
     "lm_epoch": 0,
     "rl_epoch": 0,
     "step": 400,
+    "total_data_token": 668982,
+    "total_rl_token": 849448,
+    "total_lm_token": 625452,
+    "total_token": 1474900,
     "completed_steps": 400,
+    "tune_objective": 0.784820971275843
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72cb730d48a4ebb7c171131201d4ef436a363e29f3612a1bef070eb443d27540
 size 497774208

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1a6a08657ba030890c32eb5d5eabdd191ce627dd251c567d5a58c2297ee89f0
 size 497774208

special_tokens_map.json CHANGED Viewed

@@ -1,30 +1,6 @@
 {
-  "bos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
 }

train_configs.json CHANGED Viewed

@@ -2,7 +2,8 @@
     "dataset_name": "nbtpj/summ_ds_train",
     "dataset_config_name": null,
     "train_split_name": "merge36_cnndmsamsumxsum",
-    "text_col": "text",
     "freeze_role2": false,
     "only_train_role1": false,
     "model_name_or_path": "gpt2",
@@ -34,7 +35,7 @@
     "constraint_type": "kl",
     "clamp_update": false,
     "rl_w": 1.0,
-    "lm_w": 0.0,
     "n_generate": 4,
     "n_augment": 0,
     "gradient_checkpoint": false,
@@ -51,11 +52,11 @@
         "max_new_tokens": 250
     },
     "rollout_config": {
-        "accuracy_w": 60.07249475906205,
         "len_pen": 1.0,
-        "accuracy_w2": 1.2229065947034368,
         "len_pen2": 1.0,
-        "threshold": 0.006750312521595928,
         "similarity_fn": "rouge"
     },
     "ent_coef": 0.0001,

     "dataset_name": "nbtpj/summ_ds_train",
     "dataset_config_name": null,
     "train_split_name": "merge36_cnndmsamsumxsum",
+    "text_template": "{text}\nTL;DR: {summary}",
+    "label_col": "summary",
     "freeze_role2": false,
     "only_train_role1": false,
     "model_name_or_path": "gpt2",
     "constraint_type": "kl",
     "clamp_update": false,
     "rl_w": 1.0,
+    "lm_w": 1.0,
     "n_generate": 4,
     "n_augment": 0,
     "gradient_checkpoint": false,
         "max_new_tokens": 250
     },
     "rollout_config": {
+        "accuracy_w": 12.960656597279739,
         "len_pen": 1.0,
+        "accuracy_w2": 30.20289640158668,
         "len_pen2": 1.0,
+        "threshold": 0.09062263471261954,
         "similarity_fn": "rouge"
     },
     "ent_coef": 0.0001,