Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

config.json +32 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +107 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +113 -0
trainer_state.json +358 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "google/flan-t5-large",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.24.0",
+  "use_cache": true,
+  "vocab_size": 32128
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc44e581ba73719abd0a47486d51b3a686f7494717a46ba298fe7e08bf6f85b1
+size 6265534689

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24c54aa5e5e7497cf11879e2a24ec87cddaee8953fbc1fd725cf1ddce6eb40ec
+size 3132789733

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7c2ce990214420fe7049704ada0b1a328186ecc35d5ea760d6f073603ec600d
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec90150116dd5950bcc220ac4fdbf0fc692dde66fd1ed6ef8b2609f88f36a57c
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,113 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "name_or_path": "google/flan-t5-large",
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "special_tokens_map_file": "/home/younes_huggingface_co/.cache/huggingface/hub/models--google--t5-v1_1-large/snapshots/314bc112b191ec17b625ba81438dc73d6c23659d/special_tokens_map.json",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,358 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.2085561497326203,
+  "global_step": 18000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.9465240641711232e-05,
+      "loss": 0.249,
+      "step": 1000
+    },
+    {
+      "epoch": 0.18,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.14023509621620178,
+      "eval_rouge1": 0.3062,
+      "eval_rouge2": 0.2486,
+      "eval_rougeL": 0.3052,
+      "eval_rougeLsum": 0.3051,
+      "eval_runtime": 520.6566,
+      "eval_samples_per_second": 4.79,
+      "eval_steps_per_second": 1.198,
+      "step": 1000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 2.893048128342246e-05,
+      "loss": 0.1555,
+      "step": 2000
+    },
+    {
+      "epoch": 0.36,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.12116534262895584,
+      "eval_rouge1": 0.3159,
+      "eval_rouge2": 0.2601,
+      "eval_rougeL": 0.3151,
+      "eval_rougeLsum": 0.3151,
+      "eval_runtime": 520.8894,
+      "eval_samples_per_second": 4.788,
+      "eval_steps_per_second": 1.198,
+      "step": 2000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.8395721925133692e-05,
+      "loss": 0.1393,
+      "step": 3000
+    },
+    {
+      "epoch": 0.53,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.11260348558425903,
+      "eval_rouge1": 0.3198,
+      "eval_rouge2": 0.2646,
+      "eval_rougeL": 0.3195,
+      "eval_rougeLsum": 0.3193,
+      "eval_runtime": 521.5395,
+      "eval_samples_per_second": 4.782,
+      "eval_steps_per_second": 1.196,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 2.786096256684492e-05,
+      "loss": 0.1344,
+      "step": 4000
+    },
+    {
+      "epoch": 0.71,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.10910908132791519,
+      "eval_rouge1": 0.3158,
+      "eval_rouge2": 0.2609,
+      "eval_rougeL": 0.3153,
+      "eval_rougeLsum": 0.3152,
+      "eval_runtime": 521.3922,
+      "eval_samples_per_second": 4.783,
+      "eval_steps_per_second": 1.197,
+      "step": 4000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 2.732620320855615e-05,
+      "loss": 0.1238,
+      "step": 5000
+    },
+    {
+      "epoch": 0.89,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.10584986209869385,
+      "eval_rouge1": 0.3219,
+      "eval_rouge2": 0.2669,
+      "eval_rougeL": 0.3216,
+      "eval_rougeLsum": 0.3217,
+      "eval_runtime": 521.9752,
+      "eval_samples_per_second": 4.778,
+      "eval_steps_per_second": 1.195,
+      "step": 5000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.679144385026738e-05,
+      "loss": 0.1161,
+      "step": 6000
+    },
+    {
+      "epoch": 1.07,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.10303913056850433,
+      "eval_rouge1": 0.323,
+      "eval_rouge2": 0.2677,
+      "eval_rougeL": 0.3225,
+      "eval_rougeLsum": 0.3224,
+      "eval_runtime": 520.4378,
+      "eval_samples_per_second": 4.792,
+      "eval_steps_per_second": 1.199,
+      "step": 6000
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 2.625668449197861e-05,
+      "loss": 0.1068,
+      "step": 7000
+    },
+    {
+      "epoch": 1.25,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.10013392567634583,
+      "eval_rouge1": 0.3216,
+      "eval_rouge2": 0.2665,
+      "eval_rougeL": 0.3212,
+      "eval_rougeLsum": 0.3213,
+      "eval_runtime": 521.441,
+      "eval_samples_per_second": 4.783,
+      "eval_steps_per_second": 1.197,
+      "step": 7000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 2.572192513368984e-05,
+      "loss": 0.1084,
+      "step": 8000
+    },
+    {
+      "epoch": 1.43,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09854520857334137,
+      "eval_rouge1": 0.3235,
+      "eval_rouge2": 0.2687,
+      "eval_rougeL": 0.323,
+      "eval_rougeLsum": 0.3229,
+      "eval_runtime": 523.6333,
+      "eval_samples_per_second": 4.763,
+      "eval_steps_per_second": 1.192,
+      "step": 8000
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.518716577540107e-05,
+      "loss": 0.1015,
+      "step": 9000
+    },
+    {
+      "epoch": 1.6,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.0971846953034401,
+      "eval_rouge1": 0.3239,
+      "eval_rouge2": 0.2692,
+      "eval_rougeL": 0.3235,
+      "eval_rougeLsum": 0.3236,
+      "eval_runtime": 530.9604,
+      "eval_samples_per_second": 4.697,
+      "eval_steps_per_second": 1.175,
+      "step": 9000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 2.4652406417112303e-05,
+      "loss": 0.1026,
+      "step": 10000
+    },
+    {
+      "epoch": 1.78,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09422960877418518,
+      "eval_rouge1": 0.3253,
+      "eval_rouge2": 0.2701,
+      "eval_rougeL": 0.3249,
+      "eval_rougeLsum": 0.3248,
+      "eval_runtime": 520.5989,
+      "eval_samples_per_second": 4.791,
+      "eval_steps_per_second": 1.199,
+      "step": 10000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 2.411764705882353e-05,
+      "loss": 0.1019,
+      "step": 11000
+    },
+    {
+      "epoch": 1.96,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09265820682048798,
+      "eval_rouge1": 0.3261,
+      "eval_rouge2": 0.2715,
+      "eval_rougeL": 0.3258,
+      "eval_rougeLsum": 0.3258,
+      "eval_runtime": 521.7855,
+      "eval_samples_per_second": 4.78,
+      "eval_steps_per_second": 1.196,
+      "step": 11000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.3582887700534762e-05,
+      "loss": 0.0928,
+      "step": 12000
+    },
+    {
+      "epoch": 2.14,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09256169199943542,
+      "eval_rouge1": 0.3262,
+      "eval_rouge2": 0.2716,
+      "eval_rougeL": 0.326,
+      "eval_rougeLsum": 0.3259,
+      "eval_runtime": 521.8224,
+      "eval_samples_per_second": 4.779,
+      "eval_steps_per_second": 1.196,
+      "step": 12000
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 2.304812834224599e-05,
+      "loss": 0.0879,
+      "step": 13000
+    },
+    {
+      "epoch": 2.32,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09265527129173279,
+      "eval_rouge1": 0.3267,
+      "eval_rouge2": 0.2722,
+      "eval_rougeL": 0.3264,
+      "eval_rougeLsum": 0.3264,
+      "eval_runtime": 521.1332,
+      "eval_samples_per_second": 4.786,
+      "eval_steps_per_second": 1.197,
+      "step": 13000
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 2.2513368983957222e-05,
+      "loss": 0.0885,
+      "step": 14000
+    },
+    {
+      "epoch": 2.5,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09181583672761917,
+      "eval_rouge1": 0.3269,
+      "eval_rouge2": 0.2727,
+      "eval_rougeL": 0.3266,
+      "eval_rougeLsum": 0.3265,
+      "eval_runtime": 521.7097,
+      "eval_samples_per_second": 4.78,
+      "eval_steps_per_second": 1.196,
+      "step": 14000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 2.197860962566845e-05,
+      "loss": 0.088,
+      "step": 15000
+    },
+    {
+      "epoch": 2.67,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09152571111917496,
+      "eval_rouge1": 0.3249,
+      "eval_rouge2": 0.2702,
+      "eval_rougeL": 0.3245,
+      "eval_rougeLsum": 0.3245,
+      "eval_runtime": 523.0652,
+      "eval_samples_per_second": 4.768,
+      "eval_steps_per_second": 1.193,
+      "step": 15000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 2.144385026737968e-05,
+      "loss": 0.0879,
+      "step": 16000
+    },
+    {
+      "epoch": 2.85,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09004141390323639,
+      "eval_rouge1": 0.3267,
+      "eval_rouge2": 0.2723,
+      "eval_rougeL": 0.3265,
+      "eval_rougeLsum": 0.3264,
+      "eval_runtime": 522.6782,
+      "eval_samples_per_second": 4.772,
+      "eval_steps_per_second": 1.194,
+      "step": 16000
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 2.090909090909091e-05,
+      "loss": 0.0847,
+      "step": 17000
+    },
+    {
+      "epoch": 3.03,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.08994261920452118,
+      "eval_rouge1": 0.325,
+      "eval_rouge2": 0.2707,
+      "eval_rougeL": 0.3247,
+      "eval_rougeLsum": 0.3246,
+      "eval_runtime": 521.2871,
+      "eval_samples_per_second": 4.784,
+      "eval_steps_per_second": 1.197,
+      "step": 17000
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 2.037433155080214e-05,
+      "loss": 0.0793,
+      "step": 18000
+    },
+    {
+      "epoch": 3.21,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.09187126904726028,
+      "eval_rouge1": 0.3276,
+      "eval_rouge2": 0.273,
+      "eval_rougeL": 0.3273,
+      "eval_rougeLsum": 0.3273,
+      "eval_runtime": 522.4505,
+      "eval_samples_per_second": 4.774,
+      "eval_steps_per_second": 1.194,
+      "step": 18000
+    }
+  ],
+  "max_steps": 56100,
+  "num_train_epochs": 10,
+  "total_flos": 3.915075106706227e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74d2710f5bc9d552f22382ee95dc03eef906aa96cb3bdb69932e8ff7b0a634d8
+size 3567