Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

checkpoint-12870/config.json +71 -0
checkpoint-12870/generation_config.json +7 -0
checkpoint-12870/model.safetensors +3 -0
checkpoint-12870/optimizer.pt +3 -0
checkpoint-12870/rng_state.pth +3 -0
checkpoint-12870/scheduler.pt +3 -0
checkpoint-12870/trainer_state.json +232 -0
checkpoint-12870/training_args.bin +3 -0
config.json +71 -0
events.out.tfevents.1751331117.gra5 +3 -0
generation_config.json +7 -0
model.safetensors +3 -0
results.json +17 -0
training_args.bin +3 -0

checkpoint-12870/config.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "_name_or_path": "/home/mootez/projects/def-tusharma/mootez/local_models/codet5-base",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "bos_token_id": 1,
+  "classifier_dropout": 0.0,
+  "d_ff": 3072,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 2,
+  "feed_forward_proj": "relu",
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-06,
+  "merge_layer_index": -1,
+  "merger_type": "mean",
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.2",
+  "use_cache": true,
+  "vocab_size": 32100
+}

checkpoint-12870/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.48.2"
+}

checkpoint-12870/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2155bd898f7d682310830260ee9d5dfb795a85286cc7ba4135bed4e3f31aa56
+size 891558696

checkpoint-12870/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ac1171480d15881a1aff3d38f7cd80ef7c359e505bc4e0f77454729ea37a019
+size 1783272762

checkpoint-12870/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:899c571ef24564b40fa7bd65e06f9ee81ad1948c7c048d5fe66a96148402b954
+size 14244

checkpoint-12870/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce1db8d949a216affb89182da9c2ef3ba19d289845b5e378bf1256011fe425ed
+size 1064

checkpoint-12870/trainer_state.json ADDED Viewed

	@@ -0,0 +1,232 @@

+{
+  "best_metric": 0.1823442196189086,
+  "best_model_checkpoint": "./logs/mean_codet5-base_L-1_codetrans_123456_src_java_tgt_c_sharp/checkpoint-12870",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 12870,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3885003885003885,
+      "grad_norm": 10.190895080566406,
+      "learning_rate": 7.77302759424796e-06,
+      "loss": 3.079,
+      "step": 1000
+    },
+    {
+      "epoch": 0.777000777000777,
+      "grad_norm": 5.316028594970703,
+      "learning_rate": 1.554605518849592e-05,
+      "loss": 0.7638,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.17401372208421842,
+      "eval_brevity_penalty": 0.20008681540190465,
+      "eval_length_ratio": 0.3832880390295013,
+      "eval_loss": 0.4109351634979248,
+      "eval_precision": [
+        0.9353536647872885,
+        0.8807555315704263,
+        0.8465281717802121,
+        0.8203278399188122
+      ],
+      "eval_reference_length": 122164,
+      "eval_rouge1": 0.5385625631823885,
+      "eval_rouge2": 0.4372431207490999,
+      "eval_rougeL": 0.5361516538904678,
+      "eval_rougeLsum": 0.5358346714690086,
+      "eval_runtime": 18.8231,
+      "eval_samples_per_second": 26.51,
+      "eval_steps_per_second": 1.7,
+      "eval_translation_length": 46824,
+      "step": 2574
+    },
+    {
+      "epoch": 1.1655011655011656,
+      "grad_norm": 4.63295841217041,
+      "learning_rate": 1.9631372210471794e-05,
+      "loss": 0.5192,
+      "step": 3000
+    },
+    {
+      "epoch": 1.554001554001554,
+      "grad_norm": 2.102656841278076,
+      "learning_rate": 1.8768075279492384e-05,
+      "loss": 0.3999,
+      "step": 4000
+    },
+    {
+      "epoch": 1.9425019425019425,
+      "grad_norm": 3.7660560607910156,
+      "learning_rate": 1.790477834851297e-05,
+      "loss": 0.3627,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.17799700881224312,
+      "eval_brevity_penalty": 0.19571671648502198,
+      "eval_length_ratio": 0.3800710520284208,
+      "eval_loss": 0.2773875892162323,
+      "eval_precision": [
+        0.9528547737502961,
+        0.917073064530175,
+        0.8938436819052231,
+        0.875884630791828
+      ],
+      "eval_reference_length": 122164,
+      "eval_rouge1": 0.5692662083983997,
+      "eval_rouge2": 0.49014124678390214,
+      "eval_rougeL": 0.5669068816793206,
+      "eval_rougeLsum": 0.5667463510179136,
+      "eval_runtime": 18.779,
+      "eval_samples_per_second": 26.572,
+      "eval_steps_per_second": 1.704,
+      "eval_translation_length": 46431,
+      "step": 5148
+    },
+    {
+      "epoch": 2.331002331002331,
+      "grad_norm": 4.401015758514404,
+      "learning_rate": 1.7041481417533562e-05,
+      "loss": 0.2785,
+      "step": 6000
+    },
+    {
+      "epoch": 2.7195027195027195,
+      "grad_norm": 4.332099437713623,
+      "learning_rate": 1.6178184486554153e-05,
+      "loss": 0.2675,
+      "step": 7000
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.1808116458772577,
+      "eval_brevity_penalty": 0.19861645424842622,
+      "eval_length_ratio": 0.38220752431158117,
+      "eval_loss": 0.23520636558532715,
+      "eval_precision": [
+        0.9478925726034438,
+        0.9158530513281233,
+        0.8966822777607564,
+        0.8823099900431464
+      ],
+      "eval_reference_length": 122164,
+      "eval_rouge1": 0.5753014504995342,
+      "eval_rouge2": 0.5030760004413073,
+      "eval_rougeL": 0.5727839893077595,
+      "eval_rougeLsum": 0.5728460049962187,
+      "eval_runtime": 18.8244,
+      "eval_samples_per_second": 26.508,
+      "eval_steps_per_second": 1.7,
+      "eval_translation_length": 46692,
+      "step": 7722
+    },
+    {
+      "epoch": 3.108003108003108,
+      "grad_norm": 0.6161249876022339,
+      "learning_rate": 1.5314887555574744e-05,
+      "loss": 0.2398,
+      "step": 8000
+    },
+    {
+      "epoch": 3.4965034965034967,
+      "grad_norm": 1.6779487133026123,
+      "learning_rate": 1.4451590624595331e-05,
+      "loss": 0.2417,
+      "step": 9000
+    },
+    {
+      "epoch": 3.885003885003885,
+      "grad_norm": 2.843812942504883,
+      "learning_rate": 1.358829369361592e-05,
+      "loss": 0.2158,
+      "step": 10000
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.17801619314081785,
+      "eval_brevity_penalty": 0.191822271170218,
+      "eval_length_ratio": 0.37718967944730036,
+      "eval_loss": 0.2111208736896515,
+      "eval_precision": [
+        0.9607413355324551,
+        0.933106625713032,
+        0.9160400168585435,
+        0.9032120586783904
+      ],
+      "eval_reference_length": 122164,
+      "eval_rouge1": 0.5886785555645666,
+      "eval_rouge2": 0.5201397565281654,
+      "eval_rougeL": 0.5869242299058745,
+      "eval_rougeLsum": 0.5861840822637108,
+      "eval_runtime": 18.8078,
+      "eval_samples_per_second": 26.531,
+      "eval_steps_per_second": 1.701,
+      "eval_translation_length": 46079,
+      "step": 10296
+    },
+    {
+      "epoch": 4.273504273504273,
+      "grad_norm": 2.379423141479492,
+      "learning_rate": 1.272499676263651e-05,
+      "loss": 0.1729,
+      "step": 11000
+    },
+    {
+      "epoch": 4.662004662004662,
+      "grad_norm": 1.91653573513031,
+      "learning_rate": 1.1861699831657098e-05,
+      "loss": 0.1642,
+      "step": 12000
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.1823442196189086,
+      "eval_brevity_penalty": 0.19671547931653868,
+      "eval_length_ratio": 0.38080776660882093,
+      "eval_loss": 0.20280706882476807,
+      "eval_precision": [
+        0.9568796887427183,
+        0.9317065751162488,
+        0.9159765393317664,
+        0.9040511727078892
+      ],
+      "eval_reference_length": 122164,
+      "eval_rouge1": 0.5879582047830807,
+      "eval_rouge2": 0.5212475025432189,
+      "eval_rougeL": 0.585827617514701,
+      "eval_rougeLsum": 0.5861708445100655,
+      "eval_runtime": 18.7558,
+      "eval_samples_per_second": 26.605,
+      "eval_steps_per_second": 1.706,
+      "eval_translation_length": 46521,
+      "step": 12870
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 25740,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.561183084224e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-12870/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a12054d6904e59239ad3e26f92b5dede560ea9f82e255a690b80c1458f2da49
+size 5560

config.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "_name_or_path": "/home/mootez/projects/def-tusharma/mootez/local_models/codet5-base",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "bos_token_id": 1,
+  "classifier_dropout": 0.0,
+  "d_ff": 3072,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 2,
+  "feed_forward_proj": "relu",
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-06,
+  "merge_layer_index": -1,
+  "merger_type": "mean",
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.2",
+  "use_cache": true,
+  "vocab_size": 32100
+}

events.out.tfevents.1751331117.gra5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c70463e8da76da778c5c69cc73fd5714ea607218d0448f32788b506a45c818d1
+size 19676

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.48.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2155bd898f7d682310830260ee9d5dfb795a85286cc7ba4135bed4e3f31aa56
+size 891558696

results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "rouge1": 0.7687777535927394,
+    "rouge2": 0.701621647293527,
+    "rougeL": 0.7661955737535495,
+    "rougeLsum": 0.7662789955746854,
+    "bleu": 0.7076512154855271,
+    "precision": [
+        0.7385320948140056,
+        0.7112657935980163,
+        0.6963966591897429,
+        0.6855182993497079
+    ],
+    "brevity_penalty": 1.0,
+    "length_ratio": 1.3186543402358417,
+    "translation_length": 300251,
+    "reference_length": 227695
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a12054d6904e59239ad3e26f92b5dede560ea9f82e255a690b80c1458f2da49
+size 5560