dzungpham commited on Apr 28

Commit

90ab2a3

verified ·

1 Parent(s): 647ce03

upload checkpoints

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

graphcodebert-vanilla/checkpoint-100/config.json +29 -0
graphcodebert-vanilla/checkpoint-100/config_hyperparams.json +53 -0
graphcodebert-vanilla/checkpoint-100/hyperparams.json +39 -0
graphcodebert-vanilla/checkpoint-100/merges.txt +0 -0
graphcodebert-vanilla/checkpoint-100/model.safetensors +3 -0
graphcodebert-vanilla/checkpoint-100/optimizer.pt +3 -0
graphcodebert-vanilla/checkpoint-100/rng_state.pth +3 -0
graphcodebert-vanilla/checkpoint-100/scaler.pt +3 -0
graphcodebert-vanilla/checkpoint-100/scheduler.pt +3 -0
graphcodebert-vanilla/checkpoint-100/special_tokens_map.json +51 -0
graphcodebert-vanilla/checkpoint-100/tokenizer.json +0 -0
graphcodebert-vanilla/checkpoint-100/tokenizer_config.json +58 -0
graphcodebert-vanilla/checkpoint-100/trainer_state.json +207 -0
graphcodebert-vanilla/checkpoint-100/training_args.bin +3 -0
graphcodebert-vanilla/checkpoint-100/vocab.json +0 -0
graphcodebert-vanilla/checkpoint-200/config.json +29 -0
graphcodebert-vanilla/checkpoint-200/config_hyperparams.json +53 -0
graphcodebert-vanilla/checkpoint-200/hyperparams.json +39 -0
graphcodebert-vanilla/checkpoint-200/merges.txt +0 -0
graphcodebert-vanilla/checkpoint-200/model.safetensors +3 -0
graphcodebert-vanilla/checkpoint-200/optimizer.pt +3 -0
graphcodebert-vanilla/checkpoint-200/rng_state.pth +3 -0
graphcodebert-vanilla/checkpoint-200/scaler.pt +3 -0
graphcodebert-vanilla/checkpoint-200/scheduler.pt +3 -0
graphcodebert-vanilla/checkpoint-200/special_tokens_map.json +51 -0
graphcodebert-vanilla/checkpoint-200/tokenizer.json +0 -0
graphcodebert-vanilla/checkpoint-200/tokenizer_config.json +58 -0
graphcodebert-vanilla/checkpoint-200/trainer_state.json +371 -0
graphcodebert-vanilla/checkpoint-200/training_args.bin +3 -0
graphcodebert-vanilla/checkpoint-200/vocab.json +0 -0
graphcodebert-vanilla/checkpoint-300/config.json +29 -0
graphcodebert-vanilla/checkpoint-300/config_hyperparams.json +53 -0
graphcodebert-vanilla/checkpoint-300/hyperparams.json +39 -0
graphcodebert-vanilla/checkpoint-300/merges.txt +0 -0
graphcodebert-vanilla/checkpoint-300/model.safetensors +3 -0
graphcodebert-vanilla/checkpoint-300/optimizer.pt +3 -0
graphcodebert-vanilla/checkpoint-300/rng_state.pth +3 -0
graphcodebert-vanilla/checkpoint-300/scaler.pt +3 -0
graphcodebert-vanilla/checkpoint-300/scheduler.pt +3 -0
graphcodebert-vanilla/checkpoint-300/special_tokens_map.json +51 -0
graphcodebert-vanilla/checkpoint-300/tokenizer.json +0 -0
graphcodebert-vanilla/checkpoint-300/tokenizer_config.json +58 -0
graphcodebert-vanilla/checkpoint-300/trainer_state.json +535 -0
graphcodebert-vanilla/checkpoint-300/training_args.bin +3 -0
graphcodebert-vanilla/checkpoint-300/vocab.json +0 -0
graphcodebert-vanilla/final_model/config.json +29 -0
graphcodebert-vanilla/final_model/merges.txt +0 -0
graphcodebert-vanilla/final_model/model.safetensors +3 -0
graphcodebert-vanilla/final_model/special_tokens_map.json +51 -0
graphcodebert-vanilla/final_model/tokenizer.json +0 -0

graphcodebert-vanilla/checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.3,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.3,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "4.56.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

graphcodebert-vanilla/checkpoint-100/config_hyperparams.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "train_config": {
+    "model_name": "microsoft/graphcodebert-base",
+    "num_epochs": 3,
+    "batch_size": 256,
+    "learning_rate": 2e-05,
+    "max_length": 512,
+    "num_labels": 2,
+    "loss_type": "ce",
+    "focal_alpha": 1.0,
+    "focal_gamma": 2.0,
+    "r_drop_alpha": 6.0,
+    "infonce_temperature": 0.07,
+    "infonce_weight": 0.5,
+    "label_smoothing": 0,
+    "adversarial_epsilon": 0,
+    "use_swa": false,
+    "swa_start_epoch": 0,
+    "swa_lr": 1e-05,
+    "data_augmentation": false,
+    "aug_rename_prob": 0.0,
+    "aug_format_prob": 0.0,
+    "freeze_base": true,
+    "seed": 42,
+    "use_wandb": true,
+    "mixup_alpha": 0.0,
+    "low_pass_keep_ratio": 0.5,
+    "freq_consistency_weight": 0.0
+  },
+  "training_arguments": {
+    "output_dir": "output_checkpoints/graphcodebert-vanilla/",
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 256,
+    "per_device_eval_batch_size": 512,
+    "learning_rate": 2e-05,
+    "warmup_steps": 612,
+    "weight_decay": 0.1,
+    "logging_steps": 5,
+    "eval_steps": 50,
+    "save_steps": 100,
+    "metric_for_best_model": "macro_f1",
+    "greater_is_better": true,
+    "save_total_limit": 5,
+    "fp16": true,
+    "seed": 42
+  },
+  "training_state": {
+    "global_step": 100,
+    "epoch": 0.09784735812133072,
+    "best_metric": 0.5260673147136775,
+    "best_model_checkpoint": "output_checkpoints/graphcodebert-vanilla/checkpoint-100"
+  }
+}

graphcodebert-vanilla/checkpoint-100/hyperparams.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "model_name": "microsoft/graphcodebert-base",
+    "output_dir": "output_checkpoints/graphcodebert-vanilla/",
+    "num_epochs": 3,
+    "max_steps": -1,
+    "batch_size": 256,
+    "learning_rate": 2e-05,
+    "max_length": 512,
+    "num_labels": 2,
+    "use_wandb": true,
+    "freeze_base": true,
+    "loss_type": "ce",
+    "focal_alpha": 1.0,
+    "focal_gamma": 2.0,
+    "r_drop_alpha": 6.0,
+    "infonce_temperature": 0.07,
+    "infonce_weight": 0.5,
+    "seed": 42,
+    "wandb_run_name": "graphcodebert-vanilla",
+    "resume_from_checkpoint": null,
+    "save_steps": 100,
+    "eval_steps": 50,
+    "logging_steps": 5,
+    "label_smoothing": 0,
+    "adversarial_epsilon": 0,
+    "use_swa": false,
+    "swa_start_epoch": 0,
+    "swa_lr": 1e-05,
+    "data_augmentation": false,
+    "aug_rename_prob": 0.0,
+    "aug_format_prob": 0.0,
+    "mixup_alpha": 0.0,
+    "low_pass_keep_ratio": 0.5,
+    "freq_consistency_weight": 0.0,
+    "hidden_dropout_prob": 0.3,
+    "attention_probs_dropout_prob": 0.3,
+    "classifier_dropout": 0.3,
+    "device": "cuda"
+}

graphcodebert-vanilla/checkpoint-100/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-100/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da3f281851fd71b6943f4e6fc58ef17ba54c6d167a319cabac7deab1eafcd599
+size 498612824

graphcodebert-vanilla/checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54f9e03da26cb2cf86cb6f1f437f201f3cbc236e6729b9abd7d153a24ce31ee8
+size 4741859

graphcodebert-vanilla/checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddddccf76b63f161c92bc8774c3df6f375bf2ce43e44a910de13434d0630025e
+size 14645

graphcodebert-vanilla/checkpoint-100/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b21c5349d5e7d02de630ebc1cb53ade1d9c6079eeb8594d223bb786011a0428b
+size 1383

graphcodebert-vanilla/checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b683a9e0270ef59bda524139bbaf1cd9071993f5d3a698ac0dcacdd374cee064
+size 1465

graphcodebert-vanilla/checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

graphcodebert-vanilla/checkpoint-100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

graphcodebert-vanilla/checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,207 @@

+{
+  "best_global_step": 100,
+  "best_metric": 0.5260673147136775,
+  "best_model_checkpoint": "output_checkpoints/graphcodebert-vanilla/checkpoint-100",
+  "epoch": 0.09784735812133072,
+  "eval_steps": 50,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004892367906066536,
+      "grad_norm": 33435.953125,
+      "learning_rate": 1.3071895424836603e-07,
+      "loss": 0.7006,
+      "step": 5
+    },
+    {
+      "epoch": 0.009784735812133072,
+      "grad_norm": 34831.7421875,
+      "learning_rate": 2.9411764705882356e-07,
+      "loss": 0.7023,
+      "step": 10
+    },
+    {
+      "epoch": 0.014677103718199608,
+      "grad_norm": 32986.62109375,
+      "learning_rate": 4.5751633986928105e-07,
+      "loss": 0.7019,
+      "step": 15
+    },
+    {
+      "epoch": 0.019569471624266144,
+      "grad_norm": 34257.4921875,
+      "learning_rate": 6.209150326797386e-07,
+      "loss": 0.7025,
+      "step": 20
+    },
+    {
+      "epoch": 0.02446183953033268,
+      "grad_norm": 35511.3359375,
+      "learning_rate": 7.843137254901962e-07,
+      "loss": 0.7032,
+      "step": 25
+    },
+    {
+      "epoch": 0.029354207436399216,
+      "grad_norm": 33043.3515625,
+      "learning_rate": 9.477124183006536e-07,
+      "loss": 0.6968,
+      "step": 30
+    },
+    {
+      "epoch": 0.03424657534246575,
+      "grad_norm": 38538.30078125,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.6992,
+      "step": 35
+    },
+    {
+      "epoch": 0.03913894324853229,
+      "grad_norm": 43255.37890625,
+      "learning_rate": 1.2745098039215686e-06,
+      "loss": 0.6991,
+      "step": 40
+    },
+    {
+      "epoch": 0.04403131115459882,
+      "grad_norm": 34170.8046875,
+      "learning_rate": 1.4379084967320261e-06,
+      "loss": 0.6996,
+      "step": 45
+    },
+    {
+      "epoch": 0.04892367906066536,
+      "grad_norm": 35399.70703125,
+      "learning_rate": 1.6013071895424837e-06,
+      "loss": 0.6937,
+      "step": 50
+    },
+    {
+      "epoch": 0.04892367906066536,
+      "eval_accuracy": 0.771,
+      "eval_loss": 0.6569265127182007,
+      "eval_macro_f1": 0.5082027063884254,
+      "eval_precision": 0.6109971743687904,
+      "eval_recall": 0.5281120325963375,
+      "eval_runtime": 17.5156,
+      "eval_samples_per_second": 57.092,
+      "eval_steps_per_second": 0.057,
+      "step": 50
+    },
+    {
+      "epoch": 0.053816046966731895,
+      "grad_norm": 34677.1796875,
+      "learning_rate": 1.7647058823529414e-06,
+      "loss": 0.6963,
+      "step": 55
+    },
+    {
+      "epoch": 0.05870841487279843,
+      "grad_norm": 31789.291015625,
+      "learning_rate": 1.928104575163399e-06,
+      "loss": 0.6971,
+      "step": 60
+    },
+    {
+      "epoch": 0.06360078277886497,
+      "grad_norm": 30762.345703125,
+      "learning_rate": 2.0915032679738565e-06,
+      "loss": 0.6946,
+      "step": 65
+    },
+    {
+      "epoch": 0.0684931506849315,
+      "grad_norm": 29590.083984375,
+      "learning_rate": 2.254901960784314e-06,
+      "loss": 0.693,
+      "step": 70
+    },
+    {
+      "epoch": 0.07338551859099804,
+      "grad_norm": 29346.84765625,
+      "learning_rate": 2.4183006535947716e-06,
+      "loss": 0.6905,
+      "step": 75
+    },
+    {
+      "epoch": 0.07827788649706457,
+      "grad_norm": 37289.77734375,
+      "learning_rate": 2.581699346405229e-06,
+      "loss": 0.6942,
+      "step": 80
+    },
+    {
+      "epoch": 0.08317025440313111,
+      "grad_norm": 33970.94140625,
+      "learning_rate": 2.7450980392156867e-06,
+      "loss": 0.69,
+      "step": 85
+    },
+    {
+      "epoch": 0.08806262230919765,
+      "grad_norm": 28671.583984375,
+      "learning_rate": 2.9084967320261443e-06,
+      "loss": 0.6889,
+      "step": 90
+    },
+    {
+      "epoch": 0.09295499021526418,
+      "grad_norm": 30156.005859375,
+      "learning_rate": 3.071895424836602e-06,
+      "loss": 0.6866,
+      "step": 95
+    },
+    {
+      "epoch": 0.09784735812133072,
+      "grad_norm": 33484.71484375,
+      "learning_rate": 3.2352941176470594e-06,
+      "loss": 0.6888,
+      "step": 100
+    },
+    {
+      "epoch": 0.09784735812133072,
+      "eval_accuracy": 0.767,
+      "eval_loss": 0.6559821367263794,
+      "eval_macro_f1": 0.5260673147136775,
+      "eval_precision": 0.6062366452991452,
+      "eval_recall": 0.5367285927824044,
+      "eval_runtime": 17.3972,
+      "eval_samples_per_second": 57.481,
+      "eval_steps_per_second": 0.057,
+      "step": 100
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 3066,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3471286034432e+16,
+  "train_batch_size": 512,
+  "trial_name": null,
+  "trial_params": null
+}

graphcodebert-vanilla/checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3d448040cc8193c39a3aa43e3972db0566234234cb8950ae351de6781f2f556
+size 5905

graphcodebert-vanilla/checkpoint-100/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.3,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.3,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "4.56.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

graphcodebert-vanilla/checkpoint-200/config_hyperparams.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "train_config": {
+    "model_name": "microsoft/graphcodebert-base",
+    "num_epochs": 3,
+    "batch_size": 256,
+    "learning_rate": 2e-05,
+    "max_length": 512,
+    "num_labels": 2,
+    "loss_type": "ce",
+    "focal_alpha": 1.0,
+    "focal_gamma": 2.0,
+    "r_drop_alpha": 6.0,
+    "infonce_temperature": 0.07,
+    "infonce_weight": 0.5,
+    "label_smoothing": 0,
+    "adversarial_epsilon": 0,
+    "use_swa": false,
+    "swa_start_epoch": 0,
+    "swa_lr": 1e-05,
+    "data_augmentation": false,
+    "aug_rename_prob": 0.0,
+    "aug_format_prob": 0.0,
+    "freeze_base": true,
+    "seed": 42,
+    "use_wandb": true,
+    "mixup_alpha": 0.0,
+    "low_pass_keep_ratio": 0.5,
+    "freq_consistency_weight": 0.0
+  },
+  "training_arguments": {
+    "output_dir": "output_checkpoints/graphcodebert-vanilla/",
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 256,
+    "per_device_eval_batch_size": 512,
+    "learning_rate": 2e-05,
+    "warmup_steps": 612,
+    "weight_decay": 0.1,
+    "logging_steps": 5,
+    "eval_steps": 50,
+    "save_steps": 100,
+    "metric_for_best_model": "macro_f1",
+    "greater_is_better": true,
+    "save_total_limit": 5,
+    "fp16": true,
+    "seed": 42
+  },
+  "training_state": {
+    "global_step": 200,
+    "epoch": 0.19569471624266144,
+    "best_metric": 0.5962545254252696,
+    "best_model_checkpoint": "output_checkpoints/graphcodebert-vanilla/checkpoint-200"
+  }
+}

graphcodebert-vanilla/checkpoint-200/hyperparams.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "model_name": "microsoft/graphcodebert-base",
+    "output_dir": "output_checkpoints/graphcodebert-vanilla/",
+    "num_epochs": 3,
+    "max_steps": -1,
+    "batch_size": 256,
+    "learning_rate": 2e-05,
+    "max_length": 512,
+    "num_labels": 2,
+    "use_wandb": true,
+    "freeze_base": true,
+    "loss_type": "ce",
+    "focal_alpha": 1.0,
+    "focal_gamma": 2.0,
+    "r_drop_alpha": 6.0,
+    "infonce_temperature": 0.07,
+    "infonce_weight": 0.5,
+    "seed": 42,
+    "wandb_run_name": "graphcodebert-vanilla",
+    "resume_from_checkpoint": null,
+    "save_steps": 100,
+    "eval_steps": 50,
+    "logging_steps": 5,
+    "label_smoothing": 0,
+    "adversarial_epsilon": 0,
+    "use_swa": false,
+    "swa_start_epoch": 0,
+    "swa_lr": 1e-05,
+    "data_augmentation": false,
+    "aug_rename_prob": 0.0,
+    "aug_format_prob": 0.0,
+    "mixup_alpha": 0.0,
+    "low_pass_keep_ratio": 0.5,
+    "freq_consistency_weight": 0.0,
+    "hidden_dropout_prob": 0.3,
+    "attention_probs_dropout_prob": 0.3,
+    "classifier_dropout": 0.3,
+    "device": "cuda"
+}

graphcodebert-vanilla/checkpoint-200/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aeaccc7446a00f35bec59d86fa902e66ebf161710cff77f1fbc7e23c5c62aa4
+size 498612824

graphcodebert-vanilla/checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b722cecb86725f9e176547eea1fa82aaf7883c091259493a9743214cfe3e4807
+size 4741859

graphcodebert-vanilla/checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2533ee5d1fa769cc2164b95d88e0df14f136fb5e6d1e47fc9541a03a10815bcb
+size 14645

graphcodebert-vanilla/checkpoint-200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b21c5349d5e7d02de630ebc1cb53ade1d9c6079eeb8594d223bb786011a0428b
+size 1383

graphcodebert-vanilla/checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1a24cde04d57e738ef50ad7ff8ffdc9c34b1e5155cdccf9430834307ea21fd7
+size 1465

graphcodebert-vanilla/checkpoint-200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

graphcodebert-vanilla/checkpoint-200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

graphcodebert-vanilla/checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,371 @@

+{
+  "best_global_step": 200,
+  "best_metric": 0.5962545254252696,
+  "best_model_checkpoint": "output_checkpoints/graphcodebert-vanilla/checkpoint-200",
+  "epoch": 0.19569471624266144,
+  "eval_steps": 50,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004892367906066536,
+      "grad_norm": 33435.953125,
+      "learning_rate": 1.3071895424836603e-07,
+      "loss": 0.7006,
+      "step": 5
+    },
+    {
+      "epoch": 0.009784735812133072,
+      "grad_norm": 34831.7421875,
+      "learning_rate": 2.9411764705882356e-07,
+      "loss": 0.7023,
+      "step": 10
+    },
+    {
+      "epoch": 0.014677103718199608,
+      "grad_norm": 32986.62109375,
+      "learning_rate": 4.5751633986928105e-07,
+      "loss": 0.7019,
+      "step": 15
+    },
+    {
+      "epoch": 0.019569471624266144,
+      "grad_norm": 34257.4921875,
+      "learning_rate": 6.209150326797386e-07,
+      "loss": 0.7025,
+      "step": 20
+    },
+    {
+      "epoch": 0.02446183953033268,
+      "grad_norm": 35511.3359375,
+      "learning_rate": 7.843137254901962e-07,
+      "loss": 0.7032,
+      "step": 25
+    },
+    {
+      "epoch": 0.029354207436399216,
+      "grad_norm": 33043.3515625,
+      "learning_rate": 9.477124183006536e-07,
+      "loss": 0.6968,
+      "step": 30
+    },
+    {
+      "epoch": 0.03424657534246575,
+      "grad_norm": 38538.30078125,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.6992,
+      "step": 35
+    },
+    {
+      "epoch": 0.03913894324853229,
+      "grad_norm": 43255.37890625,
+      "learning_rate": 1.2745098039215686e-06,
+      "loss": 0.6991,
+      "step": 40
+    },
+    {
+      "epoch": 0.04403131115459882,
+      "grad_norm": 34170.8046875,
+      "learning_rate": 1.4379084967320261e-06,
+      "loss": 0.6996,
+      "step": 45
+    },
+    {
+      "epoch": 0.04892367906066536,
+      "grad_norm": 35399.70703125,
+      "learning_rate": 1.6013071895424837e-06,
+      "loss": 0.6937,
+      "step": 50
+    },
+    {
+      "epoch": 0.04892367906066536,
+      "eval_accuracy": 0.771,
+      "eval_loss": 0.6569265127182007,
+      "eval_macro_f1": 0.5082027063884254,
+      "eval_precision": 0.6109971743687904,
+      "eval_recall": 0.5281120325963375,
+      "eval_runtime": 17.5156,
+      "eval_samples_per_second": 57.092,
+      "eval_steps_per_second": 0.057,
+      "step": 50
+    },
+    {
+      "epoch": 0.053816046966731895,
+      "grad_norm": 34677.1796875,
+      "learning_rate": 1.7647058823529414e-06,
+      "loss": 0.6963,
+      "step": 55
+    },
+    {
+      "epoch": 0.05870841487279843,
+      "grad_norm": 31789.291015625,
+      "learning_rate": 1.928104575163399e-06,
+      "loss": 0.6971,
+      "step": 60
+    },
+    {
+      "epoch": 0.06360078277886497,
+      "grad_norm": 30762.345703125,
+      "learning_rate": 2.0915032679738565e-06,
+      "loss": 0.6946,
+      "step": 65
+    },
+    {
+      "epoch": 0.0684931506849315,
+      "grad_norm": 29590.083984375,
+      "learning_rate": 2.254901960784314e-06,
+      "loss": 0.693,
+      "step": 70
+    },
+    {
+      "epoch": 0.07338551859099804,
+      "grad_norm": 29346.84765625,
+      "learning_rate": 2.4183006535947716e-06,
+      "loss": 0.6905,
+      "step": 75
+    },
+    {
+      "epoch": 0.07827788649706457,
+      "grad_norm": 37289.77734375,
+      "learning_rate": 2.581699346405229e-06,
+      "loss": 0.6942,
+      "step": 80
+    },
+    {
+      "epoch": 0.08317025440313111,
+      "grad_norm": 33970.94140625,
+      "learning_rate": 2.7450980392156867e-06,
+      "loss": 0.69,
+      "step": 85
+    },
+    {
+      "epoch": 0.08806262230919765,
+      "grad_norm": 28671.583984375,
+      "learning_rate": 2.9084967320261443e-06,
+      "loss": 0.6889,
+      "step": 90
+    },
+    {
+      "epoch": 0.09295499021526418,
+      "grad_norm": 30156.005859375,
+      "learning_rate": 3.071895424836602e-06,
+      "loss": 0.6866,
+      "step": 95
+    },
+    {
+      "epoch": 0.09784735812133072,
+      "grad_norm": 33484.71484375,
+      "learning_rate": 3.2352941176470594e-06,
+      "loss": 0.6888,
+      "step": 100
+    },
+    {
+      "epoch": 0.09784735812133072,
+      "eval_accuracy": 0.767,
+      "eval_loss": 0.6559821367263794,
+      "eval_macro_f1": 0.5260673147136775,
+      "eval_precision": 0.6062366452991452,
+      "eval_recall": 0.5367285927824044,
+      "eval_runtime": 17.3972,
+      "eval_samples_per_second": 57.481,
+      "eval_steps_per_second": 0.057,
+      "step": 100
+    },
+    {
+      "epoch": 0.10273972602739725,
+      "grad_norm": 35390.96484375,
+      "learning_rate": 3.398692810457517e-06,
+      "loss": 0.6893,
+      "step": 105
+    },
+    {
+      "epoch": 0.10763209393346379,
+      "grad_norm": 34452.11328125,
+      "learning_rate": 3.562091503267974e-06,
+      "loss": 0.6849,
+      "step": 110
+    },
+    {
+      "epoch": 0.11252446183953033,
+      "grad_norm": 41847.0625,
+      "learning_rate": 3.7254901960784316e-06,
+      "loss": 0.6853,
+      "step": 115
+    },
+    {
+      "epoch": 0.11741682974559686,
+      "grad_norm": 31951.4140625,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.6802,
+      "step": 120
+    },
+    {
+      "epoch": 0.1223091976516634,
+      "grad_norm": 34176.79296875,
+      "learning_rate": 4.052287581699347e-06,
+      "loss": 0.6871,
+      "step": 125
+    },
+    {
+      "epoch": 0.12720156555772993,
+      "grad_norm": 35482.6640625,
+      "learning_rate": 4.215686274509805e-06,
+      "loss": 0.6789,
+      "step": 130
+    },
+    {
+      "epoch": 0.13209393346379647,
+      "grad_norm": 60289.4296875,
+      "learning_rate": 4.379084967320262e-06,
+      "loss": 0.6844,
+      "step": 135
+    },
+    {
+      "epoch": 0.136986301369863,
+      "grad_norm": 41964.47265625,
+      "learning_rate": 4.542483660130719e-06,
+      "loss": 0.6808,
+      "step": 140
+    },
+    {
+      "epoch": 0.14187866927592954,
+      "grad_norm": 35805.8203125,
+      "learning_rate": 4.705882352941177e-06,
+      "loss": 0.6748,
+      "step": 145
+    },
+    {
+      "epoch": 0.14677103718199608,
+      "grad_norm": 25688.607421875,
+      "learning_rate": 4.869281045751634e-06,
+      "loss": 0.6769,
+      "step": 150
+    },
+    {
+      "epoch": 0.14677103718199608,
+      "eval_accuracy": 0.728,
+      "eval_loss": 0.6580190658569336,
+      "eval_macro_f1": 0.5668100015926103,
+      "eval_precision": 0.5782073308365263,
+      "eval_recall": 0.5627889260176255,
+      "eval_runtime": 17.3848,
+      "eval_samples_per_second": 57.521,
+      "eval_steps_per_second": 0.058,
+      "step": 150
+    },
+    {
+      "epoch": 0.15166340508806261,
+      "grad_norm": 30171.484375,
+      "learning_rate": 5.032679738562092e-06,
+      "loss": 0.6706,
+      "step": 155
+    },
+    {
+      "epoch": 0.15655577299412915,
+      "grad_norm": 29393.716796875,
+      "learning_rate": 5.19607843137255e-06,
+      "loss": 0.6764,
+      "step": 160
+    },
+    {
+      "epoch": 0.16144814090019569,
+      "grad_norm": 34377.2578125,
+      "learning_rate": 5.359477124183007e-06,
+      "loss": 0.6688,
+      "step": 165
+    },
+    {
+      "epoch": 0.16634050880626222,
+      "grad_norm": 34805.3671875,
+      "learning_rate": 5.522875816993465e-06,
+      "loss": 0.6673,
+      "step": 170
+    },
+    {
+      "epoch": 0.17123287671232876,
+      "grad_norm": 29948.095703125,
+      "learning_rate": 5.686274509803922e-06,
+      "loss": 0.6652,
+      "step": 175
+    },
+    {
+      "epoch": 0.1761252446183953,
+      "grad_norm": 34735.33984375,
+      "learning_rate": 5.84967320261438e-06,
+      "loss": 0.6709,
+      "step": 180
+    },
+    {
+      "epoch": 0.18101761252446183,
+      "grad_norm": 36469.0703125,
+      "learning_rate": 6.0130718954248365e-06,
+      "loss": 0.6606,
+      "step": 185
+    },
+    {
+      "epoch": 0.18590998043052837,
+      "grad_norm": 27843.798828125,
+      "learning_rate": 6.176470588235295e-06,
+      "loss": 0.6666,
+      "step": 190
+    },
+    {
+      "epoch": 0.1908023483365949,
+      "grad_norm": 27965.966796875,
+      "learning_rate": 6.3398692810457515e-06,
+      "loss": 0.6626,
+      "step": 195
+    },
+    {
+      "epoch": 0.19569471624266144,
+      "grad_norm": 28469.09375,
+      "learning_rate": 6.5032679738562095e-06,
+      "loss": 0.6601,
+      "step": 200
+    },
+    {
+      "epoch": 0.19569471624266144,
+      "eval_accuracy": 0.698,
+      "eval_loss": 0.6574791669845581,
+      "eval_macro_f1": 0.5962545254252696,
+      "eval_precision": 0.591974921630094,
+      "eval_recall": 0.605831327804422,
+      "eval_runtime": 17.3909,
+      "eval_samples_per_second": 57.501,
+      "eval_steps_per_second": 0.058,
+      "step": 200
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 3066,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.6942572068864e+16,
+  "train_batch_size": 512,
+  "trial_name": null,
+  "trial_params": null
+}

graphcodebert-vanilla/checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3d448040cc8193c39a3aa43e3972db0566234234cb8950ae351de6781f2f556
+size 5905

graphcodebert-vanilla/checkpoint-200/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-300/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.3,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.3,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "4.56.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

graphcodebert-vanilla/checkpoint-300/config_hyperparams.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "train_config": {
+    "model_name": "microsoft/graphcodebert-base",
+    "num_epochs": 3,
+    "batch_size": 256,
+    "learning_rate": 2e-05,
+    "max_length": 512,
+    "num_labels": 2,
+    "loss_type": "ce",
+    "focal_alpha": 1.0,
+    "focal_gamma": 2.0,
+    "r_drop_alpha": 6.0,
+    "infonce_temperature": 0.07,
+    "infonce_weight": 0.5,
+    "label_smoothing": 0,
+    "adversarial_epsilon": 0,
+    "use_swa": false,
+    "swa_start_epoch": 0,
+    "swa_lr": 1e-05,
+    "data_augmentation": false,
+    "aug_rename_prob": 0.0,
+    "aug_format_prob": 0.0,
+    "freeze_base": true,
+    "seed": 42,
+    "use_wandb": true,
+    "mixup_alpha": 0.0,
+    "low_pass_keep_ratio": 0.5,
+    "freq_consistency_weight": 0.0
+  },
+  "training_arguments": {
+    "output_dir": "output_checkpoints/graphcodebert-vanilla/",
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 256,
+    "per_device_eval_batch_size": 512,
+    "learning_rate": 2e-05,
+    "warmup_steps": 612,
+    "weight_decay": 0.1,
+    "logging_steps": 5,
+    "eval_steps": 50,
+    "save_steps": 100,
+    "metric_for_best_model": "macro_f1",
+    "greater_is_better": true,
+    "save_total_limit": 5,
+    "fp16": true,
+    "seed": 42
+  },
+  "training_state": {
+    "global_step": 300,
+    "epoch": 0.29354207436399216,
+    "best_metric": 0.5962545254252696,
+    "best_model_checkpoint": "output_checkpoints/graphcodebert-vanilla/checkpoint-200"
+  }
+}

graphcodebert-vanilla/checkpoint-300/hyperparams.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "model_name": "microsoft/graphcodebert-base",
+    "output_dir": "output_checkpoints/graphcodebert-vanilla/",
+    "num_epochs": 3,
+    "max_steps": -1,
+    "batch_size": 256,
+    "learning_rate": 2e-05,
+    "max_length": 512,
+    "num_labels": 2,
+    "use_wandb": true,
+    "freeze_base": true,
+    "loss_type": "ce",
+    "focal_alpha": 1.0,
+    "focal_gamma": 2.0,
+    "r_drop_alpha": 6.0,
+    "infonce_temperature": 0.07,
+    "infonce_weight": 0.5,
+    "seed": 42,
+    "wandb_run_name": "graphcodebert-vanilla",
+    "resume_from_checkpoint": null,
+    "save_steps": 100,
+    "eval_steps": 50,
+    "logging_steps": 5,
+    "label_smoothing": 0,
+    "adversarial_epsilon": 0,
+    "use_swa": false,
+    "swa_start_epoch": 0,
+    "swa_lr": 1e-05,
+    "data_augmentation": false,
+    "aug_rename_prob": 0.0,
+    "aug_format_prob": 0.0,
+    "mixup_alpha": 0.0,
+    "low_pass_keep_ratio": 0.5,
+    "freq_consistency_weight": 0.0,
+    "hidden_dropout_prob": 0.3,
+    "attention_probs_dropout_prob": 0.3,
+    "classifier_dropout": 0.3,
+    "device": "cuda"
+}

graphcodebert-vanilla/checkpoint-300/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-300/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edd3840232c2ce57c3ca99599da5b4b6c3d927d433e8f6cade8f19eb82e1c7d4
+size 498612824

graphcodebert-vanilla/checkpoint-300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3bc2bb4faa59c5b4d4444402a371d35e399ec5c0395497516d5b8a18204541d
+size 4741859

graphcodebert-vanilla/checkpoint-300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16d01df9df5e3d357f43a862c0d6dbd8af3871aefdeaa647afae0764a9686751
+size 14645

graphcodebert-vanilla/checkpoint-300/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b21c5349d5e7d02de630ebc1cb53ade1d9c6079eeb8594d223bb786011a0428b
+size 1383

graphcodebert-vanilla/checkpoint-300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82af26824e4d089a1392ee4f564d426e3fd92b73b1c7ab1766017647df7f455d
+size 1465

graphcodebert-vanilla/checkpoint-300/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

graphcodebert-vanilla/checkpoint-300/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/checkpoint-300/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

graphcodebert-vanilla/checkpoint-300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,535 @@

+{
+  "best_global_step": 200,
+  "best_metric": 0.5962545254252696,
+  "best_model_checkpoint": "output_checkpoints/graphcodebert-vanilla/checkpoint-200",
+  "epoch": 0.29354207436399216,
+  "eval_steps": 50,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004892367906066536,
+      "grad_norm": 33435.953125,
+      "learning_rate": 1.3071895424836603e-07,
+      "loss": 0.7006,
+      "step": 5
+    },
+    {
+      "epoch": 0.009784735812133072,
+      "grad_norm": 34831.7421875,
+      "learning_rate": 2.9411764705882356e-07,
+      "loss": 0.7023,
+      "step": 10
+    },
+    {
+      "epoch": 0.014677103718199608,
+      "grad_norm": 32986.62109375,
+      "learning_rate": 4.5751633986928105e-07,
+      "loss": 0.7019,
+      "step": 15
+    },
+    {
+      "epoch": 0.019569471624266144,
+      "grad_norm": 34257.4921875,
+      "learning_rate": 6.209150326797386e-07,
+      "loss": 0.7025,
+      "step": 20
+    },
+    {
+      "epoch": 0.02446183953033268,
+      "grad_norm": 35511.3359375,
+      "learning_rate": 7.843137254901962e-07,
+      "loss": 0.7032,
+      "step": 25
+    },
+    {
+      "epoch": 0.029354207436399216,
+      "grad_norm": 33043.3515625,
+      "learning_rate": 9.477124183006536e-07,
+      "loss": 0.6968,
+      "step": 30
+    },
+    {
+      "epoch": 0.03424657534246575,
+      "grad_norm": 38538.30078125,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.6992,
+      "step": 35
+    },
+    {
+      "epoch": 0.03913894324853229,
+      "grad_norm": 43255.37890625,
+      "learning_rate": 1.2745098039215686e-06,
+      "loss": 0.6991,
+      "step": 40
+    },
+    {
+      "epoch": 0.04403131115459882,
+      "grad_norm": 34170.8046875,
+      "learning_rate": 1.4379084967320261e-06,
+      "loss": 0.6996,
+      "step": 45
+    },
+    {
+      "epoch": 0.04892367906066536,
+      "grad_norm": 35399.70703125,
+      "learning_rate": 1.6013071895424837e-06,
+      "loss": 0.6937,
+      "step": 50
+    },
+    {
+      "epoch": 0.04892367906066536,
+      "eval_accuracy": 0.771,
+      "eval_loss": 0.6569265127182007,
+      "eval_macro_f1": 0.5082027063884254,
+      "eval_precision": 0.6109971743687904,
+      "eval_recall": 0.5281120325963375,
+      "eval_runtime": 17.5156,
+      "eval_samples_per_second": 57.092,
+      "eval_steps_per_second": 0.057,
+      "step": 50
+    },
+    {
+      "epoch": 0.053816046966731895,
+      "grad_norm": 34677.1796875,
+      "learning_rate": 1.7647058823529414e-06,
+      "loss": 0.6963,
+      "step": 55
+    },
+    {
+      "epoch": 0.05870841487279843,
+      "grad_norm": 31789.291015625,
+      "learning_rate": 1.928104575163399e-06,
+      "loss": 0.6971,
+      "step": 60
+    },
+    {
+      "epoch": 0.06360078277886497,
+      "grad_norm": 30762.345703125,
+      "learning_rate": 2.0915032679738565e-06,
+      "loss": 0.6946,
+      "step": 65
+    },
+    {
+      "epoch": 0.0684931506849315,
+      "grad_norm": 29590.083984375,
+      "learning_rate": 2.254901960784314e-06,
+      "loss": 0.693,
+      "step": 70
+    },
+    {
+      "epoch": 0.07338551859099804,
+      "grad_norm": 29346.84765625,
+      "learning_rate": 2.4183006535947716e-06,
+      "loss": 0.6905,
+      "step": 75
+    },
+    {
+      "epoch": 0.07827788649706457,
+      "grad_norm": 37289.77734375,
+      "learning_rate": 2.581699346405229e-06,
+      "loss": 0.6942,
+      "step": 80
+    },
+    {
+      "epoch": 0.08317025440313111,
+      "grad_norm": 33970.94140625,
+      "learning_rate": 2.7450980392156867e-06,
+      "loss": 0.69,
+      "step": 85
+    },
+    {
+      "epoch": 0.08806262230919765,
+      "grad_norm": 28671.583984375,
+      "learning_rate": 2.9084967320261443e-06,
+      "loss": 0.6889,
+      "step": 90
+    },
+    {
+      "epoch": 0.09295499021526418,
+      "grad_norm": 30156.005859375,
+      "learning_rate": 3.071895424836602e-06,
+      "loss": 0.6866,
+      "step": 95
+    },
+    {
+      "epoch": 0.09784735812133072,
+      "grad_norm": 33484.71484375,
+      "learning_rate": 3.2352941176470594e-06,
+      "loss": 0.6888,
+      "step": 100
+    },
+    {
+      "epoch": 0.09784735812133072,
+      "eval_accuracy": 0.767,
+      "eval_loss": 0.6559821367263794,
+      "eval_macro_f1": 0.5260673147136775,
+      "eval_precision": 0.6062366452991452,
+      "eval_recall": 0.5367285927824044,
+      "eval_runtime": 17.3972,
+      "eval_samples_per_second": 57.481,
+      "eval_steps_per_second": 0.057,
+      "step": 100
+    },
+    {
+      "epoch": 0.10273972602739725,
+      "grad_norm": 35390.96484375,
+      "learning_rate": 3.398692810457517e-06,
+      "loss": 0.6893,
+      "step": 105
+    },
+    {
+      "epoch": 0.10763209393346379,
+      "grad_norm": 34452.11328125,
+      "learning_rate": 3.562091503267974e-06,
+      "loss": 0.6849,
+      "step": 110
+    },
+    {
+      "epoch": 0.11252446183953033,
+      "grad_norm": 41847.0625,
+      "learning_rate": 3.7254901960784316e-06,
+      "loss": 0.6853,
+      "step": 115
+    },
+    {
+      "epoch": 0.11741682974559686,
+      "grad_norm": 31951.4140625,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.6802,
+      "step": 120
+    },
+    {
+      "epoch": 0.1223091976516634,
+      "grad_norm": 34176.79296875,
+      "learning_rate": 4.052287581699347e-06,
+      "loss": 0.6871,
+      "step": 125
+    },
+    {
+      "epoch": 0.12720156555772993,
+      "grad_norm": 35482.6640625,
+      "learning_rate": 4.215686274509805e-06,
+      "loss": 0.6789,
+      "step": 130
+    },
+    {
+      "epoch": 0.13209393346379647,
+      "grad_norm": 60289.4296875,
+      "learning_rate": 4.379084967320262e-06,
+      "loss": 0.6844,
+      "step": 135
+    },
+    {
+      "epoch": 0.136986301369863,
+      "grad_norm": 41964.47265625,
+      "learning_rate": 4.542483660130719e-06,
+      "loss": 0.6808,
+      "step": 140
+    },
+    {
+      "epoch": 0.14187866927592954,
+      "grad_norm": 35805.8203125,
+      "learning_rate": 4.705882352941177e-06,
+      "loss": 0.6748,
+      "step": 145
+    },
+    {
+      "epoch": 0.14677103718199608,
+      "grad_norm": 25688.607421875,
+      "learning_rate": 4.869281045751634e-06,
+      "loss": 0.6769,
+      "step": 150
+    },
+    {
+      "epoch": 0.14677103718199608,
+      "eval_accuracy": 0.728,
+      "eval_loss": 0.6580190658569336,
+      "eval_macro_f1": 0.5668100015926103,
+      "eval_precision": 0.5782073308365263,
+      "eval_recall": 0.5627889260176255,
+      "eval_runtime": 17.3848,
+      "eval_samples_per_second": 57.521,
+      "eval_steps_per_second": 0.058,
+      "step": 150
+    },
+    {
+      "epoch": 0.15166340508806261,
+      "grad_norm": 30171.484375,
+      "learning_rate": 5.032679738562092e-06,
+      "loss": 0.6706,
+      "step": 155
+    },
+    {
+      "epoch": 0.15655577299412915,
+      "grad_norm": 29393.716796875,
+      "learning_rate": 5.19607843137255e-06,
+      "loss": 0.6764,
+      "step": 160
+    },
+    {
+      "epoch": 0.16144814090019569,
+      "grad_norm": 34377.2578125,
+      "learning_rate": 5.359477124183007e-06,
+      "loss": 0.6688,
+      "step": 165
+    },
+    {
+      "epoch": 0.16634050880626222,
+      "grad_norm": 34805.3671875,
+      "learning_rate": 5.522875816993465e-06,
+      "loss": 0.6673,
+      "step": 170
+    },
+    {
+      "epoch": 0.17123287671232876,
+      "grad_norm": 29948.095703125,
+      "learning_rate": 5.686274509803922e-06,
+      "loss": 0.6652,
+      "step": 175
+    },
+    {
+      "epoch": 0.1761252446183953,
+      "grad_norm": 34735.33984375,
+      "learning_rate": 5.84967320261438e-06,
+      "loss": 0.6709,
+      "step": 180
+    },
+    {
+      "epoch": 0.18101761252446183,
+      "grad_norm": 36469.0703125,
+      "learning_rate": 6.0130718954248365e-06,
+      "loss": 0.6606,
+      "step": 185
+    },
+    {
+      "epoch": 0.18590998043052837,
+      "grad_norm": 27843.798828125,
+      "learning_rate": 6.176470588235295e-06,
+      "loss": 0.6666,
+      "step": 190
+    },
+    {
+      "epoch": 0.1908023483365949,
+      "grad_norm": 27965.966796875,
+      "learning_rate": 6.3398692810457515e-06,
+      "loss": 0.6626,
+      "step": 195
+    },
+    {
+      "epoch": 0.19569471624266144,
+      "grad_norm": 28469.09375,
+      "learning_rate": 6.5032679738562095e-06,
+      "loss": 0.6601,
+      "step": 200
+    },
+    {
+      "epoch": 0.19569471624266144,
+      "eval_accuracy": 0.698,
+      "eval_loss": 0.6574791669845581,
+      "eval_macro_f1": 0.5962545254252696,
+      "eval_precision": 0.591974921630094,
+      "eval_recall": 0.605831327804422,
+      "eval_runtime": 17.3909,
+      "eval_samples_per_second": 57.501,
+      "eval_steps_per_second": 0.058,
+      "step": 200
+    },
+    {
+      "epoch": 0.20058708414872797,
+      "grad_norm": 26626.736328125,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.6598,
+      "step": 205
+    },
+    {
+      "epoch": 0.2054794520547945,
+      "grad_norm": 26082.599609375,
+      "learning_rate": 6.830065359477125e-06,
+      "loss": 0.6568,
+      "step": 210
+    },
+    {
+      "epoch": 0.21037181996086105,
+      "grad_norm": 33339.375,
+      "learning_rate": 6.993464052287582e-06,
+      "loss": 0.6563,
+      "step": 215
+    },
+    {
+      "epoch": 0.21526418786692758,
+      "grad_norm": 30894.603515625,
+      "learning_rate": 7.15686274509804e-06,
+      "loss": 0.652,
+      "step": 220
+    },
+    {
+      "epoch": 0.22015655577299412,
+      "grad_norm": 29593.958984375,
+      "learning_rate": 7.320261437908497e-06,
+      "loss": 0.6491,
+      "step": 225
+    },
+    {
+      "epoch": 0.22504892367906065,
+      "grad_norm": 39939.2890625,
+      "learning_rate": 7.483660130718955e-06,
+      "loss": 0.6479,
+      "step": 230
+    },
+    {
+      "epoch": 0.2299412915851272,
+      "grad_norm": 32097.01953125,
+      "learning_rate": 7.647058823529411e-06,
+      "loss": 0.6464,
+      "step": 235
+    },
+    {
+      "epoch": 0.23483365949119372,
+      "grad_norm": 31191.142578125,
+      "learning_rate": 7.81045751633987e-06,
+      "loss": 0.6469,
+      "step": 240
+    },
+    {
+      "epoch": 0.23972602739726026,
+      "grad_norm": 30402.431640625,
+      "learning_rate": 7.973856209150329e-06,
+      "loss": 0.6407,
+      "step": 245
+    },
+    {
+      "epoch": 0.2446183953033268,
+      "grad_norm": 30825.1328125,
+      "learning_rate": 8.137254901960784e-06,
+      "loss": 0.6391,
+      "step": 250
+    },
+    {
+      "epoch": 0.2446183953033268,
+      "eval_accuracy": 0.623,
+      "eval_loss": 0.6709860563278198,
+      "eval_macro_f1": 0.5814715106436125,
+      "eval_precision": 0.6025402726146221,
+      "eval_recall": 0.6470932816224296,
+      "eval_runtime": 17.5511,
+      "eval_samples_per_second": 56.977,
+      "eval_steps_per_second": 0.057,
+      "step": 250
+    },
+    {
+      "epoch": 0.24951076320939333,
+      "grad_norm": 26645.732421875,
+      "learning_rate": 8.300653594771243e-06,
+      "loss": 0.6397,
+      "step": 255
+    },
+    {
+      "epoch": 0.25440313111545987,
+      "grad_norm": 29653.92578125,
+      "learning_rate": 8.4640522875817e-06,
+      "loss": 0.6437,
+      "step": 260
+    },
+    {
+      "epoch": 0.25929549902152643,
+      "grad_norm": 31826.6484375,
+      "learning_rate": 8.627450980392157e-06,
+      "loss": 0.6373,
+      "step": 265
+    },
+    {
+      "epoch": 0.26418786692759294,
+      "grad_norm": 35353.4765625,
+      "learning_rate": 8.790849673202614e-06,
+      "loss": 0.6319,
+      "step": 270
+    },
+    {
+      "epoch": 0.2690802348336595,
+      "grad_norm": 30883.482421875,
+      "learning_rate": 8.954248366013073e-06,
+      "loss": 0.6355,
+      "step": 275
+    },
+    {
+      "epoch": 0.273972602739726,
+      "grad_norm": 26454.451171875,
+      "learning_rate": 9.11764705882353e-06,
+      "loss": 0.6261,
+      "step": 280
+    },
+    {
+      "epoch": 0.2788649706457926,
+      "grad_norm": 27102.65234375,
+      "learning_rate": 9.281045751633987e-06,
+      "loss": 0.6291,
+      "step": 285
+    },
+    {
+      "epoch": 0.2837573385518591,
+      "grad_norm": 26538.755859375,
+      "learning_rate": 9.444444444444445e-06,
+      "loss": 0.6265,
+      "step": 290
+    },
+    {
+      "epoch": 0.28864970645792565,
+      "grad_norm": 27230.40625,
+      "learning_rate": 9.607843137254903e-06,
+      "loss": 0.617,
+      "step": 295
+    },
+    {
+      "epoch": 0.29354207436399216,
+      "grad_norm": 27588.068359375,
+      "learning_rate": 9.77124183006536e-06,
+      "loss": 0.618,
+      "step": 300
+    },
+    {
+      "epoch": 0.29354207436399216,
+      "eval_accuracy": 0.59,
+      "eval_loss": 0.6805335283279419,
+      "eval_macro_f1": 0.5635902261241277,
+      "eval_precision": 0.6075875666060336,
+      "eval_recall": 0.6546334931985156,
+      "eval_runtime": 17.4391,
+      "eval_samples_per_second": 57.342,
+      "eval_steps_per_second": 0.057,
+      "step": 300
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 3066,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 2
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.0413858103296e+16,
+  "train_batch_size": 512,
+  "trial_name": null,
+  "trial_params": null
+}

graphcodebert-vanilla/checkpoint-300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3d448040cc8193c39a3aa43e3972db0566234234cb8950ae351de6781f2f556
+size 5905

graphcodebert-vanilla/checkpoint-300/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/final_model/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.3,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.3,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "4.56.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

graphcodebert-vanilla/final_model/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

graphcodebert-vanilla/final_model/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:babd5890473a83a2cc134eea6510f56a09e9b665511011c2ddbd1e2d9d7bbf66
+size 498612824

graphcodebert-vanilla/final_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

graphcodebert-vanilla/final_model/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff