rizwanulrudra commited on Jun 14, 2025

Commit

f4b9f5f

verified ·

1 Parent(s): b0a6f05

Upload folder using huggingface_hub

Browse files

Files changed (35) hide show

checkpoint-1140/config.json +42 -0
checkpoint-1140/model.safetensors +3 -0
checkpoint-1140/optimizer.pt +3 -0
checkpoint-1140/rng_state.pth +3 -0
checkpoint-1140/scheduler.pt +3 -0
checkpoint-1140/trainer_state.json +210 -0
checkpoint-1140/training_args.bin +3 -0
checkpoint-1710/config.json +42 -0
checkpoint-1710/model.safetensors +3 -0
checkpoint-1710/optimizer.pt +3 -0
checkpoint-1710/rng_state.pth +3 -0
checkpoint-1710/scheduler.pt +3 -0
checkpoint-1710/trainer_state.json +305 -0
checkpoint-1710/training_args.bin +3 -0
checkpoint-2280/config.json +42 -0
checkpoint-2280/model.safetensors +3 -0
checkpoint-2280/optimizer.pt +3 -0
checkpoint-2280/rng_state.pth +3 -0
checkpoint-2280/scheduler.pt +3 -0
checkpoint-2280/trainer_state.json +393 -0
checkpoint-2280/training_args.bin +3 -0
checkpoint-2850/config.json +42 -0
checkpoint-2850/model.safetensors +3 -0
checkpoint-2850/optimizer.pt +3 -0
checkpoint-2850/rng_state.pth +3 -0
checkpoint-2850/scheduler.pt +3 -0
checkpoint-2850/trainer_state.json +488 -0
checkpoint-2850/training_args.bin +3 -0
checkpoint-570/config.json +42 -0
checkpoint-570/model.safetensors +3 -0
checkpoint-570/optimizer.pt +3 -0
checkpoint-570/rng_state.pth +3 -0
checkpoint-570/scheduler.pt +3 -0
checkpoint-570/trainer_state.json +122 -0
checkpoint-570/training_args.bin +3 -0

checkpoint-1140/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "architectures": [
+    "ElectraForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "electra",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "summary_activation": "gelu",
+  "summary_last_dropout": 0.1,
+  "summary_type": "first",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1140/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c9beb9d87d4f5718f68ba66439c0c038939098e05898cf03d296b35fea432ae
+size 442505824

checkpoint-1140/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a4b08f8ca8f22a289ae4c8ebc2e9aff452273afe0011b30ea2d8d755cddccb6
+size 885131514

checkpoint-1140/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff5b9afe2c551807c3590bab42bdaef11b8025fda7e72d48d393d1fcc4144903
+size 14244

checkpoint-1140/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efe11eee4a6bb9a0bce4feef531b6f4b82c136a07c5b5c3ceaa90c5ea36b78ed
+size 1064

checkpoint-1140/trainer_state.json ADDED Viewed

	@@ -0,0 +1,210 @@

+{
+  "best_global_step": 1140,
+  "best_metric": 0.8596423207276622,
+  "best_model_checkpoint": "./banglabert-hate-speech/checkpoint-1140",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 1140,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08771929824561403,
+      "grad_norm": 2.613939046859741,
+      "learning_rate": 2.9484210526315792e-05,
+      "loss": 1.2847,
+      "step": 50
+    },
+    {
+      "epoch": 0.17543859649122806,
+      "grad_norm": 2.230876922607422,
+      "learning_rate": 2.8957894736842105e-05,
+      "loss": 1.1609,
+      "step": 100
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 10.591499328613281,
+      "learning_rate": 2.8431578947368422e-05,
+      "loss": 1.033,
+      "step": 150
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 4.717245101928711,
+      "learning_rate": 2.7905263157894738e-05,
+      "loss": 0.9866,
+      "step": 200
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 7.096415042877197,
+      "learning_rate": 2.7378947368421055e-05,
+      "loss": 0.9235,
+      "step": 250
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 5.946366786956787,
+      "learning_rate": 2.6852631578947368e-05,
+      "loss": 0.7276,
+      "step": 300
+    },
+    {
+      "epoch": 0.6140350877192983,
+      "grad_norm": 2.292181968688965,
+      "learning_rate": 2.6326315789473687e-05,
+      "loss": 0.6928,
+      "step": 350
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 7.117995262145996,
+      "learning_rate": 2.58e-05,
+      "loss": 0.7734,
+      "step": 400
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 1.2756074666976929,
+      "learning_rate": 2.5273684210526317e-05,
+      "loss": 0.602,
+      "step": 450
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 2.6861534118652344,
+      "learning_rate": 2.4747368421052633e-05,
+      "loss": 0.6134,
+      "step": 500
+    },
+    {
+      "epoch": 0.9649122807017544,
+      "grad_norm": 11.638345718383789,
+      "learning_rate": 2.422105263157895e-05,
+      "loss": 0.517,
+      "step": 550
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8491228070175438,
+      "eval_f1_macro": 0.8364544727451704,
+      "eval_f1_weighted": 0.8507649468201081,
+      "eval_loss": 0.501762330532074,
+      "eval_runtime": 9.2272,
+      "eval_samples_per_second": 61.774,
+      "eval_steps_per_second": 7.803,
+      "step": 570
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 7.222433090209961,
+      "learning_rate": 2.3694736842105262e-05,
+      "loss": 0.4792,
+      "step": 600
+    },
+    {
+      "epoch": 1.1403508771929824,
+      "grad_norm": 14.4037504196167,
+      "learning_rate": 2.3168421052631582e-05,
+      "loss": 0.4212,
+      "step": 650
+    },
+    {
+      "epoch": 1.2280701754385965,
+      "grad_norm": 1.6871181726455688,
+      "learning_rate": 2.2642105263157895e-05,
+      "loss": 0.5112,
+      "step": 700
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 12.315402030944824,
+      "learning_rate": 2.211578947368421e-05,
+      "loss": 0.3467,
+      "step": 750
+    },
+    {
+      "epoch": 1.4035087719298245,
+      "grad_norm": 26.74939727783203,
+      "learning_rate": 2.1589473684210528e-05,
+      "loss": 0.5507,
+      "step": 800
+    },
+    {
+      "epoch": 1.4912280701754386,
+      "grad_norm": 11.844022750854492,
+      "learning_rate": 2.1063157894736844e-05,
+      "loss": 0.4319,
+      "step": 850
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 0.30326738953590393,
+      "learning_rate": 2.0536842105263157e-05,
+      "loss": 0.4583,
+      "step": 900
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 6.0051140785217285,
+      "learning_rate": 2.0010526315789477e-05,
+      "loss": 0.3868,
+      "step": 950
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 1.0601614713668823,
+      "learning_rate": 1.948421052631579e-05,
+      "loss": 0.4607,
+      "step": 1000
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 0.5424970984458923,
+      "learning_rate": 1.8957894736842106e-05,
+      "loss": 0.4468,
+      "step": 1050
+    },
+    {
+      "epoch": 1.9298245614035088,
+      "grad_norm": 14.800076484680176,
+      "learning_rate": 1.8431578947368423e-05,
+      "loss": 0.4958,
+      "step": 1100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8719298245614036,
+      "eval_f1_macro": 0.8596423207276622,
+      "eval_f1_weighted": 0.8710256158201644,
+      "eval_loss": 0.48058807849884033,
+      "eval_runtime": 9.1284,
+      "eval_samples_per_second": 62.442,
+      "eval_steps_per_second": 7.887,
+      "step": 1140
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2850,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1199281725677568.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1140/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75e59a4485b50670550ee1f98c4f17155f387568fb8c6b921b878e2ea24de3f8
+size 5304

checkpoint-1710/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "architectures": [
+    "ElectraForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "electra",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "summary_activation": "gelu",
+  "summary_last_dropout": 0.1,
+  "summary_type": "first",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1710/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2913bbcde2c37bf69585c41308a91aa354cba8447ae2f82909b05eb92bb87897
+size 442505824

checkpoint-1710/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4eee0cdec76ad0d1b1a3927635d35cef35151c6625da91e250c8e1c9b6e3635
+size 885131514

checkpoint-1710/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ef2ed34cefa3c64aafe034252aabaf5bc4a526e5fb0d06ef6d466a1df11bb42
+size 14244

checkpoint-1710/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d195afd31b7974adc795724099e3f38c5d8dcd84f04dc1ddd6cdf6e5ee28aee
+size 1064

checkpoint-1710/trainer_state.json ADDED Viewed

	@@ -0,0 +1,305 @@

+{
+  "best_global_step": 1710,
+  "best_metric": 0.876431567492838,
+  "best_model_checkpoint": "./banglabert-hate-speech/checkpoint-1710",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1710,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08771929824561403,
+      "grad_norm": 2.613939046859741,
+      "learning_rate": 2.9484210526315792e-05,
+      "loss": 1.2847,
+      "step": 50
+    },
+    {
+      "epoch": 0.17543859649122806,
+      "grad_norm": 2.230876922607422,
+      "learning_rate": 2.8957894736842105e-05,
+      "loss": 1.1609,
+      "step": 100
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 10.591499328613281,
+      "learning_rate": 2.8431578947368422e-05,
+      "loss": 1.033,
+      "step": 150
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 4.717245101928711,
+      "learning_rate": 2.7905263157894738e-05,
+      "loss": 0.9866,
+      "step": 200
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 7.096415042877197,
+      "learning_rate": 2.7378947368421055e-05,
+      "loss": 0.9235,
+      "step": 250
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 5.946366786956787,
+      "learning_rate": 2.6852631578947368e-05,
+      "loss": 0.7276,
+      "step": 300
+    },
+    {
+      "epoch": 0.6140350877192983,
+      "grad_norm": 2.292181968688965,
+      "learning_rate": 2.6326315789473687e-05,
+      "loss": 0.6928,
+      "step": 350
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 7.117995262145996,
+      "learning_rate": 2.58e-05,
+      "loss": 0.7734,
+      "step": 400
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 1.2756074666976929,
+      "learning_rate": 2.5273684210526317e-05,
+      "loss": 0.602,
+      "step": 450
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 2.6861534118652344,
+      "learning_rate": 2.4747368421052633e-05,
+      "loss": 0.6134,
+      "step": 500
+    },
+    {
+      "epoch": 0.9649122807017544,
+      "grad_norm": 11.638345718383789,
+      "learning_rate": 2.422105263157895e-05,
+      "loss": 0.517,
+      "step": 550
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8491228070175438,
+      "eval_f1_macro": 0.8364544727451704,
+      "eval_f1_weighted": 0.8507649468201081,
+      "eval_loss": 0.501762330532074,
+      "eval_runtime": 9.2272,
+      "eval_samples_per_second": 61.774,
+      "eval_steps_per_second": 7.803,
+      "step": 570
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 7.222433090209961,
+      "learning_rate": 2.3694736842105262e-05,
+      "loss": 0.4792,
+      "step": 600
+    },
+    {
+      "epoch": 1.1403508771929824,
+      "grad_norm": 14.4037504196167,
+      "learning_rate": 2.3168421052631582e-05,
+      "loss": 0.4212,
+      "step": 650
+    },
+    {
+      "epoch": 1.2280701754385965,
+      "grad_norm": 1.6871181726455688,
+      "learning_rate": 2.2642105263157895e-05,
+      "loss": 0.5112,
+      "step": 700
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 12.315402030944824,
+      "learning_rate": 2.211578947368421e-05,
+      "loss": 0.3467,
+      "step": 750
+    },
+    {
+      "epoch": 1.4035087719298245,
+      "grad_norm": 26.74939727783203,
+      "learning_rate": 2.1589473684210528e-05,
+      "loss": 0.5507,
+      "step": 800
+    },
+    {
+      "epoch": 1.4912280701754386,
+      "grad_norm": 11.844022750854492,
+      "learning_rate": 2.1063157894736844e-05,
+      "loss": 0.4319,
+      "step": 850
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 0.30326738953590393,
+      "learning_rate": 2.0536842105263157e-05,
+      "loss": 0.4583,
+      "step": 900
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 6.0051140785217285,
+      "learning_rate": 2.0010526315789477e-05,
+      "loss": 0.3868,
+      "step": 950
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 1.0601614713668823,
+      "learning_rate": 1.948421052631579e-05,
+      "loss": 0.4607,
+      "step": 1000
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 0.5424970984458923,
+      "learning_rate": 1.8957894736842106e-05,
+      "loss": 0.4468,
+      "step": 1050
+    },
+    {
+      "epoch": 1.9298245614035088,
+      "grad_norm": 14.800076484680176,
+      "learning_rate": 1.8431578947368423e-05,
+      "loss": 0.4958,
+      "step": 1100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8719298245614036,
+      "eval_f1_macro": 0.8596423207276622,
+      "eval_f1_weighted": 0.8710256158201644,
+      "eval_loss": 0.48058807849884033,
+      "eval_runtime": 9.1284,
+      "eval_samples_per_second": 62.442,
+      "eval_steps_per_second": 7.887,
+      "step": 1140
+    },
+    {
+      "epoch": 2.017543859649123,
+      "grad_norm": 20.266742706298828,
+      "learning_rate": 1.7905263157894736e-05,
+      "loss": 0.3943,
+      "step": 1150
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 0.22429589927196503,
+      "learning_rate": 1.7378947368421052e-05,
+      "loss": 0.2996,
+      "step": 1200
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 0.8915501236915588,
+      "learning_rate": 1.685263157894737e-05,
+      "loss": 0.3662,
+      "step": 1250
+    },
+    {
+      "epoch": 2.280701754385965,
+      "grad_norm": 1.173509955406189,
+      "learning_rate": 1.6326315789473685e-05,
+      "loss": 0.2995,
+      "step": 1300
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "grad_norm": 0.16873787343502045,
+      "learning_rate": 1.5799999999999998e-05,
+      "loss": 0.3123,
+      "step": 1350
+    },
+    {
+      "epoch": 2.456140350877193,
+      "grad_norm": 13.355467796325684,
+      "learning_rate": 1.5273684210526318e-05,
+      "loss": 0.3127,
+      "step": 1400
+    },
+    {
+      "epoch": 2.543859649122807,
+      "grad_norm": 13.341830253601074,
+      "learning_rate": 1.4747368421052632e-05,
+      "loss": 0.2525,
+      "step": 1450
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 0.2885662913322449,
+      "learning_rate": 1.4221052631578949e-05,
+      "loss": 0.2998,
+      "step": 1500
+    },
+    {
+      "epoch": 2.719298245614035,
+      "grad_norm": 2.877472400665283,
+      "learning_rate": 1.3694736842105263e-05,
+      "loss": 0.3174,
+      "step": 1550
+    },
+    {
+      "epoch": 2.807017543859649,
+      "grad_norm": 3.695666790008545,
+      "learning_rate": 1.316842105263158e-05,
+      "loss": 0.341,
+      "step": 1600
+    },
+    {
+      "epoch": 2.8947368421052633,
+      "grad_norm": 20.929218292236328,
+      "learning_rate": 1.2642105263157896e-05,
+      "loss": 0.3093,
+      "step": 1650
+    },
+    {
+      "epoch": 2.982456140350877,
+      "grad_norm": 0.13824953138828278,
+      "learning_rate": 1.211578947368421e-05,
+      "loss": 0.2969,
+      "step": 1700
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8859649122807017,
+      "eval_f1_macro": 0.876431567492838,
+      "eval_f1_weighted": 0.8855810649898733,
+      "eval_loss": 0.5191295742988586,
+      "eval_runtime": 9.2195,
+      "eval_samples_per_second": 61.826,
+      "eval_steps_per_second": 7.81,
+      "step": 1710
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2850,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1798922588516352.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1710/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75e59a4485b50670550ee1f98c4f17155f387568fb8c6b921b878e2ea24de3f8
+size 5304

checkpoint-2280/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "architectures": [
+    "ElectraForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "electra",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "summary_activation": "gelu",
+  "summary_last_dropout": 0.1,
+  "summary_type": "first",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-2280/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f53cf907ff8e5ecc13cb997f3873e9ff3925f31edb36ffd1fc40375e314ae61e
+size 442505824

checkpoint-2280/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db2b21ecc5fa604e0ae728d50149e1841e8dad6e932b4f61664be88bbb14a789
+size 885131514

checkpoint-2280/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb163261fd9ce3891ff2abe6b12d4585aab20f6b0e4e0ad8d8d83aeb48ac480b
+size 14244

checkpoint-2280/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe981a7c7d2a16d26df56c8d97387cc5dad6bcddcbf70d958184abb073cbdfaf
+size 1064

checkpoint-2280/trainer_state.json ADDED Viewed

	@@ -0,0 +1,393 @@

+{
+  "best_global_step": 1710,
+  "best_metric": 0.876431567492838,
+  "best_model_checkpoint": "./banglabert-hate-speech/checkpoint-1710",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 2280,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08771929824561403,
+      "grad_norm": 2.613939046859741,
+      "learning_rate": 2.9484210526315792e-05,
+      "loss": 1.2847,
+      "step": 50
+    },
+    {
+      "epoch": 0.17543859649122806,
+      "grad_norm": 2.230876922607422,
+      "learning_rate": 2.8957894736842105e-05,
+      "loss": 1.1609,
+      "step": 100
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 10.591499328613281,
+      "learning_rate": 2.8431578947368422e-05,
+      "loss": 1.033,
+      "step": 150
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 4.717245101928711,
+      "learning_rate": 2.7905263157894738e-05,
+      "loss": 0.9866,
+      "step": 200
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 7.096415042877197,
+      "learning_rate": 2.7378947368421055e-05,
+      "loss": 0.9235,
+      "step": 250
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 5.946366786956787,
+      "learning_rate": 2.6852631578947368e-05,
+      "loss": 0.7276,
+      "step": 300
+    },
+    {
+      "epoch": 0.6140350877192983,
+      "grad_norm": 2.292181968688965,
+      "learning_rate": 2.6326315789473687e-05,
+      "loss": 0.6928,
+      "step": 350
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 7.117995262145996,
+      "learning_rate": 2.58e-05,
+      "loss": 0.7734,
+      "step": 400
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 1.2756074666976929,
+      "learning_rate": 2.5273684210526317e-05,
+      "loss": 0.602,
+      "step": 450
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 2.6861534118652344,
+      "learning_rate": 2.4747368421052633e-05,
+      "loss": 0.6134,
+      "step": 500
+    },
+    {
+      "epoch": 0.9649122807017544,
+      "grad_norm": 11.638345718383789,
+      "learning_rate": 2.422105263157895e-05,
+      "loss": 0.517,
+      "step": 550
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8491228070175438,
+      "eval_f1_macro": 0.8364544727451704,
+      "eval_f1_weighted": 0.8507649468201081,
+      "eval_loss": 0.501762330532074,
+      "eval_runtime": 9.2272,
+      "eval_samples_per_second": 61.774,
+      "eval_steps_per_second": 7.803,
+      "step": 570
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 7.222433090209961,
+      "learning_rate": 2.3694736842105262e-05,
+      "loss": 0.4792,
+      "step": 600
+    },
+    {
+      "epoch": 1.1403508771929824,
+      "grad_norm": 14.4037504196167,
+      "learning_rate": 2.3168421052631582e-05,
+      "loss": 0.4212,
+      "step": 650
+    },
+    {
+      "epoch": 1.2280701754385965,
+      "grad_norm": 1.6871181726455688,
+      "learning_rate": 2.2642105263157895e-05,
+      "loss": 0.5112,
+      "step": 700
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 12.315402030944824,
+      "learning_rate": 2.211578947368421e-05,
+      "loss": 0.3467,
+      "step": 750
+    },
+    {
+      "epoch": 1.4035087719298245,
+      "grad_norm": 26.74939727783203,
+      "learning_rate": 2.1589473684210528e-05,
+      "loss": 0.5507,
+      "step": 800
+    },
+    {
+      "epoch": 1.4912280701754386,
+      "grad_norm": 11.844022750854492,
+      "learning_rate": 2.1063157894736844e-05,
+      "loss": 0.4319,
+      "step": 850
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 0.30326738953590393,
+      "learning_rate": 2.0536842105263157e-05,
+      "loss": 0.4583,
+      "step": 900
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 6.0051140785217285,
+      "learning_rate": 2.0010526315789477e-05,
+      "loss": 0.3868,
+      "step": 950
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 1.0601614713668823,
+      "learning_rate": 1.948421052631579e-05,
+      "loss": 0.4607,
+      "step": 1000
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 0.5424970984458923,
+      "learning_rate": 1.8957894736842106e-05,
+      "loss": 0.4468,
+      "step": 1050
+    },
+    {
+      "epoch": 1.9298245614035088,
+      "grad_norm": 14.800076484680176,
+      "learning_rate": 1.8431578947368423e-05,
+      "loss": 0.4958,
+      "step": 1100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8719298245614036,
+      "eval_f1_macro": 0.8596423207276622,
+      "eval_f1_weighted": 0.8710256158201644,
+      "eval_loss": 0.48058807849884033,
+      "eval_runtime": 9.1284,
+      "eval_samples_per_second": 62.442,
+      "eval_steps_per_second": 7.887,
+      "step": 1140
+    },
+    {
+      "epoch": 2.017543859649123,
+      "grad_norm": 20.266742706298828,
+      "learning_rate": 1.7905263157894736e-05,
+      "loss": 0.3943,
+      "step": 1150
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 0.22429589927196503,
+      "learning_rate": 1.7378947368421052e-05,
+      "loss": 0.2996,
+      "step": 1200
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 0.8915501236915588,
+      "learning_rate": 1.685263157894737e-05,
+      "loss": 0.3662,
+      "step": 1250
+    },
+    {
+      "epoch": 2.280701754385965,
+      "grad_norm": 1.173509955406189,
+      "learning_rate": 1.6326315789473685e-05,
+      "loss": 0.2995,
+      "step": 1300
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "grad_norm": 0.16873787343502045,
+      "learning_rate": 1.5799999999999998e-05,
+      "loss": 0.3123,
+      "step": 1350
+    },
+    {
+      "epoch": 2.456140350877193,
+      "grad_norm": 13.355467796325684,
+      "learning_rate": 1.5273684210526318e-05,
+      "loss": 0.3127,
+      "step": 1400
+    },
+    {
+      "epoch": 2.543859649122807,
+      "grad_norm": 13.341830253601074,
+      "learning_rate": 1.4747368421052632e-05,
+      "loss": 0.2525,
+      "step": 1450
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 0.2885662913322449,
+      "learning_rate": 1.4221052631578949e-05,
+      "loss": 0.2998,
+      "step": 1500
+    },
+    {
+      "epoch": 2.719298245614035,
+      "grad_norm": 2.877472400665283,
+      "learning_rate": 1.3694736842105263e-05,
+      "loss": 0.3174,
+      "step": 1550
+    },
+    {
+      "epoch": 2.807017543859649,
+      "grad_norm": 3.695666790008545,
+      "learning_rate": 1.316842105263158e-05,
+      "loss": 0.341,
+      "step": 1600
+    },
+    {
+      "epoch": 2.8947368421052633,
+      "grad_norm": 20.929218292236328,
+      "learning_rate": 1.2642105263157896e-05,
+      "loss": 0.3093,
+      "step": 1650
+    },
+    {
+      "epoch": 2.982456140350877,
+      "grad_norm": 0.13824953138828278,
+      "learning_rate": 1.211578947368421e-05,
+      "loss": 0.2969,
+      "step": 1700
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8859649122807017,
+      "eval_f1_macro": 0.876431567492838,
+      "eval_f1_weighted": 0.8855810649898733,
+      "eval_loss": 0.5191295742988586,
+      "eval_runtime": 9.2195,
+      "eval_samples_per_second": 61.826,
+      "eval_steps_per_second": 7.81,
+      "step": 1710
+    },
+    {
+      "epoch": 3.0701754385964914,
+      "grad_norm": 0.19890473783016205,
+      "learning_rate": 1.1589473684210527e-05,
+      "loss": 0.2249,
+      "step": 1750
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "grad_norm": 0.09896814078092575,
+      "learning_rate": 1.1063157894736843e-05,
+      "loss": 0.1578,
+      "step": 1800
+    },
+    {
+      "epoch": 3.245614035087719,
+      "grad_norm": 0.18045368790626526,
+      "learning_rate": 1.0536842105263158e-05,
+      "loss": 0.1534,
+      "step": 1850
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 2.493330478668213,
+      "learning_rate": 1.0010526315789474e-05,
+      "loss": 0.181,
+      "step": 1900
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "grad_norm": 0.25888559222221375,
+      "learning_rate": 9.484210526315791e-06,
+      "loss": 0.1758,
+      "step": 1950
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "grad_norm": 59.44745635986328,
+      "learning_rate": 8.957894736842106e-06,
+      "loss": 0.2045,
+      "step": 2000
+    },
+    {
+      "epoch": 3.5964912280701755,
+      "grad_norm": 0.15124382078647614,
+      "learning_rate": 8.431578947368422e-06,
+      "loss": 0.3103,
+      "step": 2050
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "grad_norm": 4.733994007110596,
+      "learning_rate": 7.905263157894738e-06,
+      "loss": 0.2384,
+      "step": 2100
+    },
+    {
+      "epoch": 3.7719298245614032,
+      "grad_norm": 0.46031907200813293,
+      "learning_rate": 7.378947368421053e-06,
+      "loss": 0.1849,
+      "step": 2150
+    },
+    {
+      "epoch": 3.8596491228070176,
+      "grad_norm": 5.210213661193848,
+      "learning_rate": 6.8526315789473685e-06,
+      "loss": 0.2268,
+      "step": 2200
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 0.19484597444534302,
+      "learning_rate": 6.326315789473684e-06,
+      "loss": 0.2313,
+      "step": 2250
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.875438596491228,
+      "eval_f1_macro": 0.8628016579647876,
+      "eval_f1_weighted": 0.8751100908173923,
+      "eval_loss": 0.5712200999259949,
+      "eval_runtime": 9.187,
+      "eval_samples_per_second": 62.044,
+      "eval_steps_per_second": 7.837,
+      "step": 2280
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2850,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2398563451355136.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2280/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75e59a4485b50670550ee1f98c4f17155f387568fb8c6b921b878e2ea24de3f8
+size 5304

checkpoint-2850/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "architectures": [
+    "ElectraForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "electra",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "summary_activation": "gelu",
+  "summary_last_dropout": 0.1,
+  "summary_type": "first",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-2850/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:103e82756deba030dabe6c6131e9c35ddd75617542c822bcb88d9d47ea3d692c
+size 442505824

checkpoint-2850/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fba9d38022474d3dbcb755e4c864d65ebba0ad98dad2735698de8a1d53a15834
+size 885131514

checkpoint-2850/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42a34d67eebeddc815e3e11e61db97d051e4d58700b1bfcc8001f211636083fb
+size 14244

checkpoint-2850/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:469267c99727d972deab65a94ded1577aa272e0ff46092f59ffd1d373c2c738d
+size 1064

checkpoint-2850/trainer_state.json ADDED Viewed

	@@ -0,0 +1,488 @@

+{
+  "best_global_step": 1710,
+  "best_metric": 0.876431567492838,
+  "best_model_checkpoint": "./banglabert-hate-speech/checkpoint-1710",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 2850,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08771929824561403,
+      "grad_norm": 2.613939046859741,
+      "learning_rate": 2.9484210526315792e-05,
+      "loss": 1.2847,
+      "step": 50
+    },
+    {
+      "epoch": 0.17543859649122806,
+      "grad_norm": 2.230876922607422,
+      "learning_rate": 2.8957894736842105e-05,
+      "loss": 1.1609,
+      "step": 100
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 10.591499328613281,
+      "learning_rate": 2.8431578947368422e-05,
+      "loss": 1.033,
+      "step": 150
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 4.717245101928711,
+      "learning_rate": 2.7905263157894738e-05,
+      "loss": 0.9866,
+      "step": 200
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 7.096415042877197,
+      "learning_rate": 2.7378947368421055e-05,
+      "loss": 0.9235,
+      "step": 250
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 5.946366786956787,
+      "learning_rate": 2.6852631578947368e-05,
+      "loss": 0.7276,
+      "step": 300
+    },
+    {
+      "epoch": 0.6140350877192983,
+      "grad_norm": 2.292181968688965,
+      "learning_rate": 2.6326315789473687e-05,
+      "loss": 0.6928,
+      "step": 350
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 7.117995262145996,
+      "learning_rate": 2.58e-05,
+      "loss": 0.7734,
+      "step": 400
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 1.2756074666976929,
+      "learning_rate": 2.5273684210526317e-05,
+      "loss": 0.602,
+      "step": 450
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 2.6861534118652344,
+      "learning_rate": 2.4747368421052633e-05,
+      "loss": 0.6134,
+      "step": 500
+    },
+    {
+      "epoch": 0.9649122807017544,
+      "grad_norm": 11.638345718383789,
+      "learning_rate": 2.422105263157895e-05,
+      "loss": 0.517,
+      "step": 550
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8491228070175438,
+      "eval_f1_macro": 0.8364544727451704,
+      "eval_f1_weighted": 0.8507649468201081,
+      "eval_loss": 0.501762330532074,
+      "eval_runtime": 9.2272,
+      "eval_samples_per_second": 61.774,
+      "eval_steps_per_second": 7.803,
+      "step": 570
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 7.222433090209961,
+      "learning_rate": 2.3694736842105262e-05,
+      "loss": 0.4792,
+      "step": 600
+    },
+    {
+      "epoch": 1.1403508771929824,
+      "grad_norm": 14.4037504196167,
+      "learning_rate": 2.3168421052631582e-05,
+      "loss": 0.4212,
+      "step": 650
+    },
+    {
+      "epoch": 1.2280701754385965,
+      "grad_norm": 1.6871181726455688,
+      "learning_rate": 2.2642105263157895e-05,
+      "loss": 0.5112,
+      "step": 700
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 12.315402030944824,
+      "learning_rate": 2.211578947368421e-05,
+      "loss": 0.3467,
+      "step": 750
+    },
+    {
+      "epoch": 1.4035087719298245,
+      "grad_norm": 26.74939727783203,
+      "learning_rate": 2.1589473684210528e-05,
+      "loss": 0.5507,
+      "step": 800
+    },
+    {
+      "epoch": 1.4912280701754386,
+      "grad_norm": 11.844022750854492,
+      "learning_rate": 2.1063157894736844e-05,
+      "loss": 0.4319,
+      "step": 850
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 0.30326738953590393,
+      "learning_rate": 2.0536842105263157e-05,
+      "loss": 0.4583,
+      "step": 900
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 6.0051140785217285,
+      "learning_rate": 2.0010526315789477e-05,
+      "loss": 0.3868,
+      "step": 950
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 1.0601614713668823,
+      "learning_rate": 1.948421052631579e-05,
+      "loss": 0.4607,
+      "step": 1000
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 0.5424970984458923,
+      "learning_rate": 1.8957894736842106e-05,
+      "loss": 0.4468,
+      "step": 1050
+    },
+    {
+      "epoch": 1.9298245614035088,
+      "grad_norm": 14.800076484680176,
+      "learning_rate": 1.8431578947368423e-05,
+      "loss": 0.4958,
+      "step": 1100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8719298245614036,
+      "eval_f1_macro": 0.8596423207276622,
+      "eval_f1_weighted": 0.8710256158201644,
+      "eval_loss": 0.48058807849884033,
+      "eval_runtime": 9.1284,
+      "eval_samples_per_second": 62.442,
+      "eval_steps_per_second": 7.887,
+      "step": 1140
+    },
+    {
+      "epoch": 2.017543859649123,
+      "grad_norm": 20.266742706298828,
+      "learning_rate": 1.7905263157894736e-05,
+      "loss": 0.3943,
+      "step": 1150
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 0.22429589927196503,
+      "learning_rate": 1.7378947368421052e-05,
+      "loss": 0.2996,
+      "step": 1200
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 0.8915501236915588,
+      "learning_rate": 1.685263157894737e-05,
+      "loss": 0.3662,
+      "step": 1250
+    },
+    {
+      "epoch": 2.280701754385965,
+      "grad_norm": 1.173509955406189,
+      "learning_rate": 1.6326315789473685e-05,
+      "loss": 0.2995,
+      "step": 1300
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "grad_norm": 0.16873787343502045,
+      "learning_rate": 1.5799999999999998e-05,
+      "loss": 0.3123,
+      "step": 1350
+    },
+    {
+      "epoch": 2.456140350877193,
+      "grad_norm": 13.355467796325684,
+      "learning_rate": 1.5273684210526318e-05,
+      "loss": 0.3127,
+      "step": 1400
+    },
+    {
+      "epoch": 2.543859649122807,
+      "grad_norm": 13.341830253601074,
+      "learning_rate": 1.4747368421052632e-05,
+      "loss": 0.2525,
+      "step": 1450
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 0.2885662913322449,
+      "learning_rate": 1.4221052631578949e-05,
+      "loss": 0.2998,
+      "step": 1500
+    },
+    {
+      "epoch": 2.719298245614035,
+      "grad_norm": 2.877472400665283,
+      "learning_rate": 1.3694736842105263e-05,
+      "loss": 0.3174,
+      "step": 1550
+    },
+    {
+      "epoch": 2.807017543859649,
+      "grad_norm": 3.695666790008545,
+      "learning_rate": 1.316842105263158e-05,
+      "loss": 0.341,
+      "step": 1600
+    },
+    {
+      "epoch": 2.8947368421052633,
+      "grad_norm": 20.929218292236328,
+      "learning_rate": 1.2642105263157896e-05,
+      "loss": 0.3093,
+      "step": 1650
+    },
+    {
+      "epoch": 2.982456140350877,
+      "grad_norm": 0.13824953138828278,
+      "learning_rate": 1.211578947368421e-05,
+      "loss": 0.2969,
+      "step": 1700
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8859649122807017,
+      "eval_f1_macro": 0.876431567492838,
+      "eval_f1_weighted": 0.8855810649898733,
+      "eval_loss": 0.5191295742988586,
+      "eval_runtime": 9.2195,
+      "eval_samples_per_second": 61.826,
+      "eval_steps_per_second": 7.81,
+      "step": 1710
+    },
+    {
+      "epoch": 3.0701754385964914,
+      "grad_norm": 0.19890473783016205,
+      "learning_rate": 1.1589473684210527e-05,
+      "loss": 0.2249,
+      "step": 1750
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "grad_norm": 0.09896814078092575,
+      "learning_rate": 1.1063157894736843e-05,
+      "loss": 0.1578,
+      "step": 1800
+    },
+    {
+      "epoch": 3.245614035087719,
+      "grad_norm": 0.18045368790626526,
+      "learning_rate": 1.0536842105263158e-05,
+      "loss": 0.1534,
+      "step": 1850
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 2.493330478668213,
+      "learning_rate": 1.0010526315789474e-05,
+      "loss": 0.181,
+      "step": 1900
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "grad_norm": 0.25888559222221375,
+      "learning_rate": 9.484210526315791e-06,
+      "loss": 0.1758,
+      "step": 1950
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "grad_norm": 59.44745635986328,
+      "learning_rate": 8.957894736842106e-06,
+      "loss": 0.2045,
+      "step": 2000
+    },
+    {
+      "epoch": 3.5964912280701755,
+      "grad_norm": 0.15124382078647614,
+      "learning_rate": 8.431578947368422e-06,
+      "loss": 0.3103,
+      "step": 2050
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "grad_norm": 4.733994007110596,
+      "learning_rate": 7.905263157894738e-06,
+      "loss": 0.2384,
+      "step": 2100
+    },
+    {
+      "epoch": 3.7719298245614032,
+      "grad_norm": 0.46031907200813293,
+      "learning_rate": 7.378947368421053e-06,
+      "loss": 0.1849,
+      "step": 2150
+    },
+    {
+      "epoch": 3.8596491228070176,
+      "grad_norm": 5.210213661193848,
+      "learning_rate": 6.8526315789473685e-06,
+      "loss": 0.2268,
+      "step": 2200
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 0.19484597444534302,
+      "learning_rate": 6.326315789473684e-06,
+      "loss": 0.2313,
+      "step": 2250
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.875438596491228,
+      "eval_f1_macro": 0.8628016579647876,
+      "eval_f1_weighted": 0.8751100908173923,
+      "eval_loss": 0.5712200999259949,
+      "eval_runtime": 9.187,
+      "eval_samples_per_second": 62.044,
+      "eval_steps_per_second": 7.837,
+      "step": 2280
+    },
+    {
+      "epoch": 4.035087719298246,
+      "grad_norm": 0.6245447397232056,
+      "learning_rate": 5.8e-06,
+      "loss": 0.1366,
+      "step": 2300
+    },
+    {
+      "epoch": 4.12280701754386,
+      "grad_norm": 13.598281860351562,
+      "learning_rate": 5.273684210526316e-06,
+      "loss": 0.1524,
+      "step": 2350
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "grad_norm": 0.09752348810434341,
+      "learning_rate": 4.747368421052631e-06,
+      "loss": 0.1104,
+      "step": 2400
+    },
+    {
+      "epoch": 4.298245614035087,
+      "grad_norm": 0.12292918562889099,
+      "learning_rate": 4.221052631578948e-06,
+      "loss": 0.1157,
+      "step": 2450
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 0.06472612172365189,
+      "learning_rate": 3.6947368421052633e-06,
+      "loss": 0.1327,
+      "step": 2500
+    },
+    {
+      "epoch": 4.473684210526316,
+      "grad_norm": 3.8604917526245117,
+      "learning_rate": 3.1684210526315793e-06,
+      "loss": 0.1394,
+      "step": 2550
+    },
+    {
+      "epoch": 4.56140350877193,
+      "grad_norm": 0.390594482421875,
+      "learning_rate": 2.6421052631578948e-06,
+      "loss": 0.1442,
+      "step": 2600
+    },
+    {
+      "epoch": 4.649122807017544,
+      "grad_norm": 1.7911845445632935,
+      "learning_rate": 2.1157894736842107e-06,
+      "loss": 0.1759,
+      "step": 2650
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "grad_norm": 0.17604109644889832,
+      "learning_rate": 1.5894736842105263e-06,
+      "loss": 0.1394,
+      "step": 2700
+    },
+    {
+      "epoch": 4.824561403508772,
+      "grad_norm": 0.08516625314950943,
+      "learning_rate": 1.063157894736842e-06,
+      "loss": 0.1408,
+      "step": 2750
+    },
+    {
+      "epoch": 4.912280701754386,
+      "grad_norm": 0.03146979585289955,
+      "learning_rate": 5.368421052631578e-07,
+      "loss": 0.1251,
+      "step": 2800
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.661275863647461,
+      "learning_rate": 1.0526315789473684e-08,
+      "loss": 0.0834,
+      "step": 2850
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8859649122807017,
+      "eval_f1_macro": 0.8727182063209552,
+      "eval_f1_weighted": 0.8854333132110179,
+      "eval_loss": 0.5799562931060791,
+      "eval_runtime": 9.1822,
+      "eval_samples_per_second": 62.077,
+      "eval_steps_per_second": 7.841,
+      "step": 2850
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2850,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2998204314193920.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2850/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75e59a4485b50670550ee1f98c4f17155f387568fb8c6b921b878e2ea24de3f8
+size 5304

checkpoint-570/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "architectures": [
+    "ElectraForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": "Personal",
+    "1": "Political",
+    "2": "Religious",
+    "3": "Geopolitical"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "electra",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "summary_activation": "gelu",
+  "summary_last_dropout": 0.1,
+  "summary_type": "first",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-570/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ac333d69f89fdc32bde19b14d4116b849c6111a5314f31613e821639d59be83
+size 442505824

checkpoint-570/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:444c3b1195463a3224bb41abd49d002723211f122800308c6c074d11b2bb2f7b
+size 885131514

checkpoint-570/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:497ebba5762cf7b3a63a1bb7a679a7fc15de654767c2ef5d74fe834391b49a30
+size 14244

checkpoint-570/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7534b6da25b19285c5c1070dba5090606637aa8907845f7a46fec774f90bfdb
+size 1064

checkpoint-570/trainer_state.json ADDED Viewed

	@@ -0,0 +1,122 @@

+{
+  "best_global_step": 570,
+  "best_metric": 0.8364544727451704,
+  "best_model_checkpoint": "./banglabert-hate-speech/checkpoint-570",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 570,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08771929824561403,
+      "grad_norm": 2.613939046859741,
+      "learning_rate": 2.9484210526315792e-05,
+      "loss": 1.2847,
+      "step": 50
+    },
+    {
+      "epoch": 0.17543859649122806,
+      "grad_norm": 2.230876922607422,
+      "learning_rate": 2.8957894736842105e-05,
+      "loss": 1.1609,
+      "step": 100
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 10.591499328613281,
+      "learning_rate": 2.8431578947368422e-05,
+      "loss": 1.033,
+      "step": 150
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 4.717245101928711,
+      "learning_rate": 2.7905263157894738e-05,
+      "loss": 0.9866,
+      "step": 200
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 7.096415042877197,
+      "learning_rate": 2.7378947368421055e-05,
+      "loss": 0.9235,
+      "step": 250
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 5.946366786956787,
+      "learning_rate": 2.6852631578947368e-05,
+      "loss": 0.7276,
+      "step": 300
+    },
+    {
+      "epoch": 0.6140350877192983,
+      "grad_norm": 2.292181968688965,
+      "learning_rate": 2.6326315789473687e-05,
+      "loss": 0.6928,
+      "step": 350
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 7.117995262145996,
+      "learning_rate": 2.58e-05,
+      "loss": 0.7734,
+      "step": 400
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 1.2756074666976929,
+      "learning_rate": 2.5273684210526317e-05,
+      "loss": 0.602,
+      "step": 450
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 2.6861534118652344,
+      "learning_rate": 2.4747368421052633e-05,
+      "loss": 0.6134,
+      "step": 500
+    },
+    {
+      "epoch": 0.9649122807017544,
+      "grad_norm": 11.638345718383789,
+      "learning_rate": 2.422105263157895e-05,
+      "loss": 0.517,
+      "step": 550
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8491228070175438,
+      "eval_f1_macro": 0.8364544727451704,
+      "eval_f1_weighted": 0.8507649468201081,
+      "eval_loss": 0.501762330532074,
+      "eval_runtime": 9.2272,
+      "eval_samples_per_second": 61.774,
+      "eval_steps_per_second": 7.803,
+      "step": 570
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2850,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 599640862838784.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-570/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75e59a4485b50670550ee1f98c4f17155f387568fb8c6b921b878e2ea24de3f8
+size 5304