Initial model upload

Browse files

Files changed (12) hide show

README.md +77 -0
config.json +25 -0
model.safetensors +3 -0
runs/Mar04_03-47-59_5092f3fe7514/events.out.tfevents.1741060091.5092f3fe7514.891.0 +3 -0
runs/Mar04_03-55-40_5092f3fe7514/events.out.tfevents.1741060552.5092f3fe7514.891.1 +3 -0
runs/Mar04_03-55-40_5092f3fe7514/events.out.tfevents.1741061250.5092f3fe7514.891.2 +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +73 -0
trainer_state.json +623 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: sentence-transformers/all-mpnet-base-v2
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+- f1
+- precision
+- recall
+model-index:
+- name: classify-bluesky-1000-v2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# classify-bluesky-1000-v2
+This model is a fine-tuned version of [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0055
+- Accuracy: 0.9994
+- F1: 0.9994
+- Precision: 0.9994
+- Recall: 0.9994
+- Accuracy Label Bluesky: 1.0
+- Accuracy Label Non bluesky: 0.9992
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- num_epochs: 3
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy | F1     | Precision | Recall | Accuracy Label Bluesky | Accuracy Label Non bluesky |
+|:-------------:|:------:|:----:|:---------------:|:--------:|:------:|:---------:|:------:|:----------------------:|:--------------------------:|
+| 0.514         | 0.4292 | 100  | 0.4462          | 0.8747   | 0.8577 | 0.8925    | 0.8747 | 0.4832                 | 1.0                        |
+| 0.095         | 0.8584 | 200  | 0.0717          | 0.9984   | 0.9984 | 0.9984    | 0.9984 | 0.9948                 | 0.9996                     |
+| 0.031         | 1.2876 | 300  | 0.0230          | 1.0      | 1.0    | 1.0       | 1.0    | 1.0                    | 1.0                        |
+| 0.0139        | 1.7167 | 400  | 0.0099          | 1.0      | 1.0    | 1.0       | 1.0    | 1.0                    | 1.0                        |
+| 0.007         | 2.1459 | 500  | 0.0259          | 0.9947   | 0.9947 | 0.9948    | 0.9947 | 1.0                    | 0.9930                     |
+| 0.0045        | 2.5751 | 600  | 0.0060          | 0.9994   | 0.9994 | 0.9994    | 0.9994 | 1.0                    | 0.9992                     |
+### Framework versions
+- Transformers 4.49.0
+- Pytorch 2.5.1+cu124
+- Datasets 3.3.2
+- Tokenizers 0.21.0

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "sentence-transformers/all-mpnet-base-v2",
+  "architectures": [
+    "MPNetForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "mpnet",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "problem_type": "single_label_classification",
+  "relative_attention_num_buckets": 32,
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "vocab_size": 30527
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68212d994b81d6514eb1e0b7e7adb59a315c726f03b3c6eed3b61dda64620ea9
+size 437975200

runs/Mar04_03-47-59_5092f3fe7514/events.out.tfevents.1741060091.5092f3fe7514.891.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d7c6b641cbfceee73ea680c0662197550a0d1d6cad005fc9d948059fbfd4e2f
+size 5057

runs/Mar04_03-55-40_5092f3fe7514/events.out.tfevents.1741060552.5092f3fe7514.891.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:393b8a1b478a634d4576a43810e17dcbee299a72f16d086744d9c8d018b2a56b
+size 23559

runs/Mar04_03-55-40_5092f3fe7514/events.out.tfevents.1741061250.5092f3fe7514.891.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa18207fbeca21c79f1ed51a3d30691e5959734e4b3c742285452f5a3d960836
+size 696

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,73 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "104": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "30526": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "do_lower_case": true,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": 128,
+  "model_max_length": 512,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "MPNetTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,623 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 100,
+  "global_step": 699,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04291845493562232,
+      "grad_norm": 0.8440808057785034,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.6863,
+      "step": 10
+    },
+    {
+      "epoch": 0.08583690987124463,
+      "grad_norm": 0.7271698117256165,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.6822,
+      "step": 20
+    },
+    {
+      "epoch": 0.12875536480686695,
+      "grad_norm": 0.772187352180481,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.6756,
+      "step": 30
+    },
+    {
+      "epoch": 0.17167381974248927,
+      "grad_norm": 0.8175302743911743,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.6596,
+      "step": 40
+    },
+    {
+      "epoch": 0.2145922746781116,
+      "grad_norm": 0.6373170614242554,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6501,
+      "step": 50
+    },
+    {
+      "epoch": 0.2575107296137339,
+      "grad_norm": 0.6438242197036743,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.6365,
+      "step": 60
+    },
+    {
+      "epoch": 0.30042918454935624,
+      "grad_norm": 1.0084680318832397,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.6066,
+      "step": 70
+    },
+    {
+      "epoch": 0.34334763948497854,
+      "grad_norm": 0.736494779586792,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.5716,
+      "step": 80
+    },
+    {
+      "epoch": 0.38626609442060084,
+      "grad_norm": 0.7631027698516846,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.5571,
+      "step": 90
+    },
+    {
+      "epoch": 0.4291845493562232,
+      "grad_norm": 1.0123592615127563,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.514,
+      "step": 100
+    },
+    {
+      "epoch": 0.4291845493562232,
+      "eval_accuracy": 0.8747259630441591,
+      "eval_accuracy_label_bluesky": 0.48320413436692505,
+      "eval_accuracy_label_non bluesky": 1.0,
+      "eval_f1": 0.8576844954005327,
+      "eval_loss": 0.4462388753890991,
+      "eval_precision": 0.8925016334174604,
+      "eval_recall": 0.8747259630441591,
+      "eval_runtime": 16.059,
+      "eval_samples_per_second": 198.83,
+      "eval_steps_per_second": 12.454,
+      "step": 100
+    },
+    {
+      "epoch": 0.4721030042918455,
+      "grad_norm": 0.9895055890083313,
+      "learning_rate": 4.4e-06,
+      "loss": 0.4513,
+      "step": 110
+    },
+    {
+      "epoch": 0.5150214592274678,
+      "grad_norm": 1.004581332206726,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.368,
+      "step": 120
+    },
+    {
+      "epoch": 0.5579399141630901,
+      "grad_norm": 1.0057802200317383,
+      "learning_rate": 5.2e-06,
+      "loss": 0.3251,
+      "step": 130
+    },
+    {
+      "epoch": 0.6008583690987125,
+      "grad_norm": 0.8673408627510071,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.2666,
+      "step": 140
+    },
+    {
+      "epoch": 0.6437768240343348,
+      "grad_norm": 0.8042262196540833,
+      "learning_rate": 6e-06,
+      "loss": 0.2042,
+      "step": 150
+    },
+    {
+      "epoch": 0.6866952789699571,
+      "grad_norm": 0.705209493637085,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.1673,
+      "step": 160
+    },
+    {
+      "epoch": 0.7296137339055794,
+      "grad_norm": 0.6522665023803711,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.1469,
+      "step": 170
+    },
+    {
+      "epoch": 0.7725321888412017,
+      "grad_norm": 0.6036862134933472,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.124,
+      "step": 180
+    },
+    {
+      "epoch": 0.8154506437768241,
+      "grad_norm": 0.5399958491325378,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.1105,
+      "step": 190
+    },
+    {
+      "epoch": 0.8583690987124464,
+      "grad_norm": 0.49989593029022217,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.095,
+      "step": 200
+    },
+    {
+      "epoch": 0.8583690987124464,
+      "eval_accuracy": 0.998434074538052,
+      "eval_accuracy_label_bluesky": 0.9948320413436692,
+      "eval_accuracy_label_non bluesky": 0.9995866060355518,
+      "eval_f1": 0.9984330394292978,
+      "eval_loss": 0.07170984894037247,
+      "eval_precision": 0.9984344076205467,
+      "eval_recall": 0.998434074538052,
+      "eval_runtime": 16.3727,
+      "eval_samples_per_second": 195.019,
+      "eval_steps_per_second": 12.215,
+      "step": 200
+    },
+    {
+      "epoch": 0.9012875536480687,
+      "grad_norm": 4.4411444664001465,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.0998,
+      "step": 210
+    },
+    {
+      "epoch": 0.944206008583691,
+      "grad_norm": 0.4215564727783203,
+      "learning_rate": 8.8e-06,
+      "loss": 0.0759,
+      "step": 220
+    },
+    {
+      "epoch": 0.9871244635193133,
+      "grad_norm": 0.38805362582206726,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 0.0651,
+      "step": 230
+    },
+    {
+      "epoch": 1.0300429184549356,
+      "grad_norm": 0.3541722595691681,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.058,
+      "step": 240
+    },
+    {
+      "epoch": 1.0729613733905579,
+      "grad_norm": 0.3281799554824829,
+      "learning_rate": 1e-05,
+      "loss": 0.0527,
+      "step": 250
+    },
+    {
+      "epoch": 1.1158798283261802,
+      "grad_norm": 0.3049239218235016,
+      "learning_rate": 1.04e-05,
+      "loss": 0.047,
+      "step": 260
+    },
+    {
+      "epoch": 1.1587982832618025,
+      "grad_norm": 0.27242380380630493,
+      "learning_rate": 1.0800000000000002e-05,
+      "loss": 0.042,
+      "step": 270
+    },
+    {
+      "epoch": 1.201716738197425,
+      "grad_norm": 0.26639366149902344,
+      "learning_rate": 1.1200000000000001e-05,
+      "loss": 0.0381,
+      "step": 280
+    },
+    {
+      "epoch": 1.2446351931330473,
+      "grad_norm": 0.23575416207313538,
+      "learning_rate": 1.16e-05,
+      "loss": 0.035,
+      "step": 290
+    },
+    {
+      "epoch": 1.2875536480686696,
+      "grad_norm": 0.2203730046749115,
+      "learning_rate": 1.2e-05,
+      "loss": 0.031,
+      "step": 300
+    },
+    {
+      "epoch": 1.2875536480686696,
+      "eval_accuracy": 1.0,
+      "eval_accuracy_label_bluesky": 1.0,
+      "eval_accuracy_label_non bluesky": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.022965509444475174,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 16.4605,
+      "eval_samples_per_second": 193.979,
+      "eval_steps_per_second": 12.15,
+      "step": 300
+    },
+    {
+      "epoch": 1.3304721030042919,
+      "grad_norm": 0.2094569206237793,
+      "learning_rate": 1.2400000000000002e-05,
+      "loss": 0.0285,
+      "step": 310
+    },
+    {
+      "epoch": 1.3733905579399142,
+      "grad_norm": 0.18893343210220337,
+      "learning_rate": 1.2800000000000001e-05,
+      "loss": 0.0255,
+      "step": 320
+    },
+    {
+      "epoch": 1.4163090128755365,
+      "grad_norm": 0.1822691410779953,
+      "learning_rate": 1.3200000000000002e-05,
+      "loss": 0.0235,
+      "step": 330
+    },
+    {
+      "epoch": 1.4592274678111588,
+      "grad_norm": 0.2712848484516144,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 0.0365,
+      "step": 340
+    },
+    {
+      "epoch": 1.5021459227467813,
+      "grad_norm": 27.6467227935791,
+      "learning_rate": 1.4e-05,
+      "loss": 0.0442,
+      "step": 350
+    },
+    {
+      "epoch": 1.5450643776824036,
+      "grad_norm": 0.15123893320560455,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 0.0316,
+      "step": 360
+    },
+    {
+      "epoch": 1.5879828326180259,
+      "grad_norm": 0.14126092195510864,
+      "learning_rate": 1.48e-05,
+      "loss": 0.0174,
+      "step": 370
+    },
+    {
+      "epoch": 1.6309012875536482,
+      "grad_norm": 0.13003908097743988,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 0.016,
+      "step": 380
+    },
+    {
+      "epoch": 1.6738197424892705,
+      "grad_norm": 0.12764938175678253,
+      "learning_rate": 1.5600000000000003e-05,
+      "loss": 0.015,
+      "step": 390
+    },
+    {
+      "epoch": 1.7167381974248928,
+      "grad_norm": 0.12266356498003006,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0139,
+      "step": 400
+    },
+    {
+      "epoch": 1.7167381974248928,
+      "eval_accuracy": 1.0,
+      "eval_accuracy_label_bluesky": 1.0,
+      "eval_accuracy_label_non bluesky": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.009904815815389156,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 16.3409,
+      "eval_samples_per_second": 195.4,
+      "eval_steps_per_second": 12.239,
+      "step": 400
+    },
+    {
+      "epoch": 1.759656652360515,
+      "grad_norm": 0.10915858298540115,
+      "learning_rate": 1.64e-05,
+      "loss": 0.0126,
+      "step": 410
+    },
+    {
+      "epoch": 1.8025751072961373,
+      "grad_norm": 0.10050816088914871,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.0123,
+      "step": 420
+    },
+    {
+      "epoch": 1.8454935622317596,
+      "grad_norm": 0.09750162065029144,
+      "learning_rate": 1.72e-05,
+      "loss": 0.0135,
+      "step": 430
+    },
+    {
+      "epoch": 1.888412017167382,
+      "grad_norm": 0.09050226211547852,
+      "learning_rate": 1.76e-05,
+      "loss": 0.0101,
+      "step": 440
+    },
+    {
+      "epoch": 1.9313304721030042,
+      "grad_norm": 0.08614258468151093,
+      "learning_rate": 1.8e-05,
+      "loss": 0.0203,
+      "step": 450
+    },
+    {
+      "epoch": 1.9742489270386265,
+      "grad_norm": 0.08039192855358124,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 0.0109,
+      "step": 460
+    },
+    {
+      "epoch": 2.017167381974249,
+      "grad_norm": 0.07501527667045593,
+      "learning_rate": 1.88e-05,
+      "loss": 0.0084,
+      "step": 470
+    },
+    {
+      "epoch": 2.060085836909871,
+      "grad_norm": 31.131675720214844,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.0134,
+      "step": 480
+    },
+    {
+      "epoch": 2.1030042918454934,
+      "grad_norm": 0.0719398781657219,
+      "learning_rate": 1.9600000000000002e-05,
+      "loss": 0.0311,
+      "step": 490
+    },
+    {
+      "epoch": 2.1459227467811157,
+      "grad_norm": 0.06952013075351715,
+      "learning_rate": 2e-05,
+      "loss": 0.007,
+      "step": 500
+    },
+    {
+      "epoch": 2.1459227467811157,
+      "eval_accuracy": 0.9946758534293768,
+      "eval_accuracy_label_bluesky": 1.0,
+      "eval_accuracy_label_non bluesky": 0.992972302604382,
+      "eval_f1": 0.994695383411754,
+      "eval_loss": 0.02586308866739273,
+      "eval_precision": 0.9947902788297568,
+      "eval_recall": 0.9946758534293768,
+      "eval_runtime": 16.3887,
+      "eval_samples_per_second": 194.83,
+      "eval_steps_per_second": 12.204,
+      "step": 500
+    },
+    {
+      "epoch": 2.188841201716738,
+      "grad_norm": 0.06342656165361404,
+      "learning_rate": 1.899497487437186e-05,
+      "loss": 0.0267,
+      "step": 510
+    },
+    {
+      "epoch": 2.2317596566523603,
+      "grad_norm": 0.05855906754732132,
+      "learning_rate": 1.798994974874372e-05,
+      "loss": 0.0062,
+      "step": 520
+    },
+    {
+      "epoch": 2.274678111587983,
+      "grad_norm": 0.05645829439163208,
+      "learning_rate": 1.698492462311558e-05,
+      "loss": 0.0058,
+      "step": 530
+    },
+    {
+      "epoch": 2.317596566523605,
+      "grad_norm": 0.05568385869264603,
+      "learning_rate": 1.5979899497487437e-05,
+      "loss": 0.0056,
+      "step": 540
+    },
+    {
+      "epoch": 2.3605150214592276,
+      "grad_norm": 0.051322419196367264,
+      "learning_rate": 1.4974874371859299e-05,
+      "loss": 0.0052,
+      "step": 550
+    },
+    {
+      "epoch": 2.40343347639485,
+      "grad_norm": 2.771406650543213,
+      "learning_rate": 1.3969849246231157e-05,
+      "loss": 0.0206,
+      "step": 560
+    },
+    {
+      "epoch": 2.4463519313304722,
+      "grad_norm": 0.04993780702352524,
+      "learning_rate": 1.2964824120603017e-05,
+      "loss": 0.0049,
+      "step": 570
+    },
+    {
+      "epoch": 2.4892703862660945,
+      "grad_norm": 0.04749375954270363,
+      "learning_rate": 1.1959798994974876e-05,
+      "loss": 0.0047,
+      "step": 580
+    },
+    {
+      "epoch": 2.532188841201717,
+      "grad_norm": 0.04730561375617981,
+      "learning_rate": 1.0954773869346736e-05,
+      "loss": 0.0045,
+      "step": 590
+    },
+    {
+      "epoch": 2.575107296137339,
+      "grad_norm": 0.048863768577575684,
+      "learning_rate": 9.949748743718594e-06,
+      "loss": 0.0045,
+      "step": 600
+    },
+    {
+      "epoch": 2.575107296137339,
+      "eval_accuracy": 0.9993736298152208,
+      "eval_accuracy_label_bluesky": 1.0,
+      "eval_accuracy_label_non bluesky": 0.9991732120711038,
+      "eval_f1": 0.9993739044026467,
+      "eval_loss": 0.006034924183040857,
+      "eval_precision": 0.999375244171367,
+      "eval_recall": 0.9993736298152208,
+      "eval_runtime": 16.3578,
+      "eval_samples_per_second": 195.197,
+      "eval_steps_per_second": 12.227,
+      "step": 600
+    },
+    {
+      "epoch": 2.6180257510729614,
+      "grad_norm": 0.045305851846933365,
+      "learning_rate": 8.944723618090452e-06,
+      "loss": 0.0043,
+      "step": 610
+    },
+    {
+      "epoch": 2.6609442060085837,
+      "grad_norm": 0.04384471848607063,
+      "learning_rate": 7.939698492462312e-06,
+      "loss": 0.0042,
+      "step": 620
+    },
+    {
+      "epoch": 2.703862660944206,
+      "grad_norm": 0.04265659675002098,
+      "learning_rate": 6.934673366834172e-06,
+      "loss": 0.0213,
+      "step": 630
+    },
+    {
+      "epoch": 2.7467811158798283,
+      "grad_norm": 0.04311639815568924,
+      "learning_rate": 5.9296482412060305e-06,
+      "loss": 0.0041,
+      "step": 640
+    },
+    {
+      "epoch": 2.7896995708154506,
+      "grad_norm": 0.04334357753396034,
+      "learning_rate": 4.92462311557789e-06,
+      "loss": 0.004,
+      "step": 650
+    },
+    {
+      "epoch": 2.832618025751073,
+      "grad_norm": 0.0423327311873436,
+      "learning_rate": 3.919597989949749e-06,
+      "loss": 0.004,
+      "step": 660
+    },
+    {
+      "epoch": 2.875536480686695,
+      "grad_norm": 0.040839340537786484,
+      "learning_rate": 2.914572864321608e-06,
+      "loss": 0.004,
+      "step": 670
+    },
+    {
+      "epoch": 2.9184549356223175,
+      "grad_norm": 0.043217360973358154,
+      "learning_rate": 1.9095477386934674e-06,
+      "loss": 0.0039,
+      "step": 680
+    },
+    {
+      "epoch": 2.96137339055794,
+      "grad_norm": 0.043392766267061234,
+      "learning_rate": 9.045226130653267e-07,
+      "loss": 0.0039,
+      "step": 690
+    },
+    {
+      "epoch": 3.0,
+      "step": 699,
+      "total_flos": 1249265679735120.0,
+      "train_loss": 0.137061902504409,
+      "train_runtime": 530.5883,
+      "train_samples_per_second": 42.123,
+      "train_steps_per_second": 1.317
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9993736298152208,
+      "eval_accuracy_label_bluesky": 1.0,
+      "eval_accuracy_label_non bluesky": 0.9991732120711038,
+      "eval_f1": 0.9993739044026467,
+      "eval_loss": 0.00547385448589921,
+      "eval_precision": 0.999375244171367,
+      "eval_recall": 0.9993736298152208,
+      "eval_runtime": 17.5335,
+      "eval_samples_per_second": 182.109,
+      "eval_steps_per_second": 11.407,
+      "step": 699
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 699,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1249265679735120.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4923d3eaab1100f1b1c385a6806e9b522aaee02bf3b46d3221104ac9f4954f3f
+size 5304

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff