jonny9f commited on May 16, 2025

Commit

eab6132

verified ·

1 Parent(s): 2a0f942

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

README.md +75 -0
checkpoint-1500/config.json +26 -0
checkpoint-1500/model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/special_tokens_map.json +37 -0
checkpoint-1500/tokenizer.json +0 -0
checkpoint-1500/tokenizer_config.json +58 -0
checkpoint-1500/trainer_state.json +310 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-1500/vocab.txt +0 -0
checkpoint-2000/config.json +26 -0
checkpoint-2000/model.safetensors +3 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/special_tokens_map.json +37 -0
checkpoint-2000/tokenizer.json +0 -0
checkpoint-2000/tokenizer_config.json +58 -0
checkpoint-2000/trainer_state.json +399 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2000/vocab.txt +0 -0
checkpoint-2280/config.json +26 -0
checkpoint-2280/model.safetensors +3 -0
checkpoint-2280/optimizer.pt +3 -0
checkpoint-2280/rng_state.pth +3 -0
checkpoint-2280/scheduler.pt +3 -0
checkpoint-2280/special_tokens_map.json +37 -0
checkpoint-2280/tokenizer.json +0 -0
checkpoint-2280/tokenizer_config.json +58 -0
checkpoint-2280/trainer_state.json +434 -0
checkpoint-2280/training_args.bin +3 -0
checkpoint-2280/vocab.txt +0 -0
config.json +26 -0
eval_metrics.json +18 -0
model.safetensors +3 -0
special_tokens_map.json +37 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,75 @@

+---
+language: en
+tags:
+- bge
+- food
+- reranking
+- sequence-classification
+- sentence-similarity
+library_name: transformers
+pipeline_tag: text-classification
+license: mit
+---
+# Food Re-ranker Model
+This is a fine-tuned BGE (BAAI General Embedding) model trained for binary classification of food description pairs. The model determines whether two food descriptions refer to the same item, enabling accurate re-ranking of search results.
+## Model Details
+### Model Description
+- **Base Model**: BAAI/bge-base-en-v1.5
+- **Model Type**: bert
+- **Task**: Binary classification (food description matching)
+- **Output**: Binary classification scores (0 = different foods, 1 = same food)
+### Architecture
+The model uses the BGE architecture with the following specifications:
+- **Hidden Size**: 768
+- **Number of Layers**: 12
+- **Number of Attention Heads**: 12
+- **Intermediate Size**: 3072
+- **Maximum Position Embeddings**: 512
+- **Vocabulary Size**: 30522
+- **Hidden Act**: gelu
+### Performance Metrics
+Key evaluation metrics on the test set:
+## Use Case
+Designed for improving food search accuracy by re-ranking initial search results, this model:
+- Takes pairs of food descriptions as input
+- Determines if they refer to the same food item
+- Enables more accurate matching of food descriptions
+- Helps surface the most relevant matches in search results
+## Training Configuration
+- **Batch Size**: 32
+- **Learning Rate**: 2e-05
+- **Number of Epochs**: 10
+- **Warmup Steps**: 0
+- **Weight Decay**: 0.01
+- **Dropout**: 0.1
+- **Attention Dropout**: 0.1
+- **Layer Norm Eps**: 1e-12
+## Example Usage
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+# Load model
+tokenizer = AutoTokenizer.from_pretrained("jonny9f/food_reranker2")
+model = AutoModelForSequenceClassification.from_pretrained("jonny9f/food_reranker2")
+# Prepare input
+query = "chicken breast"
+candidate = "grilled chicken breast"
+inputs = tokenizer(query, candidate, padding=True, truncation=True, return_tensors="pt")
+# Get prediction
+outputs = model(**inputs)
+score = outputs.logits.softmax(dim=1)[0][1].item()  # Score for positive class
+```

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85999e6c07543e7d00356ae72be27a068b634dc8ff23562e10dd2160a6e053ea
+size 437958648

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6f96f1b0ccd7d27d9734883b475135b5db96bc60358adbb1642e2d45ec87f5f
+size 876038795

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:867ad06cb65bf1f3cd5c95e4e703f60dcd05051c966fa678f0b8e3e69b269614
+size 14645

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4246e9af2fbe4b4997361ef8d0c0da7b2e1264a2467019754c916a12a724518a
+size 1465

checkpoint-1500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,310 @@

+{
+  "best_global_step": 1500,
+  "best_metric": 0.8241525423728814,
+  "best_model_checkpoint": "./models/checkpoints_v4/checkpoint-1500",
+  "epoch": 6.578947368421053,
+  "eval_steps": 500,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21929824561403508,
+      "grad_norm": 3.511173725128174,
+      "learning_rate": 4.298245614035088e-06,
+      "loss": 0.8133,
+      "step": 50
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 5.231376647949219,
+      "learning_rate": 8.68421052631579e-06,
+      "loss": 0.5079,
+      "step": 100
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 4.2739081382751465,
+      "learning_rate": 1.3070175438596493e-05,
+      "loss": 0.3543,
+      "step": 150
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 4.163576602935791,
+      "learning_rate": 1.7456140350877195e-05,
+      "loss": 0.3143,
+      "step": 200
+    },
+    {
+      "epoch": 1.0964912280701755,
+      "grad_norm": 3.981715202331543,
+      "learning_rate": 1.9795321637426903e-05,
+      "loss": 0.3005,
+      "step": 250
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 4.984482288360596,
+      "learning_rate": 1.9307992202729045e-05,
+      "loss": 0.2521,
+      "step": 300
+    },
+    {
+      "epoch": 1.5350877192982457,
+      "grad_norm": 7.214444637298584,
+      "learning_rate": 1.882066276803119e-05,
+      "loss": 0.2481,
+      "step": 350
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 3.6749589443206787,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.2475,
+      "step": 400
+    },
+    {
+      "epoch": 1.973684210526316,
+      "grad_norm": 5.445246696472168,
+      "learning_rate": 1.784600389863548e-05,
+      "loss": 0.2289,
+      "step": 450
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 12.260554313659668,
+      "learning_rate": 1.7358674463937624e-05,
+      "loss": 0.1811,
+      "step": 500
+    },
+    {
+      "epoch": 2.192982456140351,
+      "eval_accuracy": 0.8987154150197628,
+      "eval_auc": 0.9507858176268903,
+      "eval_f1": 0.7724750277469479,
+      "eval_false_negatives": 147,
+      "eval_false_positives": 58,
+      "eval_loss": 0.29392391443252563,
+      "eval_npv": 0.9091470951792336,
+      "eval_precision": 0.8571428571428571,
+      "eval_recall": 0.703030303030303,
+      "eval_runtime": 7.4602,
+      "eval_samples_per_second": 271.308,
+      "eval_specificity": 0.9620667102681492,
+      "eval_steps_per_second": 4.289,
+      "eval_true_negatives": 1471,
+      "eval_true_positives": 348,
+      "step": 500
+    },
+    {
+      "epoch": 2.412280701754386,
+      "grad_norm": 3.9946436882019043,
+      "learning_rate": 1.6871345029239766e-05,
+      "loss": 0.1934,
+      "step": 550
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 6.733097553253174,
+      "learning_rate": 1.638401559454191e-05,
+      "loss": 0.1759,
+      "step": 600
+    },
+    {
+      "epoch": 2.8508771929824563,
+      "grad_norm": 12.989212036132812,
+      "learning_rate": 1.5896686159844057e-05,
+      "loss": 0.1953,
+      "step": 650
+    },
+    {
+      "epoch": 3.0701754385964914,
+      "grad_norm": 4.068276882171631,
+      "learning_rate": 1.5409356725146202e-05,
+      "loss": 0.1248,
+      "step": 700
+    },
+    {
+      "epoch": 3.2894736842105265,
+      "grad_norm": 0.6126830577850342,
+      "learning_rate": 1.4922027290448344e-05,
+      "loss": 0.1289,
+      "step": 750
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "grad_norm": 6.3761796951293945,
+      "learning_rate": 1.4434697855750488e-05,
+      "loss": 0.1117,
+      "step": 800
+    },
+    {
+      "epoch": 3.7280701754385968,
+      "grad_norm": 4.546126365661621,
+      "learning_rate": 1.3947368421052631e-05,
+      "loss": 0.1491,
+      "step": 850
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 4.006205081939697,
+      "learning_rate": 1.3460038986354777e-05,
+      "loss": 0.1345,
+      "step": 900
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 2.2420225143432617,
+      "learning_rate": 1.297270955165692e-05,
+      "loss": 0.0904,
+      "step": 950
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 3.2088565826416016,
+      "learning_rate": 1.2485380116959064e-05,
+      "loss": 0.0996,
+      "step": 1000
+    },
+    {
+      "epoch": 4.385964912280702,
+      "eval_accuracy": 0.9115612648221344,
+      "eval_auc": 0.9578519002979434,
+      "eval_f1": 0.8182741116751269,
+      "eval_false_negatives": 92,
+      "eval_false_positives": 87,
+      "eval_loss": 0.3153094947338104,
+      "eval_npv": 0.940026075619296,
+      "eval_precision": 0.8224489795918367,
+      "eval_recall": 0.8141414141414142,
+      "eval_runtime": 7.4628,
+      "eval_samples_per_second": 271.212,
+      "eval_specificity": 0.9431000654022237,
+      "eval_steps_per_second": 4.288,
+      "eval_true_negatives": 1442,
+      "eval_true_positives": 403,
+      "step": 1000
+    },
+    {
+      "epoch": 4.605263157894737,
+      "grad_norm": 10.743696212768555,
+      "learning_rate": 1.1998050682261208e-05,
+      "loss": 0.0909,
+      "step": 1050
+    },
+    {
+      "epoch": 4.824561403508772,
+      "grad_norm": 1.6505861282348633,
+      "learning_rate": 1.1510721247563355e-05,
+      "loss": 0.088,
+      "step": 1100
+    },
+    {
+      "epoch": 5.043859649122807,
+      "grad_norm": 6.567928314208984,
+      "learning_rate": 1.1023391812865499e-05,
+      "loss": 0.1129,
+      "step": 1150
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "grad_norm": 3.445005416870117,
+      "learning_rate": 1.0536062378167643e-05,
+      "loss": 0.0605,
+      "step": 1200
+    },
+    {
+      "epoch": 5.482456140350878,
+      "grad_norm": 1.5516074895858765,
+      "learning_rate": 1.0048732943469786e-05,
+      "loss": 0.0642,
+      "step": 1250
+    },
+    {
+      "epoch": 5.701754385964913,
+      "grad_norm": 9.6685209274292,
+      "learning_rate": 9.56140350877193e-06,
+      "loss": 0.0759,
+      "step": 1300
+    },
+    {
+      "epoch": 5.921052631578947,
+      "grad_norm": 12.226219177246094,
+      "learning_rate": 9.074074074074075e-06,
+      "loss": 0.0806,
+      "step": 1350
+    },
+    {
+      "epoch": 6.140350877192983,
+      "grad_norm": 1.530657172203064,
+      "learning_rate": 8.586744639376219e-06,
+      "loss": 0.0636,
+      "step": 1400
+    },
+    {
+      "epoch": 6.359649122807017,
+      "grad_norm": 4.697056293487549,
+      "learning_rate": 8.099415204678363e-06,
+      "loss": 0.0402,
+      "step": 1450
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 0.09656322002410889,
+      "learning_rate": 7.612085769980507e-06,
+      "loss": 0.0629,
+      "step": 1500
+    },
+    {
+      "epoch": 6.578947368421053,
+      "eval_accuracy": 0.9179841897233202,
+      "eval_auc": 0.9618949468524354,
+      "eval_f1": 0.8241525423728814,
+      "eval_false_negatives": 106,
+      "eval_false_positives": 60,
+      "eval_loss": 0.38592642545700073,
+      "eval_npv": 0.9326984126984127,
+      "eval_precision": 0.8663697104677061,
+      "eval_recall": 0.7858585858585858,
+      "eval_runtime": 7.4828,
+      "eval_samples_per_second": 270.486,
+      "eval_specificity": 0.960758665794637,
+      "eval_steps_per_second": 4.276,
+      "eval_true_negatives": 1469,
+      "eval_true_positives": 389,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6303614664314880.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fa0b6e71cf97dcf125328dcde4d9907006c97167c4f41af8ac98ea5f88ac6b4
+size 5713

checkpoint-1500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41590102e903624f664df64252a13ee88e911b1cb5be074c17b4957d02712d72
+size 437958648

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9540b36b35a13d5702f7e16c9325860ffefc231e7ff5bcfd89f94e7f795172fe
+size 876038795

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9f129fc5e5d59c080e9fd48b5d303d31b63156f53c9c6d279333ff06b06681a
+size 14645

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fab9a9e4e1a8e90792d09d3ab98391d1f33f696a4645f21acb71aadc7c4ebe0
+size 1465

checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,399 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 0.8264462809917356,
+  "best_model_checkpoint": "./models/checkpoints_v4/checkpoint-2000",
+  "epoch": 8.771929824561404,
+  "eval_steps": 500,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21929824561403508,
+      "grad_norm": 3.511173725128174,
+      "learning_rate": 4.298245614035088e-06,
+      "loss": 0.8133,
+      "step": 50
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 5.231376647949219,
+      "learning_rate": 8.68421052631579e-06,
+      "loss": 0.5079,
+      "step": 100
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 4.2739081382751465,
+      "learning_rate": 1.3070175438596493e-05,
+      "loss": 0.3543,
+      "step": 150
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 4.163576602935791,
+      "learning_rate": 1.7456140350877195e-05,
+      "loss": 0.3143,
+      "step": 200
+    },
+    {
+      "epoch": 1.0964912280701755,
+      "grad_norm": 3.981715202331543,
+      "learning_rate": 1.9795321637426903e-05,
+      "loss": 0.3005,
+      "step": 250
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 4.984482288360596,
+      "learning_rate": 1.9307992202729045e-05,
+      "loss": 0.2521,
+      "step": 300
+    },
+    {
+      "epoch": 1.5350877192982457,
+      "grad_norm": 7.214444637298584,
+      "learning_rate": 1.882066276803119e-05,
+      "loss": 0.2481,
+      "step": 350
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 3.6749589443206787,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.2475,
+      "step": 400
+    },
+    {
+      "epoch": 1.973684210526316,
+      "grad_norm": 5.445246696472168,
+      "learning_rate": 1.784600389863548e-05,
+      "loss": 0.2289,
+      "step": 450
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 12.260554313659668,
+      "learning_rate": 1.7358674463937624e-05,
+      "loss": 0.1811,
+      "step": 500
+    },
+    {
+      "epoch": 2.192982456140351,
+      "eval_accuracy": 0.8987154150197628,
+      "eval_auc": 0.9507858176268903,
+      "eval_f1": 0.7724750277469479,
+      "eval_false_negatives": 147,
+      "eval_false_positives": 58,
+      "eval_loss": 0.29392391443252563,
+      "eval_npv": 0.9091470951792336,
+      "eval_precision": 0.8571428571428571,
+      "eval_recall": 0.703030303030303,
+      "eval_runtime": 7.4602,
+      "eval_samples_per_second": 271.308,
+      "eval_specificity": 0.9620667102681492,
+      "eval_steps_per_second": 4.289,
+      "eval_true_negatives": 1471,
+      "eval_true_positives": 348,
+      "step": 500
+    },
+    {
+      "epoch": 2.412280701754386,
+      "grad_norm": 3.9946436882019043,
+      "learning_rate": 1.6871345029239766e-05,
+      "loss": 0.1934,
+      "step": 550
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 6.733097553253174,
+      "learning_rate": 1.638401559454191e-05,
+      "loss": 0.1759,
+      "step": 600
+    },
+    {
+      "epoch": 2.8508771929824563,
+      "grad_norm": 12.989212036132812,
+      "learning_rate": 1.5896686159844057e-05,
+      "loss": 0.1953,
+      "step": 650
+    },
+    {
+      "epoch": 3.0701754385964914,
+      "grad_norm": 4.068276882171631,
+      "learning_rate": 1.5409356725146202e-05,
+      "loss": 0.1248,
+      "step": 700
+    },
+    {
+      "epoch": 3.2894736842105265,
+      "grad_norm": 0.6126830577850342,
+      "learning_rate": 1.4922027290448344e-05,
+      "loss": 0.1289,
+      "step": 750
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "grad_norm": 6.3761796951293945,
+      "learning_rate": 1.4434697855750488e-05,
+      "loss": 0.1117,
+      "step": 800
+    },
+    {
+      "epoch": 3.7280701754385968,
+      "grad_norm": 4.546126365661621,
+      "learning_rate": 1.3947368421052631e-05,
+      "loss": 0.1491,
+      "step": 850
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 4.006205081939697,
+      "learning_rate": 1.3460038986354777e-05,
+      "loss": 0.1345,
+      "step": 900
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 2.2420225143432617,
+      "learning_rate": 1.297270955165692e-05,
+      "loss": 0.0904,
+      "step": 950
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 3.2088565826416016,
+      "learning_rate": 1.2485380116959064e-05,
+      "loss": 0.0996,
+      "step": 1000
+    },
+    {
+      "epoch": 4.385964912280702,
+      "eval_accuracy": 0.9115612648221344,
+      "eval_auc": 0.9578519002979434,
+      "eval_f1": 0.8182741116751269,
+      "eval_false_negatives": 92,
+      "eval_false_positives": 87,
+      "eval_loss": 0.3153094947338104,
+      "eval_npv": 0.940026075619296,
+      "eval_precision": 0.8224489795918367,
+      "eval_recall": 0.8141414141414142,
+      "eval_runtime": 7.4628,
+      "eval_samples_per_second": 271.212,
+      "eval_specificity": 0.9431000654022237,
+      "eval_steps_per_second": 4.288,
+      "eval_true_negatives": 1442,
+      "eval_true_positives": 403,
+      "step": 1000
+    },
+    {
+      "epoch": 4.605263157894737,
+      "grad_norm": 10.743696212768555,
+      "learning_rate": 1.1998050682261208e-05,
+      "loss": 0.0909,
+      "step": 1050
+    },
+    {
+      "epoch": 4.824561403508772,
+      "grad_norm": 1.6505861282348633,
+      "learning_rate": 1.1510721247563355e-05,
+      "loss": 0.088,
+      "step": 1100
+    },
+    {
+      "epoch": 5.043859649122807,
+      "grad_norm": 6.567928314208984,
+      "learning_rate": 1.1023391812865499e-05,
+      "loss": 0.1129,
+      "step": 1150
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "grad_norm": 3.445005416870117,
+      "learning_rate": 1.0536062378167643e-05,
+      "loss": 0.0605,
+      "step": 1200
+    },
+    {
+      "epoch": 5.482456140350878,
+      "grad_norm": 1.5516074895858765,
+      "learning_rate": 1.0048732943469786e-05,
+      "loss": 0.0642,
+      "step": 1250
+    },
+    {
+      "epoch": 5.701754385964913,
+      "grad_norm": 9.6685209274292,
+      "learning_rate": 9.56140350877193e-06,
+      "loss": 0.0759,
+      "step": 1300
+    },
+    {
+      "epoch": 5.921052631578947,
+      "grad_norm": 12.226219177246094,
+      "learning_rate": 9.074074074074075e-06,
+      "loss": 0.0806,
+      "step": 1350
+    },
+    {
+      "epoch": 6.140350877192983,
+      "grad_norm": 1.530657172203064,
+      "learning_rate": 8.586744639376219e-06,
+      "loss": 0.0636,
+      "step": 1400
+    },
+    {
+      "epoch": 6.359649122807017,
+      "grad_norm": 4.697056293487549,
+      "learning_rate": 8.099415204678363e-06,
+      "loss": 0.0402,
+      "step": 1450
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 0.09656322002410889,
+      "learning_rate": 7.612085769980507e-06,
+      "loss": 0.0629,
+      "step": 1500
+    },
+    {
+      "epoch": 6.578947368421053,
+      "eval_accuracy": 0.9179841897233202,
+      "eval_auc": 0.9618949468524354,
+      "eval_f1": 0.8241525423728814,
+      "eval_false_negatives": 106,
+      "eval_false_positives": 60,
+      "eval_loss": 0.38592642545700073,
+      "eval_npv": 0.9326984126984127,
+      "eval_precision": 0.8663697104677061,
+      "eval_recall": 0.7858585858585858,
+      "eval_runtime": 7.4828,
+      "eval_samples_per_second": 270.486,
+      "eval_specificity": 0.960758665794637,
+      "eval_steps_per_second": 4.276,
+      "eval_true_negatives": 1469,
+      "eval_true_positives": 389,
+      "step": 1500
+    },
+    {
+      "epoch": 6.798245614035087,
+      "grad_norm": 36.65667724609375,
+      "learning_rate": 7.124756335282652e-06,
+      "loss": 0.0606,
+      "step": 1550
+    },
+    {
+      "epoch": 7.017543859649122,
+      "grad_norm": 2.3685500621795654,
+      "learning_rate": 6.637426900584796e-06,
+      "loss": 0.0513,
+      "step": 1600
+    },
+    {
+      "epoch": 7.2368421052631575,
+      "grad_norm": 2.3388023376464844,
+      "learning_rate": 6.15009746588694e-06,
+      "loss": 0.0328,
+      "step": 1650
+    },
+    {
+      "epoch": 7.456140350877193,
+      "grad_norm": 0.18014875054359436,
+      "learning_rate": 5.662768031189084e-06,
+      "loss": 0.0526,
+      "step": 1700
+    },
+    {
+      "epoch": 7.675438596491228,
+      "grad_norm": 5.354085445404053,
+      "learning_rate": 5.175438596491229e-06,
+      "loss": 0.033,
+      "step": 1750
+    },
+    {
+      "epoch": 7.894736842105263,
+      "grad_norm": 0.14219924807548523,
+      "learning_rate": 4.688109161793373e-06,
+      "loss": 0.0286,
+      "step": 1800
+    },
+    {
+      "epoch": 8.114035087719298,
+      "grad_norm": 0.8848229646682739,
+      "learning_rate": 4.200779727095517e-06,
+      "loss": 0.023,
+      "step": 1850
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.09083296358585358,
+      "learning_rate": 3.713450292397661e-06,
+      "loss": 0.0342,
+      "step": 1900
+    },
+    {
+      "epoch": 8.552631578947368,
+      "grad_norm": 5.818343162536621,
+      "learning_rate": 3.2261208576998056e-06,
+      "loss": 0.0317,
+      "step": 1950
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 0.027245348319411278,
+      "learning_rate": 2.7387914230019497e-06,
+      "loss": 0.0344,
+      "step": 2000
+    },
+    {
+      "epoch": 8.771929824561404,
+      "eval_accuracy": 0.9169960474308301,
+      "eval_auc": 0.9587609251441821,
+      "eval_f1": 0.8264462809917356,
+      "eval_false_negatives": 95,
+      "eval_false_positives": 73,
+      "eval_loss": 0.44914552569389343,
+      "eval_npv": 0.938749194068343,
+      "eval_precision": 0.8456659619450317,
+      "eval_recall": 0.8080808080808081,
+      "eval_runtime": 7.4877,
+      "eval_samples_per_second": 270.31,
+      "eval_specificity": 0.9522563767168084,
+      "eval_steps_per_second": 4.274,
+      "eval_true_negatives": 1456,
+      "eval_true_positives": 400,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8404819552419840.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fa0b6e71cf97dcf125328dcde4d9907006c97167c4f41af8ac98ea5f88ac6b4
+size 5713

checkpoint-2000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2280/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-2280/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:898191b3113c997f08feb51d48ffff8478f23c749d621d6ec03b43acea202416
+size 437958648

checkpoint-2280/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec925b71bf77e7f6c8815d63a7b3484f3b38ba069d09ccc30e4a15db317c4cdb
+size 876038795

checkpoint-2280/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cd6b56f462107b8bd25375a943da9b9dfe7f453a3380ae0c6204366bc7628a0
+size 14645

checkpoint-2280/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:319d0be530cda2200e1d0a0824971ef0e84d372efc641975cd1f3d064cf6b46a
+size 1465

checkpoint-2280/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2280/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2280/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-2280/trainer_state.json ADDED Viewed

	@@ -0,0 +1,434 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 0.8264462809917356,
+  "best_model_checkpoint": "./models/checkpoints_v4/checkpoint-2000",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 2280,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21929824561403508,
+      "grad_norm": 3.511173725128174,
+      "learning_rate": 4.298245614035088e-06,
+      "loss": 0.8133,
+      "step": 50
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "grad_norm": 5.231376647949219,
+      "learning_rate": 8.68421052631579e-06,
+      "loss": 0.5079,
+      "step": 100
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 4.2739081382751465,
+      "learning_rate": 1.3070175438596493e-05,
+      "loss": 0.3543,
+      "step": 150
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 4.163576602935791,
+      "learning_rate": 1.7456140350877195e-05,
+      "loss": 0.3143,
+      "step": 200
+    },
+    {
+      "epoch": 1.0964912280701755,
+      "grad_norm": 3.981715202331543,
+      "learning_rate": 1.9795321637426903e-05,
+      "loss": 0.3005,
+      "step": 250
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 4.984482288360596,
+      "learning_rate": 1.9307992202729045e-05,
+      "loss": 0.2521,
+      "step": 300
+    },
+    {
+      "epoch": 1.5350877192982457,
+      "grad_norm": 7.214444637298584,
+      "learning_rate": 1.882066276803119e-05,
+      "loss": 0.2481,
+      "step": 350
+    },
+    {
+      "epoch": 1.7543859649122808,
+      "grad_norm": 3.6749589443206787,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.2475,
+      "step": 400
+    },
+    {
+      "epoch": 1.973684210526316,
+      "grad_norm": 5.445246696472168,
+      "learning_rate": 1.784600389863548e-05,
+      "loss": 0.2289,
+      "step": 450
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 12.260554313659668,
+      "learning_rate": 1.7358674463937624e-05,
+      "loss": 0.1811,
+      "step": 500
+    },
+    {
+      "epoch": 2.192982456140351,
+      "eval_accuracy": 0.8987154150197628,
+      "eval_auc": 0.9507858176268903,
+      "eval_f1": 0.7724750277469479,
+      "eval_false_negatives": 147,
+      "eval_false_positives": 58,
+      "eval_loss": 0.29392391443252563,
+      "eval_npv": 0.9091470951792336,
+      "eval_precision": 0.8571428571428571,
+      "eval_recall": 0.703030303030303,
+      "eval_runtime": 7.4602,
+      "eval_samples_per_second": 271.308,
+      "eval_specificity": 0.9620667102681492,
+      "eval_steps_per_second": 4.289,
+      "eval_true_negatives": 1471,
+      "eval_true_positives": 348,
+      "step": 500
+    },
+    {
+      "epoch": 2.412280701754386,
+      "grad_norm": 3.9946436882019043,
+      "learning_rate": 1.6871345029239766e-05,
+      "loss": 0.1934,
+      "step": 550
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 6.733097553253174,
+      "learning_rate": 1.638401559454191e-05,
+      "loss": 0.1759,
+      "step": 600
+    },
+    {
+      "epoch": 2.8508771929824563,
+      "grad_norm": 12.989212036132812,
+      "learning_rate": 1.5896686159844057e-05,
+      "loss": 0.1953,
+      "step": 650
+    },
+    {
+      "epoch": 3.0701754385964914,
+      "grad_norm": 4.068276882171631,
+      "learning_rate": 1.5409356725146202e-05,
+      "loss": 0.1248,
+      "step": 700
+    },
+    {
+      "epoch": 3.2894736842105265,
+      "grad_norm": 0.6126830577850342,
+      "learning_rate": 1.4922027290448344e-05,
+      "loss": 0.1289,
+      "step": 750
+    },
+    {
+      "epoch": 3.5087719298245617,
+      "grad_norm": 6.3761796951293945,
+      "learning_rate": 1.4434697855750488e-05,
+      "loss": 0.1117,
+      "step": 800
+    },
+    {
+      "epoch": 3.7280701754385968,
+      "grad_norm": 4.546126365661621,
+      "learning_rate": 1.3947368421052631e-05,
+      "loss": 0.1491,
+      "step": 850
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 4.006205081939697,
+      "learning_rate": 1.3460038986354777e-05,
+      "loss": 0.1345,
+      "step": 900
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 2.2420225143432617,
+      "learning_rate": 1.297270955165692e-05,
+      "loss": 0.0904,
+      "step": 950
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 3.2088565826416016,
+      "learning_rate": 1.2485380116959064e-05,
+      "loss": 0.0996,
+      "step": 1000
+    },
+    {
+      "epoch": 4.385964912280702,
+      "eval_accuracy": 0.9115612648221344,
+      "eval_auc": 0.9578519002979434,
+      "eval_f1": 0.8182741116751269,
+      "eval_false_negatives": 92,
+      "eval_false_positives": 87,
+      "eval_loss": 0.3153094947338104,
+      "eval_npv": 0.940026075619296,
+      "eval_precision": 0.8224489795918367,
+      "eval_recall": 0.8141414141414142,
+      "eval_runtime": 7.4628,
+      "eval_samples_per_second": 271.212,
+      "eval_specificity": 0.9431000654022237,
+      "eval_steps_per_second": 4.288,
+      "eval_true_negatives": 1442,
+      "eval_true_positives": 403,
+      "step": 1000
+    },
+    {
+      "epoch": 4.605263157894737,
+      "grad_norm": 10.743696212768555,
+      "learning_rate": 1.1998050682261208e-05,
+      "loss": 0.0909,
+      "step": 1050
+    },
+    {
+      "epoch": 4.824561403508772,
+      "grad_norm": 1.6505861282348633,
+      "learning_rate": 1.1510721247563355e-05,
+      "loss": 0.088,
+      "step": 1100
+    },
+    {
+      "epoch": 5.043859649122807,
+      "grad_norm": 6.567928314208984,
+      "learning_rate": 1.1023391812865499e-05,
+      "loss": 0.1129,
+      "step": 1150
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "grad_norm": 3.445005416870117,
+      "learning_rate": 1.0536062378167643e-05,
+      "loss": 0.0605,
+      "step": 1200
+    },
+    {
+      "epoch": 5.482456140350878,
+      "grad_norm": 1.5516074895858765,
+      "learning_rate": 1.0048732943469786e-05,
+      "loss": 0.0642,
+      "step": 1250
+    },
+    {
+      "epoch": 5.701754385964913,
+      "grad_norm": 9.6685209274292,
+      "learning_rate": 9.56140350877193e-06,
+      "loss": 0.0759,
+      "step": 1300
+    },
+    {
+      "epoch": 5.921052631578947,
+      "grad_norm": 12.226219177246094,
+      "learning_rate": 9.074074074074075e-06,
+      "loss": 0.0806,
+      "step": 1350
+    },
+    {
+      "epoch": 6.140350877192983,
+      "grad_norm": 1.530657172203064,
+      "learning_rate": 8.586744639376219e-06,
+      "loss": 0.0636,
+      "step": 1400
+    },
+    {
+      "epoch": 6.359649122807017,
+      "grad_norm": 4.697056293487549,
+      "learning_rate": 8.099415204678363e-06,
+      "loss": 0.0402,
+      "step": 1450
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 0.09656322002410889,
+      "learning_rate": 7.612085769980507e-06,
+      "loss": 0.0629,
+      "step": 1500
+    },
+    {
+      "epoch": 6.578947368421053,
+      "eval_accuracy": 0.9179841897233202,
+      "eval_auc": 0.9618949468524354,
+      "eval_f1": 0.8241525423728814,
+      "eval_false_negatives": 106,
+      "eval_false_positives": 60,
+      "eval_loss": 0.38592642545700073,
+      "eval_npv": 0.9326984126984127,
+      "eval_precision": 0.8663697104677061,
+      "eval_recall": 0.7858585858585858,
+      "eval_runtime": 7.4828,
+      "eval_samples_per_second": 270.486,
+      "eval_specificity": 0.960758665794637,
+      "eval_steps_per_second": 4.276,
+      "eval_true_negatives": 1469,
+      "eval_true_positives": 389,
+      "step": 1500
+    },
+    {
+      "epoch": 6.798245614035087,
+      "grad_norm": 36.65667724609375,
+      "learning_rate": 7.124756335282652e-06,
+      "loss": 0.0606,
+      "step": 1550
+    },
+    {
+      "epoch": 7.017543859649122,
+      "grad_norm": 2.3685500621795654,
+      "learning_rate": 6.637426900584796e-06,
+      "loss": 0.0513,
+      "step": 1600
+    },
+    {
+      "epoch": 7.2368421052631575,
+      "grad_norm": 2.3388023376464844,
+      "learning_rate": 6.15009746588694e-06,
+      "loss": 0.0328,
+      "step": 1650
+    },
+    {
+      "epoch": 7.456140350877193,
+      "grad_norm": 0.18014875054359436,
+      "learning_rate": 5.662768031189084e-06,
+      "loss": 0.0526,
+      "step": 1700
+    },
+    {
+      "epoch": 7.675438596491228,
+      "grad_norm": 5.354085445404053,
+      "learning_rate": 5.175438596491229e-06,
+      "loss": 0.033,
+      "step": 1750
+    },
+    {
+      "epoch": 7.894736842105263,
+      "grad_norm": 0.14219924807548523,
+      "learning_rate": 4.688109161793373e-06,
+      "loss": 0.0286,
+      "step": 1800
+    },
+    {
+      "epoch": 8.114035087719298,
+      "grad_norm": 0.8848229646682739,
+      "learning_rate": 4.200779727095517e-06,
+      "loss": 0.023,
+      "step": 1850
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.09083296358585358,
+      "learning_rate": 3.713450292397661e-06,
+      "loss": 0.0342,
+      "step": 1900
+    },
+    {
+      "epoch": 8.552631578947368,
+      "grad_norm": 5.818343162536621,
+      "learning_rate": 3.2261208576998056e-06,
+      "loss": 0.0317,
+      "step": 1950
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 0.027245348319411278,
+      "learning_rate": 2.7387914230019497e-06,
+      "loss": 0.0344,
+      "step": 2000
+    },
+    {
+      "epoch": 8.771929824561404,
+      "eval_accuracy": 0.9169960474308301,
+      "eval_auc": 0.9587609251441821,
+      "eval_f1": 0.8264462809917356,
+      "eval_false_negatives": 95,
+      "eval_false_positives": 73,
+      "eval_loss": 0.44914552569389343,
+      "eval_npv": 0.938749194068343,
+      "eval_precision": 0.8456659619450317,
+      "eval_recall": 0.8080808080808081,
+      "eval_runtime": 7.4877,
+      "eval_samples_per_second": 270.31,
+      "eval_specificity": 0.9522563767168084,
+      "eval_steps_per_second": 4.274,
+      "eval_true_negatives": 1456,
+      "eval_true_positives": 400,
+      "step": 2000
+    },
+    {
+      "epoch": 8.991228070175438,
+      "grad_norm": 6.446545124053955,
+      "learning_rate": 2.2514619883040934e-06,
+      "loss": 0.031,
+      "step": 2050
+    },
+    {
+      "epoch": 9.210526315789474,
+      "grad_norm": 3.8243560791015625,
+      "learning_rate": 1.7641325536062378e-06,
+      "loss": 0.0322,
+      "step": 2100
+    },
+    {
+      "epoch": 9.429824561403509,
+      "grad_norm": 0.14315390586853027,
+      "learning_rate": 1.2768031189083821e-06,
+      "loss": 0.025,
+      "step": 2150
+    },
+    {
+      "epoch": 9.649122807017545,
+      "grad_norm": 0.08034974336624146,
+      "learning_rate": 7.894736842105263e-07,
+      "loss": 0.0143,
+      "step": 2200
+    },
+    {
+      "epoch": 9.868421052631579,
+      "grad_norm": 0.1442982703447342,
+      "learning_rate": 3.021442495126706e-07,
+      "loss": 0.0121,
+      "step": 2250
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9579873525657600.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2280/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fa0b6e71cf97dcf125328dcde4d9907006c97167c4f41af8ac98ea5f88ac6b4
+size 5713

checkpoint-2280/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

eval_metrics.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "eval_loss": 0.44914552569389343,
+  "eval_accuracy": 0.9169960474308301,
+  "eval_precision": 0.8456659619450317,
+  "eval_recall": 0.8080808080808081,
+  "eval_f1": 0.8264462809917356,
+  "eval_auc": 0.9587609251441821,
+  "eval_specificity": 0.9522563767168084,
+  "eval_npv": 0.938749194068343,
+  "eval_true_positives": 400,
+  "eval_true_negatives": 1456,
+  "eval_false_positives": 73,
+  "eval_false_negatives": 95,
+  "eval_runtime": 7.4496,
+  "eval_samples_per_second": 271.691,
+  "eval_steps_per_second": 4.296,
+  "epoch": 10.0
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41590102e903624f664df64252a13ee88e911b1cb5be074c17b4957d02712d72
+size 437958648

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fa0b6e71cf97dcf125328dcde4d9907006c97167c4f41af8ac98ea5f88ac6b4
+size 5713

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff