model_15M_medium_ds_masking_0.7_explicit_hs_predicted_hparamas

Browse files

Files changed (4) hide show

README.md +28 -39
config.json +1 -1
model.safetensors +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3649
-- Accuracy: 0.8733
 ## Model description
@@ -36,7 +36,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.003439
 - train_batch_size: 256
 - eval_batch_size: 256
 - seed: 42
@@ -48,44 +48,33 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch   | Step  | Validation Loss | Accuracy |
-|:-------------:|:-------:|:-----:|:---------------:|:--------:|
-| No log        | 0       | 0     | 4.4509          | 0.0072   |
-| 0.7148        | 0.4302  | 1953  | 0.6216          | 0.7885   |
-| 0.5807        | 0.8604  | 3906  | 0.5453          | 0.8131   |
-| 0.5322        | 1.2905  | 5859  | 0.5084          | 0.8251   |
-| 0.5068        | 1.7207  | 7812  | 0.4851          | 0.8328   |
-| 0.4855        | 2.1509  | 9765  | 0.4710          | 0.8376   |
-| 0.47          | 2.5811  | 11718 | 0.4552          | 0.8433   |
-| 0.4589        | 3.0112  | 13671 | 0.4455          | 0.8459   |
-| 0.4475        | 3.4414  | 15624 | 0.4383          | 0.8484   |
-| 0.4401        | 3.8716  | 17577 | 0.4276          | 0.8515   |
-| 0.4329        | 4.3018  | 19530 | 0.4218          | 0.8537   |
-| 0.4299        | 4.7319  | 21483 | 0.4167          | 0.8557   |
-| 0.423         | 5.1621  | 23436 | 0.4108          | 0.8568   |
-| 0.4175        | 5.5923  | 25389 | 0.4081          | 0.8584   |
-| 0.4122        | 6.0225  | 27342 | 0.4022          | 0.8607   |
-| 0.4095        | 6.4526  | 29295 | 0.3966          | 0.8625   |
-| 0.4034        | 6.8828  | 31248 | 0.3962          | 0.8623   |
-| 0.4012        | 7.3130  | 33201 | 0.3926          | 0.8636   |
-| 0.3984        | 7.7432  | 35154 | 0.3893          | 0.8650   |
-| 0.395         | 8.1733  | 37107 | 0.3849          | 0.8663   |
-| 0.3904        | 8.6035  | 39060 | 0.3827          | 0.8669   |
-| 0.3873        | 9.0337  | 41013 | 0.3797          | 0.8680   |
-| 0.3865        | 9.4639  | 42966 | 0.3775          | 0.8691   |
-| 0.3839        | 9.8941  | 44919 | 0.3742          | 0.8696   |
-| 0.3781        | 10.3242 | 46872 | 0.3757          | 0.8693   |
-| 0.3806        | 10.7544 | 48825 | 0.3698          | 0.8713   |
-| 0.376         | 11.1846 | 50778 | 0.3703          | 0.8712   |
-| 0.3748        | 11.6148 | 52731 | 0.3672          | 0.8720   |
-| 0.3743        | 12.0449 | 54684 | 0.3643          | 0.8733   |
-| 0.3715        | 12.4751 | 56637 | 0.3662          | 0.8727   |
-| 0.3695        | 12.9053 | 58590 | 0.3666          | 0.8724   |
 ### Framework versions
-- Transformers 4.51.2
-- Pytorch 2.8.0.dev20250410+cu128
-- Datasets 3.5.0
 - Tokenizers 0.21.1

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2317
+- Accuracy: 0.9237
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.005776
 - train_batch_size: 256
 - eval_batch_size: 256
 - seed: 42
 ### Training results
+| Training Loss | Epoch  | Step  | Validation Loss | Accuracy |
+|:-------------:|:------:|:-----:|:---------------:|:--------:|
+| No log        | 0      | 0     | 4.4632          | 0.0019   |
+| 0.4564        | 0.2190 | 1953  | 0.3973          | 0.8732   |
+| 0.3637        | 0.4379 | 3906  | 0.3450          | 0.8886   |
+| 0.3313        | 0.6569 | 5859  | 0.3169          | 0.8970   |
+| 0.3101        | 0.8759 | 7812  | 0.2993          | 0.9026   |
+| 0.3062        | 1.0949 | 9765  | 0.2885          | 0.9058   |
+| 0.2852        | 1.3138 | 11718 | 0.2776          | 0.9092   |
+| 0.2754        | 1.5328 | 13671 | 0.2703          | 0.9117   |
+| 0.2689        | 1.7518 | 15624 | 0.2626          | 0.9142   |
+| 0.2624        | 1.9707 | 17577 | 0.2566          | 0.9159   |
+| 0.2574        | 2.1897 | 19530 | 0.2533          | 0.9169   |
+| 0.2547        | 2.4087 | 21483 | 0.2478          | 0.9187   |
+| 0.2495        | 2.6276 | 23436 | 0.2434          | 0.9201   |
+| 0.2447        | 2.8466 | 25389 | 0.2395          | 0.9213   |
+| 0.2416        | 3.0656 | 27342 | 0.2350          | 0.9227   |
+| 0.2383        | 3.2846 | 29295 | 0.2331          | 0.9233   |
+| 0.2363        | 3.5035 | 31248 | 0.2321          | 0.9236   |
+| 0.0           | 3.7225 | 33201 | 0.2309          | 0.9240   |
+| 0.0           | 3.9415 | 35154 | 0.2320          | 0.9237   |
+| 0.0           | 4.1604 | 37107 | 0.2304          | 0.9241   |
 ### Framework versions
+- Transformers 4.52.2
+- Pytorch 2.8.0.dev20250521+cu128
+- Datasets 3.6.0
 - Tokenizers 0.21.1

config.json CHANGED Viewed

@@ -37,6 +37,6 @@
   "sparse_pred_ignore_index": -100,
   "sparse_prediction": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.51.2",
   "vocab_size": 82
 }

   "sparse_pred_ignore_index": -100,
   "sparse_prediction": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.52.2",
   "vocab_size": 82
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa8f0a3fb8aa1fb113188ec55e7fbe69b46e7eab0cb61755051222e9762bfa4c
 size 60925776

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcd833fc7ee5f7d40833d741dabd16a251eb928798344e8b76c9113827562a8a
 size 60925776

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc81299c0a6ea26b4af7dc8a6953ad6af75dfe1fa70e7d8cfa5a016c89291664
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cc10ffd859f1450b05826ac813f49be0f0747e5248bcbc28c5728d5933007bf
 size 5905