LamaDiab
/

MiniLM-V10Data-128BATCH-SemanticEngine

@@ -366,22 +366,7 @@ You can finetune this model on your own dataset.
 ### Training Logs
 | Epoch  | Step  | Training Loss | Validation Loss | cosine_accuracy |
 |:------:|:-----:|:-------------:|:---------------:|:---------------:|
-| 0.0003 | 1     | 1.6763        | -               | -               |
-| 0.2789 | 1000  | 1.6731        | 1.2452          | 0.9435          |
-| 0.5579 | 2000  | 1.4545        | 1.1861          | 0.9491          |
-| 0.8368 | 3000  | 1.3514        | 1.1498          | 0.9530          |
-| 1.1158 | 4000  | 1.2499        | 1.1096          | 0.9535          |
-| 1.3947 | 5000  | 1.1977        | 1.0828          | 0.9589          |
-| 1.6736 | 6000  | 1.1468        | 1.0728          | 0.9585          |
-| 1.9526 | 7000  | 1.1011        | 1.0473          | 0.9593          |
-| 2.2315 | 8000  | 1.0401        | 1.0429          | 0.9575          |
-| 2.5105 | 9000  | 1.0196        | 1.0377          | 0.9599          |
-| 2.7894 | 10000 | 0.9939        | 1.0395          | 0.9592          |
-| 3.0683 | 11000 | 0.9579        | 1.0249          | 0.9612          |
-| 3.3473 | 12000 | 0.9437        | 1.0262          | 0.9600          |
-| 3.6262 | 13000 | 0.9279        | 1.0129          | 0.9618          |
-| 3.9052 | 14000 | 0.9184        | 1.0108          | 0.9621          |
-| 4.1841 | 15000 | 0.8807        | 1.0071          | 0.9614          |
 | 4.4630 | 16000 | 0.8802        | 1.0004          | 0.9613          |
 | 4.7420 | 17000 | 0.8752        | 1.0061          | 0.9617          |
 | 5.0209 | 18000 | 0.8628        | 1.0004          | 0.9629          |

 ### Training Logs
 | Epoch  | Step  | Training Loss | Validation Loss | cosine_accuracy |
 |:------:|:-----:|:-------------:|:---------------:|:---------------:|
+| 4.1841 | 15000 | 0.8884        | 1.0071          | 0.9614          |
 | 4.4630 | 16000 | 0.8802        | 1.0004          | 0.9613          |
 | 4.7420 | 17000 | 0.8752        | 1.0061          | 0.9617          |
 | 5.0209 | 18000 | 0.8628        | 1.0004          | 0.9629          |

checkpoint-21510/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77a8ca702070da5d882996fab55e9323da9eb35629d63dc8b914ab691d8584fc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1219bd9031f06886018f52413a10fcb6ac47375db53e4b9ff515c0e7adf9966
 size 14244

checkpoint-21510/trainer_state.json CHANGED Viewed

@@ -244,16 +244,16 @@
       "epoch": 4.184100418410042,
       "grad_norm": 4.519611358642578,
       "learning_rate": 5.964002440512509e-06,
-      "loss": 0.8807,
       "step": 15000
     },
     {
       "epoch": 4.184100418410042,
       "eval_cosine_accuracy": 0.9614049792289734,
       "eval_loss": 1.0071080923080444,
-      "eval_runtime": 22.3262,
-      "eval_samples_per_second": 425.913,
-      "eval_steps_per_second": 3.359,
       "step": 15000
     },
     {
@@ -267,9 +267,9 @@
       "epoch": 4.463040446304045,
       "eval_cosine_accuracy": 0.9612998366355896,
       "eval_loss": 1.0004464387893677,
-      "eval_runtime": 23.5229,
-      "eval_samples_per_second": 404.245,
-      "eval_steps_per_second": 3.188,
       "step": 16000
     },
     {
@@ -283,9 +283,9 @@
       "epoch": 4.741980474198048,
       "eval_cosine_accuracy": 0.9617204666137695,
       "eval_loss": 1.0060843229293823,
-      "eval_runtime": 22.4412,
-      "eval_samples_per_second": 423.73,
-      "eval_steps_per_second": 3.342,
       "step": 17000
     },
     {
@@ -299,9 +299,9 @@
       "epoch": 5.02092050209205,
       "eval_cosine_accuracy": 0.9628772735595703,
       "eval_loss": 1.0004209280014038,
-      "eval_runtime": 22.3957,
-      "eval_samples_per_second": 424.591,
-      "eval_steps_per_second": 3.349,
       "step": 18000
     },
     {
@@ -315,9 +315,9 @@
       "epoch": 5.299860529986053,
       "eval_cosine_accuracy": 0.9621411561965942,
       "eval_loss": 1.0009299516677856,
-      "eval_runtime": 22.4826,
-      "eval_samples_per_second": 422.95,
-      "eval_steps_per_second": 3.336,
       "step": 19000
     },
     {
@@ -331,9 +331,9 @@
       "epoch": 5.578800557880056,
       "eval_cosine_accuracy": 0.9630876183509827,
       "eval_loss": 0.9901958703994751,
-      "eval_runtime": 22.677,
-      "eval_samples_per_second": 419.323,
-      "eval_steps_per_second": 3.307,
       "step": 20000
     },
     {
@@ -347,9 +347,9 @@
       "epoch": 5.857740585774058,
       "eval_cosine_accuracy": 0.9632979035377502,
       "eval_loss": 0.992326557636261,
-      "eval_runtime": 22.6971,
-      "eval_samples_per_second": 418.952,
-      "eval_steps_per_second": 3.304,
       "step": 21000
     }
   ],

       "epoch": 4.184100418410042,
       "grad_norm": 4.519611358642578,
       "learning_rate": 5.964002440512509e-06,
+      "loss": 0.8884,
       "step": 15000
     },
     {
       "epoch": 4.184100418410042,
       "eval_cosine_accuracy": 0.9614049792289734,
       "eval_loss": 1.0071080923080444,
+      "eval_runtime": 21.2593,
+      "eval_samples_per_second": 447.287,
+      "eval_steps_per_second": 3.528,
       "step": 15000
     },
     {
       "epoch": 4.463040446304045,
       "eval_cosine_accuracy": 0.9612998366355896,
       "eval_loss": 1.0004464387893677,
+      "eval_runtime": 21.271,
+      "eval_samples_per_second": 447.04,
+      "eval_steps_per_second": 3.526,
       "step": 16000
     },
     {
       "epoch": 4.741980474198048,
       "eval_cosine_accuracy": 0.9617204666137695,
       "eval_loss": 1.0060843229293823,
+      "eval_runtime": 21.4196,
+      "eval_samples_per_second": 443.939,
+      "eval_steps_per_second": 3.501,
       "step": 17000
     },
     {
       "epoch": 5.02092050209205,
       "eval_cosine_accuracy": 0.9628772735595703,
       "eval_loss": 1.0004209280014038,
+      "eval_runtime": 21.3936,
+      "eval_samples_per_second": 444.479,
+      "eval_steps_per_second": 3.506,
       "step": 18000
     },
     {
       "epoch": 5.299860529986053,
       "eval_cosine_accuracy": 0.9621411561965942,
       "eval_loss": 1.0009299516677856,
+      "eval_runtime": 21.2856,
+      "eval_samples_per_second": 446.733,
+      "eval_steps_per_second": 3.524,
       "step": 19000
     },
     {
       "epoch": 5.578800557880056,
       "eval_cosine_accuracy": 0.9630876183509827,
       "eval_loss": 0.9901958703994751,
+      "eval_runtime": 22.6062,
+      "eval_samples_per_second": 420.636,
+      "eval_steps_per_second": 3.318,
       "step": 20000
     },
     {
       "epoch": 5.857740585774058,
       "eval_cosine_accuracy": 0.9632979035377502,
       "eval_loss": 0.992326557636261,
+      "eval_runtime": 21.2926,
+      "eval_samples_per_second": 446.587,
+      "eval_steps_per_second": 3.522,
       "step": 21000
     }
   ],

checkpoint-21510/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddb1e0dab31f45e0e46ba20c97f0f69d3bc5247ba9f25051c28fed605796b0eb
 size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:93b1607a15af70cf6b32a232aa87f4ee1d3038e5a70922f63dc141b69792d409
 size 5752