jszot
/

calculator_model_test

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [jszot/calculator_model_test](https://huggingface.co/jszot/calculator_model_test) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6156
 ## Model description
@@ -34,68 +34,89 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0001
 - train_batch_size: 512
 - eval_batch_size: 512
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 50
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.8978        | 1.0   | 6    | 0.7935          |
-| 0.8605        | 2.0   | 12   | 0.8017          |
-| 0.8521        | 3.0   | 18   | 0.7763          |
-| 0.8392        | 4.0   | 24   | 0.7644          |
-| 0.8363        | 5.0   | 30   | 0.7725          |
-| 0.8190        | 6.0   | 36   | 0.7506          |
-| 0.8195        | 7.0   | 42   | 0.7411          |
-| 0.8048        | 8.0   | 48   | 0.7332          |
-| 0.8040        | 9.0   | 54   | 0.7260          |
-| 0.7897        | 10.0  | 60   | 0.7216          |
-| 0.7921        | 11.0  | 66   | 0.7229          |
-| 0.7888        | 12.0  | 72   | 0.7279          |
-| 0.7827        | 13.0  | 78   | 0.7076          |
-| 0.8073        | 14.0  | 84   | 0.7025          |
-| 0.7854        | 15.0  | 90   | 0.6939          |
-| 0.7717        | 16.0  | 96   | 0.6911          |
-| 0.7699        | 17.0  | 102  | 0.6865          |
-| 0.7613        | 18.0  | 108  | 0.6901          |
-| 0.7597        | 19.0  | 114  | 0.6784          |
-| 0.7514        | 20.0  | 120  | 0.6749          |
-| 0.7470        | 21.0  | 126  | 0.6698          |
-| 0.7455        | 22.0  | 132  | 0.6671          |
-| 0.7419        | 23.0  | 138  | 0.6668          |
-| 0.7473        | 24.0  | 144  | 0.6612          |
-| 0.7371        | 25.0  | 150  | 0.6587          |
-| 0.7319        | 26.0  | 156  | 0.6635          |
-| 0.7364        | 27.0  | 162  | 0.6493          |
-| 0.7187        | 28.0  | 168  | 0.6625          |
-| 0.7257        | 29.0  | 174  | 0.6474          |
-| 0.7151        | 30.0  | 180  | 0.6469          |
-| 0.7132        | 31.0  | 186  | 0.6395          |
-| 0.7167        | 32.0  | 192  | 0.6377          |
-| 0.7137        | 33.0  | 198  | 0.6347          |
-| 0.7127        | 34.0  | 204  | 0.6311          |
-| 0.7077        | 35.0  | 210  | 0.6355          |
-| 0.7205        | 36.0  | 216  | 0.6278          |
-| 0.7156        | 37.0  | 222  | 0.6316          |
-| 0.7032        | 38.0  | 228  | 0.6247          |
-| 0.7178        | 39.0  | 234  | 0.6248          |
-| 0.7151        | 40.0  | 240  | 0.6226          |
-| 0.7077        | 41.0  | 246  | 0.6223          |
-| 0.7253        | 42.0  | 252  | 0.6258          |
-| 0.7038        | 43.0  | 258  | 0.6187          |
-| 0.7244        | 44.0  | 264  | 0.6185          |
-| 0.7039        | 45.0  | 270  | 0.6185          |
-| 0.7290        | 46.0  | 276  | 0.6161          |
-| 0.7084        | 47.0  | 282  | 0.6164          |
-| 0.7099        | 48.0  | 288  | 0.6164          |
-| 0.6998        | 49.0  | 294  | 0.6158          |
-| 0.6985        | 50.0  | 300  | 0.6156          |
 ### Framework versions

 This model is a fine-tuned version of [jszot/calculator_model_test](https://huggingface.co/jszot/calculator_model_test) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: nan
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.03
 - train_batch_size: 512
 - eval_batch_size: 512
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 70
+- mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 2.4915        | 1.0   | 6    | 2.4641          |
+| 2.3810        | 2.0   | 12   | 2.4631          |
+| 0.4020        | 3.0   | 18   | 2.4760          |
+| 0.4152        | 4.0   | 24   | 2.5013          |
+| 0.4167        | 5.0   | 30   | 2.5159          |
+| 0.4259        | 6.0   | 36   | 2.5125          |
+| 0.4180        | 7.0   | 42   | 2.4938          |
+| 0.0           | 8.0   | 48   | 2.4938          |
+| 0.4142        | 9.0   | 54   | 2.4873          |
+| 0.4113        | 10.0  | 60   | 2.4874          |
+| 0.4333        | 11.0  | 66   | 2.4917          |
+| 0.4189        | 12.0  | 72   | 2.4985          |
+| 0.8576        | 13.0  | 78   | 2.5152          |
+| 0.4302        | 14.0  | 84   | 2.5250          |
+| 0.4158        | 15.0  | 90   | 2.5355          |
+| 0.4416        | 16.0  | 96   | 2.5463          |
+| 0.4541        | 17.0  | 102  | 2.5573          |
+| 0.4295        | 18.0  | 108  | 2.5683          |
+| 0.4440        | 19.0  | 114  | 2.5796          |
+| 1.2993        | 20.0  | 120  | 2.6013          |
+| 0.4239        | 21.0  | 126  | 2.6117          |
+| 0.0           | 22.0  | 132  | 2.6117          |
+| 0.0           | 23.0  | 138  | 2.6117          |
+| 0.8906        | 24.0  | 144  | 2.6300          |
+| 0.4285        | 25.0  | 150  | 2.6385          |
+| 0.4323        | 26.0  | 156  | 2.6461          |
+| 0.4449        | 27.0  | 162  | 2.6537          |
+| 0.0           | 28.0  | 168  | 2.6537          |
+| 0.4491        | 29.0  | 174  | 2.6605          |
+| 0.4529        | 30.0  | 180  | 2.6669          |
+| 1.7849        | 31.0  | 186  | nan             |
+| 0.0           | 32.0  | 192  | nan             |
+| 0.0           | 33.0  | 198  | nan             |
+| 0.0           | 34.0  | 204  | nan             |
+| 0.0           | 35.0  | 210  | nan             |
+| 0.0           | 36.0  | 216  | nan             |
+| 0.0           | 37.0  | 222  | nan             |
+| 0.0           | 38.0  | 228  | nan             |
+| 0.0           | 39.0  | 234  | nan             |
+| 0.0           | 40.0  | 240  | nan             |
+| 0.0           | 41.0  | 246  | nan             |
+| 0.0           | 42.0  | 252  | nan             |
+| 0.0           | 43.0  | 258  | nan             |
+| 0.0           | 44.0  | 264  | nan             |
+| 0.0           | 45.0  | 270  | nan             |
+| 0.0           | 46.0  | 276  | nan             |
+| 0.0           | 47.0  | 282  | nan             |
+| 0.0           | 48.0  | 288  | nan             |
+| 0.0           | 49.0  | 294  | nan             |
+| 0.0           | 50.0  | 300  | nan             |
+| 0.0           | 51.0  | 306  | nan             |
+| 0.0           | 52.0  | 312  | nan             |
+| 0.0           | 53.0  | 318  | nan             |
+| 0.0           | 54.0  | 324  | nan             |
+| 0.0           | 55.0  | 330  | nan             |
+| 0.0           | 56.0  | 336  | nan             |
+| 0.0           | 57.0  | 342  | nan             |
+| 0.0           | 58.0  | 348  | nan             |
+| 0.0           | 59.0  | 354  | nan             |
+| 0.0           | 60.0  | 360  | nan             |
+| 0.0           | 61.0  | 366  | nan             |
+| 0.0           | 62.0  | 372  | nan             |
+| 0.0           | 63.0  | 378  | nan             |
+| 0.0           | 64.0  | 384  | nan             |
+| 0.0           | 65.0  | 390  | nan             |
+| 0.0           | 66.0  | 396  | nan             |
+| 0.0           | 67.0  | 402  | nan             |
+| 0.0           | 68.0  | 408  | nan             |
+| 0.0           | 69.0  | 414  | nan             |
+| 0.0           | 70.0  | 420  | nan             |
 ### Framework versions