train_mrpc_1744902645

This model is a fine-tuned version of google/gemma-3-1b-it on the mrpc dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1226
  • Num Input Tokens Seen: 68544800

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.5248 0.9685 200 0.4069 342592
0.2174 1.9395 400 0.2247 685504
0.176 2.9104 600 0.1851 1027680
0.1559 3.8814 800 0.1661 1371040
0.1874 4.8523 1000 0.1558 1713440
0.1398 5.8232 1200 0.1576 2056384
0.1637 6.7942 1400 0.1499 2400544
0.1201 7.7651 1600 0.1474 2741344
0.1359 8.7361 1800 0.1445 3083872
0.1782 9.7070 2000 0.1477 3425696
0.1477 10.6780 2200 0.1427 3769888
0.1492 11.6489 2400 0.1402 4110336
0.1372 12.6199 2600 0.1395 4453600
0.1281 13.5908 2800 0.1392 4796192
0.1563 14.5617 3000 0.1389 5138720
0.1503 15.5327 3200 0.1387 5480512
0.1147 16.5036 3400 0.1363 5822816
0.143 17.4746 3600 0.1365 6165056
0.1433 18.4455 3800 0.1354 6507264
0.1201 19.4165 4000 0.1372 6849792
0.1387 20.3874 4200 0.1454 7192864
0.1348 21.3584 4400 0.1312 7534272
0.1394 22.3293 4600 0.1419 7877248
0.1265 23.3002 4800 0.1358 8220544
0.128 24.2712 5000 0.1314 8562144
0.123 25.2421 5200 0.1332 8905568
0.128 26.2131 5400 0.1354 9248640
0.1291 27.1840 5600 0.1323 9592608
0.103 28.1550 5800 0.1336 9933568
0.1334 29.1259 6000 0.1323 10277088
0.1153 30.0969 6200 0.1416 10619488
0.1225 31.0678 6400 0.1289 10962112
0.109 32.0387 6600 0.1367 11306080
0.1634 33.0097 6800 0.1272 11649024
0.1453 33.9782 7000 0.1314 11992032
0.1199 34.9492 7200 0.1297 12334784
0.1405 35.9201 7400 0.1282 12677888
0.0869 36.8910 7600 0.1281 13020640
0.1465 37.8620 7800 0.1313 13363648
0.1346 38.8329 8000 0.1300 13706752
0.1188 39.8039 8200 0.1329 14048256
0.137 40.7748 8400 0.1307 14392064
0.1176 41.7458 8600 0.1276 14733504
0.1284 42.7167 8800 0.1284 15076736
0.1455 43.6877 9000 0.1286 15418176
0.1227 44.6586 9200 0.1315 15762912
0.1077 45.6295 9400 0.1282 16105760
0.1338 46.6005 9600 0.1262 16448096
0.1073 47.5714 9800 0.1297 16790336
0.103 48.5424 10000 0.1311 17132896
0.1334 49.5133 10200 0.1263 17477376
0.1143 50.4843 10400 0.1252 17817792
0.1089 51.4552 10600 0.1255 18160384
0.129 52.4262 10800 0.1247 18502784
0.1108 53.3971 11000 0.1244 18845184
0.1107 54.3680 11200 0.1271 19187296
0.1114 55.3390 11400 0.1238 19529792
0.1108 56.3099 11600 0.1247 19873728
0.1161 57.2809 11800 0.1335 20215680
0.0822 58.2518 12000 0.1249 20558624
0.1278 59.2228 12200 0.1280 20901984
0.122 60.1937 12400 0.1247 21244800
0.1432 61.1646 12600 0.1271 21588704
0.1076 62.1356 12800 0.1283 21931872
0.1254 63.1065 13000 0.1324 22274560
0.1266 64.0775 13200 0.1243 22618432
0.0988 65.0484 13400 0.1229 22961216
0.1411 66.0194 13600 0.1242 23304288
0.1109 66.9879 13800 0.1271 23646592
0.1245 67.9588 14000 0.1239 23989408
0.1222 68.9298 14200 0.1275 24332544
0.1259 69.9007 14400 0.1279 24675424
0.1238 70.8717 14600 0.1256 25017632
0.1142 71.8426 14800 0.1251 25360352
0.1165 72.8136 15000 0.1268 25701344
0.1087 73.7845 15200 0.1271 26046016
0.1117 74.7554 15400 0.1281 26388448
0.1273 75.7264 15600 0.1245 26729856
0.0912 76.6973 15800 0.1324 27072064
0.0806 77.6683 16000 0.1244 27415968
0.1018 78.6392 16200 0.1289 27759520
0.1024 79.6102 16400 0.1226 28101632
0.1268 80.5811 16600 0.1247 28446208
0.1247 81.5521 16800 0.1272 28787840
0.1016 82.5230 17000 0.1232 29129536
0.0813 83.4939 17200 0.1274 29473344
0.0897 84.4649 17400 0.1257 29815360
0.086 85.4358 17600 0.1252 30157632
0.113 86.4068 17800 0.1230 30501440
0.066 87.3777 18000 0.1296 30843072
0.0948 88.3487 18200 0.1283 31187360
0.1063 89.3196 18400 0.1298 31528480
0.1341 90.2906 18600 0.1305 31872544
0.1015 91.2615 18800 0.1245 32214560
0.0842 92.2324 19000 0.1256 32558112
0.1026 93.2034 19200 0.1261 32900448
0.1074 94.1743 19400 0.1272 33244800
0.1025 95.1453 19600 0.1324 33587168
0.1171 96.1162 19800 0.1259 33929248
0.1106 97.0872 20000 0.1270 34271648
0.0983 98.0581 20200 0.1260 34613344
0.109 99.0291 20400 0.1279 34957056
0.0836 99.9976 20600 0.1242 35299200
0.0819 100.9685 20800 0.1289 35642464
0.1524 101.9395 21000 0.1276 35985280
0.1029 102.9104 21200 0.1290 36327840
0.0966 103.8814 21400 0.1250 36669664
0.1016 104.8523 21600 0.1235 37012960
0.0934 105.8232 21800 0.1281 37355968
0.0704 106.7942 22000 0.1322 37698112
0.1259 107.7651 22200 0.1271 38040768
0.0883 108.7361 22400 0.1276 38383744
0.1062 109.7070 22600 0.1293 38726880
0.108 110.6780 22800 0.1269 39068512
0.1116 111.6489 23000 0.1296 39411712
0.1086 112.6199 23200 0.1298 39754784
0.0979 113.5908 23400 0.1302 40097568
0.0883 114.5617 23600 0.1309 40441152
0.1227 115.5327 23800 0.1256 40784672
0.1412 116.5036 24000 0.1274 41127232
0.1046 117.4746 24200 0.1256 41468768
0.122 118.4455 24400 0.1318 41811328
0.1026 119.4165 24600 0.1265 42154688
0.1242 120.3874 24800 0.1302 42497024
0.1175 121.3584 25000 0.1274 42838112
0.095 122.3293 25200 0.1271 43181600
0.0638 123.3002 25400 0.1310 43524256
0.0945 124.2712 25600 0.1289 43867840
0.1367 125.2421 25800 0.1303 44207680
0.1245 126.2131 26000 0.1283 44551232
0.1056 127.1840 26200 0.1338 44894816
0.0957 128.1550 26400 0.1324 45236928
0.0909 129.1259 26600 0.1307 45579584
0.0799 130.0969 26800 0.1334 45923328
0.0984 131.0678 27000 0.1299 46264032
0.1269 132.0387 27200 0.1325 46607776
0.1102 133.0097 27400 0.1296 46950752
0.1286 133.9782 27600 0.1316 47293824
0.0943 134.9492 27800 0.1285 47637248
0.0737 135.9201 28000 0.1307 47979552
0.1158 136.8910 28200 0.1322 48322528
0.0833 137.8620 28400 0.1286 48663488
0.0808 138.8329 28600 0.1318 49008000
0.0924 139.8039 28800 0.1303 49350304
0.0852 140.7748 29000 0.1330 49694528
0.0798 141.7458 29200 0.1332 50035616
0.0992 142.7167 29400 0.1294 50378912
0.0877 143.6877 29600 0.1338 50722400
0.1047 144.6586 29800 0.1312 51064768
0.1134 145.6295 30000 0.1303 51407840
0.0749 146.6005 30200 0.1355 51749792
0.1137 147.5714 30400 0.1327 52094304
0.1236 148.5424 30600 0.1339 52436000
0.0812 149.5133 30800 0.1331 52777984
0.0905 150.4843 31000 0.1283 53119904
0.0842 151.4552 31200 0.1306 53462560
0.0998 152.4262 31400 0.1284 53806272
0.1007 153.3971 31600 0.1298 54148640
0.118 154.3680 31800 0.1293 54489984
0.0934 155.3390 32000 0.1296 54832032
0.089 156.3099 32200 0.1328 55173664
0.0927 157.2809 32400 0.1291 55517376
0.1019 158.2518 32600 0.1290 55861088
0.0981 159.2228 32800 0.1304 56203392
0.1049 160.1937 33000 0.1293 56545632
0.0747 161.1646 33200 0.1315 56888352
0.0901 162.1356 33400 0.1313 57231584
0.0795 163.1065 33600 0.1314 57574112
0.0796 164.0775 33800 0.1327 57917728
0.0905 165.0484 34000 0.1285 58261184
0.1141 166.0194 34200 0.1294 58604352
0.0909 166.9879 34400 0.1300 58946112
0.1023 167.9588 34600 0.1340 59289344
0.0803 168.9298 34800 0.1281 59631584
0.0732 169.9007 35000 0.1292 59974880
0.1097 170.8717 35200 0.1332 60318560
0.1224 171.8426 35400 0.1293 60662016
0.074 172.8136 35600 0.1336 61004352
0.1087 173.7845 35800 0.1293 61347296
0.0761 174.7554 36000 0.1287 61689824
0.0997 175.7264 36200 0.1292 62033792
0.0989 176.6973 36400 0.1331 62376224
0.1047 177.6683 36600 0.1340 62720096
0.0595 178.6392 36800 0.1281 63062656
0.0805 179.6102 37000 0.1298 63405504
0.1081 180.5811 37200 0.1329 63748768
0.0752 181.5521 37400 0.1319 64092416
0.0923 182.5230 37600 0.1317 64436992
0.0855 183.4939 37800 0.1320 64777984
0.1065 184.4649 38000 0.1334 65120224
0.0809 185.4358 38200 0.1285 65462240
0.0853 186.4068 38400 0.1321 65805504
0.0858 187.3777 38600 0.1312 66148448
0.0745 188.3487 38800 0.1329 66490240
0.103 189.3196 39000 0.1304 66832256
0.0944 190.2906 39200 0.1335 67174336
0.0783 191.2615 39400 0.1298 67517920
0.0733 192.2324 39600 0.1315 67860384
0.0907 193.2034 39800 0.1321 68203104
0.1099 194.1743 40000 0.1321 68544800

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
32
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mrpc_1744902645

Adapter
(159)
this model

Evaluation results