train_cola_1744902675

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the cola dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1407
  • Num Input Tokens Seen: 28700680

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.3202 0.4158 200 0.2545 143936
0.1953 0.8316 400 0.2064 287392
0.1709 1.2474 600 0.1980 430968
0.2012 1.6632 800 0.1887 574456
0.196 2.0790 1000 0.1881 718448
0.157 2.4948 1200 0.1850 862224
0.2137 2.9106 1400 0.1787 1004880
0.1424 3.3264 1600 0.1710 1148296
0.1718 3.7422 1800 0.1703 1292616
0.183 4.1580 2000 0.1705 1436240
0.1104 4.5738 2200 0.1679 1579408
0.1221 4.9896 2400 0.1696 1723056
0.1058 5.4054 2600 0.1602 1866504
0.1562 5.8212 2800 0.1593 2009832
0.1687 6.2370 3000 0.1600 2153504
0.1533 6.6528 3200 0.1628 2296672
0.1744 7.0686 3400 0.1588 2440240
0.137 7.4844 3600 0.1570 2583952
0.1213 7.9002 3800 0.1545 2727536
0.1256 8.3160 4000 0.1539 2870176
0.1561 8.7318 4200 0.1602 3013792
0.1172 9.1476 4400 0.1569 3157976
0.1544 9.5634 4600 0.1550 3301400
0.1365 9.9792 4800 0.1521 3445528
0.1126 10.3950 5000 0.1538 3588176
0.1436 10.8108 5200 0.1546 3731888
0.1362 11.2266 5400 0.1546 3876072
0.2105 11.6424 5600 0.1558 4020200
0.1689 12.0582 5800 0.1557 4162880
0.1571 12.4740 6000 0.1512 4305664
0.0838 12.8898 6200 0.1523 4449504
0.1447 13.3056 6400 0.1479 4592824
0.1408 13.7214 6600 0.1500 4737208
0.105 14.1372 6800 0.1486 4880104
0.1282 14.5530 7000 0.1525 5024232
0.1507 14.9688 7200 0.1472 5167336
0.111 15.3846 7400 0.1466 5311512
0.1107 15.8004 7600 0.1478 5454712
0.1142 16.2162 7800 0.1606 5598576
0.1482 16.6320 8000 0.1568 5741776
0.1098 17.0478 8200 0.1498 5885896
0.1076 17.4636 8400 0.1448 6030472
0.1189 17.8794 8600 0.1475 6172872
0.156 18.2952 8800 0.1470 6316224
0.135 18.7110 9000 0.1527 6460064
0.1501 19.1268 9200 0.1438 6603384
0.1117 19.5426 9400 0.1444 6746616
0.0968 19.9584 9600 0.1454 6890808
0.11 20.3742 9800 0.1487 7033840
0.1109 20.7900 10000 0.1458 7177136
0.1555 21.2058 10200 0.1477 7320168
0.1125 21.6216 10400 0.1506 7464136
0.1188 22.0374 10600 0.1450 7607816
0.1248 22.4532 10800 0.1432 7751560
0.1459 22.8690 11000 0.1495 7895400
0.0895 23.2848 11200 0.1423 8038480
0.0908 23.7006 11400 0.1452 8182416
0.1401 24.1164 11600 0.1512 8325888
0.1413 24.5322 11800 0.1573 8468992
0.0901 24.9480 12000 0.1480 8612096
0.0967 25.3638 12200 0.1423 8756152
0.1267 25.7796 12400 0.1459 8899640
0.103 26.1954 12600 0.1491 9042656
0.1068 26.6112 12800 0.1431 9186656
0.1125 27.0270 13000 0.1467 9329688
0.1151 27.4428 13200 0.1407 9472184
0.0998 27.8586 13400 0.1529 9616056
0.0927 28.2744 13600 0.1441 9759824
0.073 28.6902 13800 0.1439 9903824
0.1223 29.1060 14000 0.1450 10046680
0.0873 29.5218 14200 0.1440 10190040
0.1034 29.9376 14400 0.1504 10333816
0.1448 30.3534 14600 0.1449 10476752
0.1189 30.7692 14800 0.1515 10620240
0.1136 31.1850 15000 0.1410 10763368
0.0728 31.6008 15200 0.1442 10906568
0.1622 32.0166 15400 0.1473 11049768
0.0923 32.4324 15600 0.1519 11193256
0.0851 32.8482 15800 0.1442 11336648
0.0821 33.2640 16000 0.1455 11481080
0.1021 33.6798 16200 0.1438 11624376
0.0874 34.0956 16400 0.1435 11766832
0.1142 34.5114 16600 0.1461 11910672
0.1233 34.9272 16800 0.1437 12054512
0.1163 35.3430 17000 0.1431 12198464
0.1429 35.7588 17200 0.1458 12341536
0.1197 36.1746 17400 0.1422 12485368
0.1814 36.5904 17600 0.1447 12629496
0.1347 37.0062 17800 0.1424 12772208
0.1318 37.4220 18000 0.1452 12915888
0.1467 37.8378 18200 0.1418 13058896
0.0969 38.2536 18400 0.1430 13201856
0.1371 38.6694 18600 0.1440 13344736
0.1489 39.0852 18800 0.1475 13489016
0.0939 39.5010 19000 0.1507 13632312
0.0904 39.9168 19200 0.1464 13775960
0.121 40.3326 19400 0.1430 13918888
0.0904 40.7484 19600 0.1503 14062184
0.1279 41.1642 19800 0.1428 14206632
0.1071 41.5800 20000 0.1479 14349800
0.1247 41.9958 20200 0.1451 14493096
0.0843 42.4116 20400 0.1436 14636824
0.0972 42.8274 20600 0.1438 14780056
0.0932 43.2432 20800 0.1496 14922952
0.1286 43.6590 21000 0.1460 15066120
0.1516 44.0748 21200 0.1440 15209536
0.0953 44.4906 21400 0.1438 15353920
0.1077 44.9064 21600 0.1428 15497376
0.1209 45.3222 21800 0.1427 15641208
0.1101 45.7380 22000 0.1462 15784536
0.0895 46.1538 22200 0.1466 15928528
0.0857 46.5696 22400 0.1446 16072048
0.0952 46.9854 22600 0.1447 16214832
0.0783 47.4012 22800 0.1448 16358208
0.0959 47.8170 23000 0.1458 16501568
0.0732 48.2328 23200 0.1447 16645480
0.1141 48.6486 23400 0.1447 16789224
0.1062 49.0644 23600 0.1500 16932768
0.0689 49.4802 23800 0.1461 17076672
0.1339 49.8960 24000 0.1449 17220000
0.0907 50.3119 24200 0.1421 17363816
0.067 50.7277 24400 0.1426 17508072
0.1256 51.1435 24600 0.1516 17651488
0.0904 51.5593 24800 0.1457 17795328
0.1338 51.9751 25000 0.1462 17938368
0.0725 52.3909 25200 0.1455 18081176
0.12 52.8067 25400 0.1497 18224696
0.0831 53.2225 25600 0.1468 18369136
0.0712 53.6383 25800 0.1458 18511824
0.0803 54.0541 26000 0.1454 18655008
0.0841 54.4699 26200 0.1470 18798592
0.1216 54.8857 26400 0.1478 18942016
0.1284 55.3015 26600 0.1471 19085296
0.0861 55.7173 26800 0.1484 19229616
0.0882 56.1331 27000 0.1470 19373160
0.106 56.5489 27200 0.1456 19516200
0.1275 56.9647 27400 0.1464 19659656
0.1203 57.3805 27600 0.1452 19803672
0.0783 57.7963 27800 0.1474 19947800
0.0838 58.2121 28000 0.1511 20090864
0.0751 58.6279 28200 0.1453 20234160
0.1064 59.0437 28400 0.1487 20378152
0.0903 59.4595 28600 0.1445 20521096
0.0949 59.8753 28800 0.1467 20664744
0.1043 60.2911 29000 0.1493 20808544
0.091 60.7069 29200 0.1445 20952064
0.1157 61.1227 29400 0.1461 21095536
0.131 61.5385 29600 0.1452 21239216
0.0953 61.9543 29800 0.1457 21382704
0.0733 62.3701 30000 0.1444 21526584
0.1321 62.7859 30200 0.1477 21670744
0.1047 63.2017 30400 0.1469 21813952
0.1489 63.6175 30600 0.1465 21956992
0.0626 64.0333 30800 0.1438 22100720
0.1207 64.4491 31000 0.1472 22244240
0.1172 64.8649 31200 0.1453 22388368
0.1359 65.2807 31400 0.1442 22531840
0.0845 65.6965 31600 0.1471 22674688
0.0845 66.1123 31800 0.1448 22817880
0.1156 66.5281 32000 0.1497 22962360
0.0723 66.9439 32200 0.1472 23105624
0.0999 67.3597 32400 0.1478 23248272
0.0879 67.7755 32600 0.1460 23391888
0.1015 68.1913 32800 0.1450 23535616
0.0684 68.6071 33000 0.1499 23678976
0.0714 69.0229 33200 0.1452 23823128
0.1009 69.4387 33400 0.1459 23966488
0.1147 69.8545 33600 0.1474 24110648
0.0928 70.2703 33800 0.1452 24253072
0.1074 70.6861 34000 0.1462 24396528
0.1518 71.1019 34200 0.1484 24540040
0.1025 71.5177 34400 0.1479 24683144
0.0862 71.9335 34600 0.1484 24827048
0.1108 72.3493 34800 0.1483 24970840
0.1 72.7651 35000 0.1467 25115672
0.0681 73.1809 35200 0.1469 25258416
0.1139 73.5967 35400 0.1460 25402448
0.1225 74.0125 35600 0.1463 25545128
0.1169 74.4283 35800 0.1471 25688392
0.1145 74.8441 36000 0.1466 25831720
0.0914 75.2599 36200 0.1476 25975928
0.0691 75.6757 36400 0.1484 26119704
0.0917 76.0915 36600 0.1460 26262696
0.0828 76.5073 36800 0.1467 26406024
0.0903 76.9231 37000 0.1476 26550088
0.0924 77.3389 37200 0.1453 26693856
0.0901 77.7547 37400 0.1468 26837120
0.088 78.1705 37600 0.1472 26980600
0.0809 78.5863 37800 0.1475 27124888
0.0709 79.0021 38000 0.1464 27266800
0.0883 79.4179 38200 0.1473 27410736
0.1097 79.8337 38400 0.1464 27553360
0.0643 80.2495 38600 0.1465 27696864
0.1098 80.6653 38800 0.1462 27839840
0.089 81.0811 39000 0.1481 27983384
0.1209 81.4969 39200 0.1467 28127512
0.071 81.9127 39400 0.1470 28270104
0.0797 82.3285 39600 0.1470 28413680
0.0507 82.7443 39800 0.1470 28557552
0.0992 83.1601 40000 0.1470 28700680

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
6
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_cola_1744902675

Adapter
(540)
this model

Evaluation results