Training in progress, epoch 2, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +455 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5128d9dcd70414a36e31024f4ad5ec042101281c4c972fc6e1627cf56599a4f6
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad737a62d5e6dd3601ece9ec89b866a23dce6e9660089db12fbc69ce938d925e
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b29aeaf32b580836c4ab6ce3bb3b6341694319fadb2c700d01bdfa699d0c67c
 size 116484839

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dfe45f7e8553ab326b74acce24981ad2310a19952e96422e10cdcd05d9f3261
 size 116484839

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e2a25360b265ca8d0b891411b6f03807107a036c84312fe5f9c527c82dffde4
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4ff3bd83efcc74d45f6dc982dfad42de943c268219c0ad0ee388295c41e8e02
 size 14709

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2784a2c99c69b1eeb46f85a93b50eab9ad7944681abfbfbe77fcff06d3d98c4
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cb6f523fe7cbe7ec261f5a7daf8f68472cbad6a063d529646d1f827a9ef9fd3
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:235ac77d5afb578b9d394edc166238b7f00aecfd5e424e6f4eb719fa59ee4941
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:53f409af08acb24ba2f85422d6d830e93fdc97a01268b4582a53eec3cbfeb20a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 438,
   "best_metric": 1.2615772485733032,
   "best_model_checkpoint": "./adapter-phase2/checkpoint-438",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 438,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -450,6 +450,458 @@
       "eval_samples_per_second": 3.459,
       "eval_steps_per_second": 0.866,
       "step": 438
     }
   ],
   "logging_steps": 10,
@@ -469,7 +921,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.940029330061312e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 438,
   "best_metric": 1.2615772485733032,
   "best_model_checkpoint": "./adapter-phase2/checkpoint-438",
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 876,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.459,
       "eval_steps_per_second": 0.866,
       "step": 438
+    },
+    {
+      "entropy": 0.9707203358411789,
+      "epoch": 1.0045714285714287,
+      "grad_norm": 1.046062707901001,
+      "learning_rate": 7.99543378995434e-06,
+      "loss": 0.8608,
+      "mean_token_accuracy": 0.7782945515293824,
+      "num_tokens": 425275.0,
+      "step": 440
+    },
+    {
+      "entropy": 0.7523622503504157,
+      "epoch": 1.0274285714285714,
+      "grad_norm": 1.2251920700073242,
+      "learning_rate": 7.949771689497718e-06,
+      "loss": 0.7473,
+      "mean_token_accuracy": 0.8092356324195862,
+      "num_tokens": 439850.0,
+      "step": 450
+    },
+    {
+      "entropy": 0.84888547193259,
+      "epoch": 1.0502857142857143,
+      "grad_norm": 1.325343370437622,
+      "learning_rate": 7.904109589041097e-06,
+      "loss": 0.7907,
+      "mean_token_accuracy": 0.7977306388318539,
+      "num_tokens": 451136.0,
+      "step": 460
+    },
+    {
+      "entropy": 0.9735806178301573,
+      "epoch": 1.0731428571428572,
+      "grad_norm": 1.6439032554626465,
+      "learning_rate": 7.858447488584475e-06,
+      "loss": 0.9513,
+      "mean_token_accuracy": 0.7617030199617147,
+      "num_tokens": 459486.0,
+      "step": 470
+    },
+    {
+      "entropy": 1.0277788739651441,
+      "epoch": 1.096,
+      "grad_norm": 1.8182581663131714,
+      "learning_rate": 7.812785388127855e-06,
+      "loss": 0.9526,
+      "mean_token_accuracy": 0.7630892738699913,
+      "num_tokens": 465975.0,
+      "step": 480
+    },
+    {
+      "entropy": 0.943339848332107,
+      "epoch": 1.1188571428571428,
+      "grad_norm": 1.1697943210601807,
+      "learning_rate": 7.767123287671234e-06,
+      "loss": 0.851,
+      "mean_token_accuracy": 0.7827658370137215,
+      "num_tokens": 473929.0,
+      "step": 490
+    },
+    {
+      "entropy": 0.7733788685873151,
+      "epoch": 1.1417142857142857,
+      "grad_norm": 1.2411632537841797,
+      "learning_rate": 7.721461187214612e-06,
+      "loss": 0.7691,
+      "mean_token_accuracy": 0.8111804500222206,
+      "num_tokens": 488306.0,
+      "step": 500
+    },
+    {
+      "entropy": 0.824394048191607,
+      "epoch": 1.1645714285714286,
+      "grad_norm": 1.3971821069717407,
+      "learning_rate": 7.675799086757991e-06,
+      "loss": 0.7429,
+      "mean_token_accuracy": 0.8088308341801167,
+      "num_tokens": 499208.0,
+      "step": 510
+    },
+    {
+      "entropy": 0.9718045836314559,
+      "epoch": 1.1874285714285715,
+      "grad_norm": 1.7808269262313843,
+      "learning_rate": 7.630136986301371e-06,
+      "loss": 0.9365,
+      "mean_token_accuracy": 0.762304800376296,
+      "num_tokens": 507299.0,
+      "step": 520
+    },
+    {
+      "entropy": 0.9984221205115318,
+      "epoch": 1.2102857142857144,
+      "grad_norm": 2.0445668697357178,
+      "learning_rate": 7.58447488584475e-06,
+      "loss": 0.9299,
+      "mean_token_accuracy": 0.7667763099074364,
+      "num_tokens": 513558.0,
+      "step": 530
+    },
+    {
+      "entropy": 0.9143548993393779,
+      "epoch": 1.233142857142857,
+      "grad_norm": 1.4540475606918335,
+      "learning_rate": 7.538812785388129e-06,
+      "loss": 0.7977,
+      "mean_token_accuracy": 0.7940818261355161,
+      "num_tokens": 521477.0,
+      "step": 540
+    },
+    {
+      "entropy": 0.7225218357518315,
+      "epoch": 1.256,
+      "grad_norm": 1.4530831575393677,
+      "learning_rate": 7.4931506849315075e-06,
+      "loss": 0.7282,
+      "mean_token_accuracy": 0.8143456902354955,
+      "num_tokens": 536156.0,
+      "step": 550
+    },
+    {
+      "entropy": 0.826616644486785,
+      "epoch": 1.278857142857143,
+      "grad_norm": 1.307198166847229,
+      "learning_rate": 7.447488584474887e-06,
+      "loss": 0.7509,
+      "mean_token_accuracy": 0.8082947298884392,
+      "num_tokens": 547250.0,
+      "step": 560
+    },
+    {
+      "entropy": 0.9597857438027859,
+      "epoch": 1.3017142857142856,
+      "grad_norm": 2.1991994380950928,
+      "learning_rate": 7.401826484018265e-06,
+      "loss": 0.9294,
+      "mean_token_accuracy": 0.7654231000691653,
+      "num_tokens": 555523.0,
+      "step": 570
+    },
+    {
+      "entropy": 1.0113731533288957,
+      "epoch": 1.3245714285714285,
+      "grad_norm": 2.2134881019592285,
+      "learning_rate": 7.356164383561645e-06,
+      "loss": 0.9149,
+      "mean_token_accuracy": 0.7716960549354553,
+      "num_tokens": 561790.0,
+      "step": 580
+    },
+    {
+      "entropy": 0.89712286721915,
+      "epoch": 1.3474285714285714,
+      "grad_norm": 1.2084845304489136,
+      "learning_rate": 7.310502283105023e-06,
+      "loss": 0.7891,
+      "mean_token_accuracy": 0.7911178763955832,
+      "num_tokens": 569844.0,
+      "step": 590
+    },
+    {
+      "entropy": 0.7331022916361689,
+      "epoch": 1.3702857142857143,
+      "grad_norm": 1.3023542165756226,
+      "learning_rate": 7.269406392694065e-06,
+      "loss": 0.7457,
+      "mean_token_accuracy": 0.8113049529492855,
+      "num_tokens": 584459.0,
+      "step": 600
+    },
+    {
+      "entropy": 0.7879349924623966,
+      "epoch": 1.3931428571428572,
+      "grad_norm": 1.555379867553711,
+      "learning_rate": 7.223744292237444e-06,
+      "loss": 0.7306,
+      "mean_token_accuracy": 0.8145640216767788,
+      "num_tokens": 595804.0,
+      "step": 610
+    },
+    {
+      "entropy": 0.9201723251491785,
+      "epoch": 1.416,
+      "grad_norm": 2.0131261348724365,
+      "learning_rate": 7.178082191780823e-06,
+      "loss": 0.881,
+      "mean_token_accuracy": 0.7761596899479628,
+      "num_tokens": 604098.0,
+      "step": 620
+    },
+    {
+      "entropy": 1.0043058268725873,
+      "epoch": 1.4388571428571428,
+      "grad_norm": 1.952837586402893,
+      "learning_rate": 7.132420091324202e-06,
+      "loss": 0.9229,
+      "mean_token_accuracy": 0.7723097205162048,
+      "num_tokens": 610481.0,
+      "step": 630
+    },
+    {
+      "entropy": 0.8940085913985968,
+      "epoch": 1.4617142857142857,
+      "grad_norm": 1.2801399230957031,
+      "learning_rate": 7.086757990867581e-06,
+      "loss": 0.8006,
+      "mean_token_accuracy": 0.7930479496717453,
+      "num_tokens": 618699.0,
+      "step": 640
+    },
+    {
+      "entropy": 0.6966889450326562,
+      "epoch": 1.4845714285714287,
+      "grad_norm": 1.557562232017517,
+      "learning_rate": 7.0410958904109596e-06,
+      "loss": 0.665,
+      "mean_token_accuracy": 0.8264754865318537,
+      "num_tokens": 632856.0,
+      "step": 650
+    },
+    {
+      "entropy": 0.8100471086800098,
+      "epoch": 1.5074285714285716,
+      "grad_norm": 1.7616751194000244,
+      "learning_rate": 6.995433789954339e-06,
+      "loss": 0.7669,
+      "mean_token_accuracy": 0.8096333492547274,
+      "num_tokens": 643712.0,
+      "step": 660
+    },
+    {
+      "entropy": 0.9476521443575621,
+      "epoch": 1.5302857142857142,
+      "grad_norm": 1.97320556640625,
+      "learning_rate": 6.9497716894977175e-06,
+      "loss": 0.8769,
+      "mean_token_accuracy": 0.7822451706975698,
+      "num_tokens": 651732.0,
+      "step": 670
+    },
+    {
+      "entropy": 0.9541807420551777,
+      "epoch": 1.5531428571428572,
+      "grad_norm": 2.2813711166381836,
+      "learning_rate": 6.904109589041097e-06,
+      "loss": 0.8731,
+      "mean_token_accuracy": 0.7764547783881426,
+      "num_tokens": 658104.0,
+      "step": 680
+    },
+    {
+      "entropy": 0.8891686601564288,
+      "epoch": 1.576,
+      "grad_norm": 1.2347137928009033,
+      "learning_rate": 6.858447488584475e-06,
+      "loss": 0.8099,
+      "mean_token_accuracy": 0.795854776352644,
+      "num_tokens": 666681.0,
+      "step": 690
+    },
+    {
+      "entropy": 0.7062053712084889,
+      "epoch": 1.5988571428571428,
+      "grad_norm": 1.505817174911499,
+      "learning_rate": 6.812785388127855e-06,
+      "loss": 0.6689,
+      "mean_token_accuracy": 0.8225430808961391,
+      "num_tokens": 681161.0,
+      "step": 700
+    },
+    {
+      "entropy": 0.7627910353243351,
+      "epoch": 1.6217142857142857,
+      "grad_norm": 1.7354750633239746,
+      "learning_rate": 6.767123287671233e-06,
+      "loss": 0.7217,
+      "mean_token_accuracy": 0.8088484812527895,
+      "num_tokens": 692262.0,
+      "step": 710
+    },
+    {
+      "entropy": 0.9181301448494196,
+      "epoch": 1.6445714285714286,
+      "grad_norm": 1.9427331686019897,
+      "learning_rate": 6.721461187214613e-06,
+      "loss": 0.8664,
+      "mean_token_accuracy": 0.7764203164726495,
+      "num_tokens": 700252.0,
+      "step": 720
+    },
+    {
+      "entropy": 0.970825233310461,
+      "epoch": 1.6674285714285715,
+      "grad_norm": 2.231489419937134,
+      "learning_rate": 6.675799086757991e-06,
+      "loss": 0.8727,
+      "mean_token_accuracy": 0.77991351634264,
+      "num_tokens": 706466.0,
+      "step": 730
+    },
+    {
+      "entropy": 0.8769128978252411,
+      "epoch": 1.6902857142857144,
+      "grad_norm": 1.3580577373504639,
+      "learning_rate": 6.630136986301371e-06,
+      "loss": 0.7826,
+      "mean_token_accuracy": 0.7997685220092535,
+      "num_tokens": 714701.0,
+      "step": 740
+    },
+    {
+      "entropy": 0.6923451218754053,
+      "epoch": 1.713142857142857,
+      "grad_norm": 1.4095361232757568,
+      "learning_rate": 6.584474885844749e-06,
+      "loss": 0.6984,
+      "mean_token_accuracy": 0.8204937841743231,
+      "num_tokens": 729622.0,
+      "step": 750
+    },
+    {
+      "entropy": 0.7426450593397022,
+      "epoch": 1.736,
+      "grad_norm": 1.5736570358276367,
+      "learning_rate": 6.538812785388129e-06,
+      "loss": 0.667,
+      "mean_token_accuracy": 0.8291565012186766,
+      "num_tokens": 740772.0,
+      "step": 760
+    },
+    {
+      "entropy": 0.910079357214272,
+      "epoch": 1.758857142857143,
+      "grad_norm": 2.1047656536102295,
+      "learning_rate": 6.493150684931508e-06,
+      "loss": 0.875,
+      "mean_token_accuracy": 0.7781037461012602,
+      "num_tokens": 748857.0,
+      "step": 770
+    },
+    {
+      "entropy": 0.9749910116195679,
+      "epoch": 1.7817142857142856,
+      "grad_norm": 2.2609705924987793,
+      "learning_rate": 6.447488584474887e-06,
+      "loss": 0.9058,
+      "mean_token_accuracy": 0.7749961122870446,
+      "num_tokens": 755273.0,
+      "step": 780
+    },
+    {
+      "entropy": 0.8688624935224653,
+      "epoch": 1.8045714285714287,
+      "grad_norm": 2.156954765319824,
+      "learning_rate": 6.401826484018266e-06,
+      "loss": 0.7568,
+      "mean_token_accuracy": 0.8001648161560297,
+      "num_tokens": 763404.0,
+      "step": 790
+    },
+    {
+      "entropy": 0.6553533479571343,
+      "epoch": 1.8274285714285714,
+      "grad_norm": 1.5286246538162231,
+      "learning_rate": 6.356164383561645e-06,
+      "loss": 0.6357,
+      "mean_token_accuracy": 0.8322514686733484,
+      "num_tokens": 777652.0,
+      "step": 800
+    },
+    {
+      "entropy": 0.7381465582177043,
+      "epoch": 1.8502857142857143,
+      "grad_norm": 1.889930248260498,
+      "learning_rate": 6.3105022831050235e-06,
+      "loss": 0.6995,
+      "mean_token_accuracy": 0.8194405883550644,
+      "num_tokens": 788541.0,
+      "step": 810
+    },
+    {
+      "entropy": 0.9207667458802462,
+      "epoch": 1.8731428571428572,
+      "grad_norm": 2.3677663803100586,
+      "learning_rate": 6.264840182648403e-06,
+      "loss": 0.876,
+      "mean_token_accuracy": 0.7714111492037773,
+      "num_tokens": 796574.0,
+      "step": 820
+    },
+    {
+      "entropy": 0.9494761880487204,
+      "epoch": 1.896,
+      "grad_norm": 2.424638032913208,
+      "learning_rate": 6.219178082191781e-06,
+      "loss": 0.8548,
+      "mean_token_accuracy": 0.7811690699309111,
+      "num_tokens": 802836.0,
+      "step": 830
+    },
+    {
+      "entropy": 0.8909835416823626,
+      "epoch": 1.9188571428571428,
+      "grad_norm": 1.3449039459228516,
+      "learning_rate": 6.173515981735161e-06,
+      "loss": 0.7825,
+      "mean_token_accuracy": 0.7954777158796787,
+      "num_tokens": 810726.0,
+      "step": 840
+    },
+    {
+      "entropy": 0.6921561988070607,
+      "epoch": 1.9417142857142857,
+      "grad_norm": 1.490689992904663,
+      "learning_rate": 6.127853881278539e-06,
+      "loss": 0.6554,
+      "mean_token_accuracy": 0.8262197155505419,
+      "num_tokens": 824145.0,
+      "step": 850
+    },
+    {
+      "entropy": 0.8137379666790366,
+      "epoch": 1.9645714285714284,
+      "grad_norm": 2.0120434761047363,
+      "learning_rate": 6.082191780821919e-06,
+      "loss": 0.8024,
+      "mean_token_accuracy": 0.7950452182441949,
+      "num_tokens": 833220.0,
+      "step": 860
+    },
+    {
+      "entropy": 0.9502449594438076,
+      "epoch": 1.9874285714285715,
+      "grad_norm": 2.679570198059082,
+      "learning_rate": 6.036529680365297e-06,
+      "loss": 0.8545,
+      "mean_token_accuracy": 0.781839894503355,
+      "num_tokens": 839758.0,
+      "step": 870
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.00894328845369237,
+      "eval_entropy": 0.9275054344799528,
+      "eval_loss": 1.3659894466400146,
+      "eval_mean_token_accuracy": 0.7276899333626147,
+      "eval_num_tokens": 842388.0,
+      "eval_runtime": 299.6651,
+      "eval_samples_per_second": 3.451,
+      "eval_steps_per_second": 0.864,
+      "step": 876
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.880058660122624e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null