Training in progress, step 900, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +212 -2
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ef549acb7bb3a26b9a1d8c83faca397de8618a2dce8c81bde8e287f33fb6c31
 size 2558403928

 version https://git-lfs.github.com/spec/v1
+oid sha256:1935637205cb627b948fe1329a80486b1da1feb7f14f8a0e15acab010a97b90c
 size 2558403928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f91d2444da719f4454789524b172c58bc341e905a9b460651c04a077f667609
-size 1313044361

 version https://git-lfs.github.com/spec/v1
+oid sha256:575872657bd8f5c69c8e9a049519a8b9a0d9795ca6890003a302f811f9d4108a
+size 1313638993

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0d5dfce4350324a9dd27602ce6d66bb933782beacd43e5d1fc128755bd9060e
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:41d7cb8df90bbc1a1f334913d48d210d3a9a45cf39cb2aba7ed6759fa8b44c3a
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb7fde5111803012042c93a73aa191336bb6e10b3ad44f6bd1d94fc7008a22b6
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a0b4230f34cfc1b81dc2c15ef8d265bdd348193f5a746ca2018df11549c7ac0
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27384781b4bab02662f6aa01507d1435cf787b396a01371737e0e695f3099df9
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:46dbc8a28dada13dfcd70ea962672a500c66aa01dc461c5d292f261a3ca3d0fc
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.48,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -435,6 +435,216 @@
       "learning_rate": 0.00017966673056530686,
       "loss": 7.3859,
       "step": 600
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.72,
   "eval_steps": 500,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00017966673056530686,
       "loss": 7.3859,
       "step": 600
+    },
+    {
+      "epoch": 0.488,
+      "grad_norm": 7.625977516174316,
+      "learning_rate": 0.00017886740298196863,
+      "loss": 7.0858,
+      "step": 610
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 5.039551734924316,
+      "learning_rate": 0.00017805451671784516,
+      "loss": 7.4888,
+      "step": 620
+    },
+    {
+      "epoch": 0.504,
+      "grad_norm": 5.905925273895264,
+      "learning_rate": 0.00017722821152224924,
+      "loss": 7.2393,
+      "step": 630
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 9.78266716003418,
+      "learning_rate": 0.00017638862945144182,
+      "loss": 7.4102,
+      "step": 640
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 6.097099781036377,
+      "learning_rate": 0.00017553591484421004,
+      "loss": 7.297,
+      "step": 650
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 4.922943115234375,
+      "learning_rate": 0.00017467021429705285,
+      "loss": 7.3741,
+      "step": 660
+    },
+    {
+      "epoch": 0.536,
+      "grad_norm": 5.79689884185791,
+      "learning_rate": 0.00017379167663897856,
+      "loss": 7.1571,
+      "step": 670
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 3.795285701751709,
+      "learning_rate": 0.00017290045290591858,
+      "loss": 6.8519,
+      "step": 680
+    },
+    {
+      "epoch": 0.552,
+      "grad_norm": 4.697098731994629,
+      "learning_rate": 0.0001719966963147616,
+      "loss": 7.111,
+      "step": 690
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 4.46597146987915,
+      "learning_rate": 0.000171080562237013,
+      "loss": 7.0099,
+      "step": 700
+    },
+    {
+      "epoch": 0.568,
+      "grad_norm": 6.007630348205566,
+      "learning_rate": 0.00017015220817208376,
+      "loss": 7.326,
+      "step": 710
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 4.53595495223999,
+      "learning_rate": 0.0001692117937202136,
+      "loss": 7.0785,
+      "step": 720
+    },
+    {
+      "epoch": 0.584,
+      "grad_norm": 6.850202560424805,
+      "learning_rate": 0.00016825948055503294,
+      "loss": 7.2174,
+      "step": 730
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 5.931501865386963,
+      "learning_rate": 0.00016729543239576828,
+      "loss": 6.995,
+      "step": 740
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 5.900391101837158,
+      "learning_rate": 0.0001663198149790961,
+      "loss": 6.8995,
+      "step": 750
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 5.841864109039307,
+      "learning_rate": 0.00016533279603064978,
+      "loss": 6.7632,
+      "step": 760
+    },
+    {
+      "epoch": 0.616,
+      "grad_norm": 5.902273178100586,
+      "learning_rate": 0.00016433454523618482,
+      "loss": 6.9055,
+      "step": 770
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 5.881319046020508,
+      "learning_rate": 0.00016332523421240658,
+      "loss": 6.686,
+      "step": 780
+    },
+    {
+      "epoch": 0.632,
+      "grad_norm": 5.178507328033447,
+      "learning_rate": 0.00016230503647746657,
+      "loss": 6.6281,
+      "step": 790
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 4.807728290557861,
+      "learning_rate": 0.00016127412742113185,
+      "loss": 6.9373,
+      "step": 800
+    },
+    {
+      "epoch": 0.648,
+      "grad_norm": 5.6972975730896,
+      "learning_rate": 0.000160232684274632,
+      "loss": 6.7103,
+      "step": 810
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 5.271605968475342,
+      "learning_rate": 0.00015918088608019043,
+      "loss": 6.9209,
+      "step": 820
+    },
+    {
+      "epoch": 0.664,
+      "grad_norm": 5.366481304168701,
+      "learning_rate": 0.00015811891366024358,
+      "loss": 6.9491,
+      "step": 830
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 4.8482866287231445,
+      "learning_rate": 0.00015704694958635468,
+      "loss": 6.6238,
+      "step": 840
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 7.680044651031494,
+      "learning_rate": 0.0001559651781478263,
+      "loss": 6.7933,
+      "step": 850
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": 4.3361496925354,
+      "learning_rate": 0.00015487378532001782,
+      "loss": 6.6105,
+      "step": 860
+    },
+    {
+      "epoch": 0.696,
+      "grad_norm": 8.266775131225586,
+      "learning_rate": 0.0001537729587323732,
+      "loss": 6.5274,
+      "step": 870
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 5.751520156860352,
+      "learning_rate": 0.00015266288763616403,
+      "loss": 6.6585,
+      "step": 880
+    },
+    {
+      "epoch": 0.712,
+      "grad_norm": 6.401413440704346,
+      "learning_rate": 0.000151543762871954,
+      "loss": 6.5739,
+      "step": 890
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 5.519962310791016,
+      "learning_rate": 0.0001504157768367901,
+      "loss": 6.6899,
+      "step": 900
     }
   ],
   "logging_steps": 10,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2cbad370ceca105eb29fd83703abdf3f11645c66605ea050dcf46365bfd8be8
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee90b3fca998c33de74462bb9e763a66d85eea62f73bbd6b86fed468dacef643
 size 5905