SFT checkpoint-1000 (loss 0.9141511917114258)

Browse files

Files changed (6) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +353 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21d9afb9e7e2619f3b54a034b347c2fbfb3c512adc6a80772ba4c20793da3a39
 size 7745357608

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f79bad1c4caf855cfb992cfe2a1964bfecea7c56848e55972d1d4767d20909e
 size 7745357608

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf2cb5607b6cb307dd800c3c7bd14569fe7c8dd98a0329a14f4c036c1a8bebb6
 size 286549651

 version https://git-lfs.github.com/spec/v1
+oid sha256:10fb3705983a068f4b12a4583085856b26c69a98fdaf2972d702faa19dd8d8e3
 size 286549651

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79ae359543e40fa724a3e59f9014822205ca9e90df7828fd29390284ddf163e2
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:c575fbf88d39fc197b4f855127f24fc8a1db2f79cc8dc20a4a3ed599f90b5184
 size 14645

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f77569c2e850b04af982cc8c1389f1430851448915c593b69e5da36ce05b71d7
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:14ae2a2128444abab378aa06c09a61a84665f758fcc19fc46f5789b0bc1b5665
 size 1383

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f65b5f36e400f8080ca12521a9996f69ba7fa277678768d7f7ea215556d3b021
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fcea74c4b86879b12c0b1f78295205d7b8d0c902ab12a26dc95cf3614641b15
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.26666666666666666,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -358,6 +358,356 @@
       "learning_rate": 0.00018852519308569328,
       "loss": 0.9512178421020507,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -377,7 +727,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.519568208089088e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5333333333333333,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00018852519308569328,
       "loss": 0.9512178421020507,
       "step": 500
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 0.158578023314476,
+      "learning_rate": 0.00018815741081279884,
+      "loss": 0.9607432365417481,
+      "step": 510
+    },
+    {
+      "epoch": 0.2773333333333333,
+      "grad_norm": 0.1450786292552948,
+      "learning_rate": 0.0001877896285399044,
+      "loss": 0.9401381492614747,
+      "step": 520
+    },
+    {
+      "epoch": 0.2826666666666667,
+      "grad_norm": 0.1339694708585739,
+      "learning_rate": 0.00018742184626700993,
+      "loss": 1.0503832817077636,
+      "step": 530
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 0.11654400080442429,
+      "learning_rate": 0.00018705406399411548,
+      "loss": 0.9126350402832031,
+      "step": 540
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 0.13373474776744843,
+      "learning_rate": 0.00018668628172122104,
+      "loss": 0.9998178482055664,
+      "step": 550
+    },
+    {
+      "epoch": 0.2986666666666667,
+      "grad_norm": 0.1520962119102478,
+      "learning_rate": 0.0001863184994483266,
+      "loss": 0.9018580436706543,
+      "step": 560
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 0.1495676338672638,
+      "learning_rate": 0.00018595071717543215,
+      "loss": 0.9203540802001953,
+      "step": 570
+    },
+    {
+      "epoch": 0.30933333333333335,
+      "grad_norm": 0.14405539631843567,
+      "learning_rate": 0.0001855829349025377,
+      "loss": 0.9613846778869629,
+      "step": 580
+    },
+    {
+      "epoch": 0.31466666666666665,
+      "grad_norm": 0.14544403553009033,
+      "learning_rate": 0.00018521515262964327,
+      "loss": 0.9390192031860352,
+      "step": 590
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.14720585942268372,
+      "learning_rate": 0.00018484737035674882,
+      "loss": 0.9530813217163085,
+      "step": 600
+    },
+    {
+      "epoch": 0.3253333333333333,
+      "grad_norm": 0.14282116293907166,
+      "learning_rate": 0.00018447958808385438,
+      "loss": 0.9839869499206543,
+      "step": 610
+    },
+    {
+      "epoch": 0.33066666666666666,
+      "grad_norm": 0.10869397968053818,
+      "learning_rate": 0.00018411180581095994,
+      "loss": 0.9609838485717773,
+      "step": 620
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 0.1263863891363144,
+      "learning_rate": 0.00018374402353806547,
+      "loss": 0.983967399597168,
+      "step": 630
+    },
+    {
+      "epoch": 0.3413333333333333,
+      "grad_norm": 0.12446080893278122,
+      "learning_rate": 0.00018337624126517102,
+      "loss": 0.9304941177368165,
+      "step": 640
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 0.12666022777557373,
+      "learning_rate": 0.00018300845899227658,
+      "loss": 0.9255437850952148,
+      "step": 650
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.12558284401893616,
+      "learning_rate": 0.00018264067671938214,
+      "loss": 0.9449084281921387,
+      "step": 660
+    },
+    {
+      "epoch": 0.35733333333333334,
+      "grad_norm": 0.12416686117649078,
+      "learning_rate": 0.0001822728944464877,
+      "loss": 0.8624231338500976,
+      "step": 670
+    },
+    {
+      "epoch": 0.3626666666666667,
+      "grad_norm": 0.15433147549629211,
+      "learning_rate": 0.00018190511217359325,
+      "loss": 0.908421802520752,
+      "step": 680
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 0.1286514699459076,
+      "learning_rate": 0.0001815373299006988,
+      "loss": 0.9674293518066406,
+      "step": 690
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 0.13900645077228546,
+      "learning_rate": 0.00018116954762780436,
+      "loss": 0.9520171165466309,
+      "step": 700
+    },
+    {
+      "epoch": 0.37866666666666665,
+      "grad_norm": 0.1035495176911354,
+      "learning_rate": 0.0001808017653549099,
+      "loss": 0.9836587905883789,
+      "step": 710
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.16256973147392273,
+      "learning_rate": 0.00018043398308201545,
+      "loss": 0.9725584030151367,
+      "step": 720
+    },
+    {
+      "epoch": 0.3893333333333333,
+      "grad_norm": 0.11459745466709137,
+      "learning_rate": 0.000180066200809121,
+      "loss": 0.9442227363586426,
+      "step": 730
+    },
+    {
+      "epoch": 0.39466666666666667,
+      "grad_norm": 0.12670467793941498,
+      "learning_rate": 0.00017969841853622656,
+      "loss": 0.871799373626709,
+      "step": 740
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.1249232292175293,
+      "learning_rate": 0.00017933063626333212,
+      "loss": 0.9370894432067871,
+      "step": 750
+    },
+    {
+      "epoch": 0.4053333333333333,
+      "grad_norm": 0.15810564160346985,
+      "learning_rate": 0.00017896285399043765,
+      "loss": 0.8658051490783691,
+      "step": 760
+    },
+    {
+      "epoch": 0.4106666666666667,
+      "grad_norm": 0.15042412281036377,
+      "learning_rate": 0.0001785950717175432,
+      "loss": 0.8727136611938476,
+      "step": 770
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.11843173205852509,
+      "learning_rate": 0.00017822728944464876,
+      "loss": 0.9302241325378418,
+      "step": 780
+    },
+    {
+      "epoch": 0.42133333333333334,
+      "grad_norm": 0.15024034678936005,
+      "learning_rate": 0.00017785950717175432,
+      "loss": 0.8992020606994628,
+      "step": 790
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 0.0963372066617012,
+      "learning_rate": 0.00017749172489885988,
+      "loss": 0.9603084564208985,
+      "step": 800
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 0.1153709664940834,
+      "learning_rate": 0.00017712394262596543,
+      "loss": 0.9788017272949219,
+      "step": 810
+    },
+    {
+      "epoch": 0.43733333333333335,
+      "grad_norm": 0.14158199727535248,
+      "learning_rate": 0.000176756160353071,
+      "loss": 0.8528926849365235,
+      "step": 820
+    },
+    {
+      "epoch": 0.44266666666666665,
+      "grad_norm": 0.12067638337612152,
+      "learning_rate": 0.00017638837808017655,
+      "loss": 0.9270169258117675,
+      "step": 830
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.13564583659172058,
+      "learning_rate": 0.0001760205958072821,
+      "loss": 0.9491316795349121,
+      "step": 840
+    },
+    {
+      "epoch": 0.4533333333333333,
+      "grad_norm": 0.1274612843990326,
+      "learning_rate": 0.00017565281353438766,
+      "loss": 0.8999369621276856,
+      "step": 850
+    },
+    {
+      "epoch": 0.45866666666666667,
+      "grad_norm": 0.14616525173187256,
+      "learning_rate": 0.00017528503126149322,
+      "loss": 0.8925825119018554,
+      "step": 860
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 0.11437668651342392,
+      "learning_rate": 0.00017491724898859875,
+      "loss": 0.857603645324707,
+      "step": 870
+    },
+    {
+      "epoch": 0.4693333333333333,
+      "grad_norm": 0.1542726755142212,
+      "learning_rate": 0.0001745494667157043,
+      "loss": 0.884759521484375,
+      "step": 880
+    },
+    {
+      "epoch": 0.4746666666666667,
+      "grad_norm": 0.14314775168895721,
+      "learning_rate": 0.00017418168444280986,
+      "loss": 0.9026338577270507,
+      "step": 890
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.1318540871143341,
+      "learning_rate": 0.00017381390216991542,
+      "loss": 0.9048086166381836,
+      "step": 900
+    },
+    {
+      "epoch": 0.48533333333333334,
+      "grad_norm": 0.14009934663772583,
+      "learning_rate": 0.00017344611989702097,
+      "loss": 0.8716842651367187,
+      "step": 910
+    },
+    {
+      "epoch": 0.49066666666666664,
+      "grad_norm": 0.11144368350505829,
+      "learning_rate": 0.00017307833762412653,
+      "loss": 0.8560963630676269,
+      "step": 920
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 0.11742467433214188,
+      "learning_rate": 0.0001727105553512321,
+      "loss": 0.9024827957153321,
+      "step": 930
+    },
+    {
+      "epoch": 0.5013333333333333,
+      "grad_norm": 0.13162516057491302,
+      "learning_rate": 0.00017234277307833764,
+      "loss": 0.9039396286010742,
+      "step": 940
+    },
+    {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 0.13514642417430878,
+      "learning_rate": 0.0001719749908054432,
+      "loss": 0.9337002754211425,
+      "step": 950
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.12670394778251648,
+      "learning_rate": 0.00017160720853254876,
+      "loss": 0.9054777145385742,
+      "step": 960
+    },
+    {
+      "epoch": 0.5173333333333333,
+      "grad_norm": 0.12156554311513901,
+      "learning_rate": 0.0001712394262596543,
+      "loss": 0.8892666816711425,
+      "step": 970
+    },
+    {
+      "epoch": 0.5226666666666666,
+      "grad_norm": 0.13416580855846405,
+      "learning_rate": 0.00017087164398675984,
+      "loss": 0.878023910522461,
+      "step": 980
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 0.13485731184482574,
+      "learning_rate": 0.0001705038617138654,
+      "loss": 0.9051738739013672,
+      "step": 990
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.1367981880903244,
+      "learning_rate": 0.00017013607944097096,
+      "loss": 0.9141511917114258,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.038133218021376e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null