Training in progress, step 1500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +352 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a424a2b0f4bba2668648fad242ba4bc01129a8dfff560cb28160583a32cc8795
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:314d749e4dd7abfe5f61b2561f4a91a44ca75ecd1eed4e91397af84284dbe186
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4147564c0aebe4adfc533256efb0c26f7c34d829d8cfd1faf86069796ae5e92b
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef4dc31615294601109de6bdb9c8366f58c1c42b24bbdb22c50617985782c033
 size 1475248442

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1798148c8ddbef876c6eb294160aa711b50b4fbc294eeefa2c2edd714ea4965e
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:f991cde05bd4bf7e497599ae4e2cc6a082c7ed663e36ba15a2e932ed573a6a1f
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.46860356138706655,
   "eval_steps": 2.0,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -707,6 +707,356 @@
       "learning_rate": 2.9414245548266168e-05,
       "loss": 0.3148,
       "step": 1000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7029053420805998,
   "eval_steps": 2.0,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.9414245548266168e-05,
       "loss": 0.3148,
       "step": 1000
+    },
+    {
+      "epoch": 0.4732895970009372,
+      "grad_norm": 2.0385727882385254,
+      "learning_rate": 2.940838800374883e-05,
+      "loss": 0.3239,
+      "step": 1010
+    },
+    {
+      "epoch": 0.47797563261480785,
+      "grad_norm": 1.620071291923523,
+      "learning_rate": 2.940253045923149e-05,
+      "loss": 0.3402,
+      "step": 1020
+    },
+    {
+      "epoch": 0.48266166822867856,
+      "grad_norm": 1.8785263299942017,
+      "learning_rate": 2.9396672914714152e-05,
+      "loss": 0.3246,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4873477038425492,
+      "grad_norm": 2.2061355113983154,
+      "learning_rate": 2.9390815370196814e-05,
+      "loss": 0.3742,
+      "step": 1040
+    },
+    {
+      "epoch": 0.49203373945641987,
+      "grad_norm": 1.86517333984375,
+      "learning_rate": 2.9384957825679477e-05,
+      "loss": 0.3132,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4967197750702905,
+      "grad_norm": 1.9350093603134155,
+      "learning_rate": 2.9379100281162136e-05,
+      "loss": 0.3288,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5014058106841612,
+      "grad_norm": 1.9156781435012817,
+      "learning_rate": 2.93732427366448e-05,
+      "loss": 0.3561,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5060918462980318,
+      "grad_norm": 1.9902970790863037,
+      "learning_rate": 2.936738519212746e-05,
+      "loss": 0.3531,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5107778819119025,
+      "grad_norm": 2.0289220809936523,
+      "learning_rate": 2.9361527647610123e-05,
+      "loss": 0.3589,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "grad_norm": 2.2270498275756836,
+      "learning_rate": 2.9355670103092782e-05,
+      "loss": 0.3221,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5201499531396439,
+      "grad_norm": 2.1600871086120605,
+      "learning_rate": 2.9349812558575448e-05,
+      "loss": 0.3466,
+      "step": 1110
+    },
+    {
+      "epoch": 0.5248359887535146,
+      "grad_norm": 1.8811109066009521,
+      "learning_rate": 2.9343955014058107e-05,
+      "loss": 0.3416,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5295220243673852,
+      "grad_norm": 1.6011837720870972,
+      "learning_rate": 2.933809746954077e-05,
+      "loss": 0.3707,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5342080599812559,
+      "grad_norm": 1.9934078454971313,
+      "learning_rate": 2.9332239925023428e-05,
+      "loss": 0.3954,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5388940955951266,
+      "grad_norm": 1.530349612236023,
+      "learning_rate": 2.9326382380506094e-05,
+      "loss": 0.3301,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5435801312089972,
+      "grad_norm": 1.9134522676467896,
+      "learning_rate": 2.9320524835988753e-05,
+      "loss": 0.3133,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5482661668228679,
+      "grad_norm": 2.5994045734405518,
+      "learning_rate": 2.9314667291471415e-05,
+      "loss": 0.3366,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5529522024367385,
+      "grad_norm": 1.6373965740203857,
+      "learning_rate": 2.9308809746954078e-05,
+      "loss": 0.3447,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5576382380506092,
+      "grad_norm": 1.8884459733963013,
+      "learning_rate": 2.930295220243674e-05,
+      "loss": 0.3201,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5623242736644799,
+      "grad_norm": 2.0964128971099854,
+      "learning_rate": 2.9297094657919402e-05,
+      "loss": 0.3528,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5670103092783505,
+      "grad_norm": 1.8909735679626465,
+      "learning_rate": 2.929123711340206e-05,
+      "loss": 0.3208,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5716963448922212,
+      "grad_norm": 1.6073822975158691,
+      "learning_rate": 2.9285379568884727e-05,
+      "loss": 0.3231,
+      "step": 1220
+    },
+    {
+      "epoch": 0.5763823805060918,
+      "grad_norm": 1.852653980255127,
+      "learning_rate": 2.9279522024367386e-05,
+      "loss": 0.331,
+      "step": 1230
+    },
+    {
+      "epoch": 0.5810684161199625,
+      "grad_norm": 1.4911562204360962,
+      "learning_rate": 2.927366447985005e-05,
+      "loss": 0.2986,
+      "step": 1240
+    },
+    {
+      "epoch": 0.5857544517338332,
+      "grad_norm": 1.87758207321167,
+      "learning_rate": 2.9267806935332708e-05,
+      "loss": 0.3348,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5904404873477038,
+      "grad_norm": 2.20400071144104,
+      "learning_rate": 2.9261949390815373e-05,
+      "loss": 0.3578,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5951265229615745,
+      "grad_norm": 2.1372976303100586,
+      "learning_rate": 2.9256091846298032e-05,
+      "loss": 0.3513,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5998125585754451,
+      "grad_norm": 1.7900727987289429,
+      "learning_rate": 2.9250234301780695e-05,
+      "loss": 0.3022,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6044985941893158,
+      "grad_norm": 1.2783315181732178,
+      "learning_rate": 2.9244376757263354e-05,
+      "loss": 0.3005,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6091846298031866,
+      "grad_norm": 1.9415411949157715,
+      "learning_rate": 2.923851921274602e-05,
+      "loss": 0.2902,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6138706654170571,
+      "grad_norm": 1.2527676820755005,
+      "learning_rate": 2.923266166822868e-05,
+      "loss": 0.3494,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6185567010309279,
+      "grad_norm": 2.1499555110931396,
+      "learning_rate": 2.922680412371134e-05,
+      "loss": 0.3124,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6232427366447985,
+      "grad_norm": 1.3738154172897339,
+      "learning_rate": 2.9220946579194e-05,
+      "loss": 0.3146,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6279287722586692,
+      "grad_norm": 1.5831377506256104,
+      "learning_rate": 2.9215089034676666e-05,
+      "loss": 0.3231,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6326148078725399,
+      "grad_norm": 2.8547163009643555,
+      "learning_rate": 2.9209231490159325e-05,
+      "loss": 0.3311,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6373008434864105,
+      "grad_norm": 1.6369024515151978,
+      "learning_rate": 2.9203373945641987e-05,
+      "loss": 0.2868,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6419868791002812,
+      "grad_norm": 1.599731206893921,
+      "learning_rate": 2.919751640112465e-05,
+      "loss": 0.322,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6466729147141518,
+      "grad_norm": 1.878670573234558,
+      "learning_rate": 2.9191658856607312e-05,
+      "loss": 0.3201,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6513589503280225,
+      "grad_norm": 2.1555798053741455,
+      "learning_rate": 2.918580131208997e-05,
+      "loss": 0.3317,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6560449859418932,
+      "grad_norm": 2.735520124435425,
+      "learning_rate": 2.9179943767572633e-05,
+      "loss": 0.2862,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6607310215557638,
+      "grad_norm": 1.7845630645751953,
+      "learning_rate": 2.91740862230553e-05,
+      "loss": 0.3107,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6654170571696345,
+      "grad_norm": 1.9131550788879395,
+      "learning_rate": 2.9168228678537958e-05,
+      "loss": 0.3135,
+      "step": 1420
+    },
+    {
+      "epoch": 0.6701030927835051,
+      "grad_norm": 1.7999134063720703,
+      "learning_rate": 2.916237113402062e-05,
+      "loss": 0.3393,
+      "step": 1430
+    },
+    {
+      "epoch": 0.6747891283973758,
+      "grad_norm": 1.856102466583252,
+      "learning_rate": 2.915651358950328e-05,
+      "loss": 0.3394,
+      "step": 1440
+    },
+    {
+      "epoch": 0.6794751640112465,
+      "grad_norm": 1.4492303133010864,
+      "learning_rate": 2.9150656044985945e-05,
+      "loss": 0.2909,
+      "step": 1450
+    },
+    {
+      "epoch": 0.6841611996251171,
+      "grad_norm": 1.517831563949585,
+      "learning_rate": 2.9144798500468604e-05,
+      "loss": 0.2919,
+      "step": 1460
+    },
+    {
+      "epoch": 0.6888472352389878,
+      "grad_norm": 1.8984867334365845,
+      "learning_rate": 2.9138940955951267e-05,
+      "loss": 0.3282,
+      "step": 1470
+    },
+    {
+      "epoch": 0.6935332708528584,
+      "grad_norm": 2.1415510177612305,
+      "learning_rate": 2.9133083411433926e-05,
+      "loss": 0.3159,
+      "step": 1480
+    },
+    {
+      "epoch": 0.6982193064667291,
+      "grad_norm": 1.7007821798324585,
+      "learning_rate": 2.912722586691659e-05,
+      "loss": 0.2854,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7029053420805998,
+      "grad_norm": 1.7445827722549438,
+      "learning_rate": 2.912136832239925e-05,
+      "loss": 0.3308,
+      "step": 1500
     }
   ],
   "logging_steps": 10,