Training in progress, step 2000000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +383 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24480137122a3ca1298b2aa2acbf1d8e05d75ba9f182abd41ff9618c60e00071
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:38f36466b9f2b124ce3950f4272937ae40e2fa26880ec00a4e1f83639190fb7d
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4158aaedff079b2378ceb72199c920ad399c00fbc03838dbc3a2204ee0d64219
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fc35de7c7ab795f6ce22b4d822a3c81dd28eb6da159fa0e6bc70e2d249fbce8
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a16c585a386790723cc51bc4a838a254dc71110b475f7ebf887ed7011d90a8f
 size 21579

 version https://git-lfs.github.com/spec/v1
+oid sha256:c86960e82d428869302623bd9f7002f37b98a8296d67cde31b64acf1793fdd0e
 size 21579

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abaeb1638369c701afb9b3b4e706b5c028681adb6ebf26ba2bfe37402d287efd
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:26c2c5dcfeda6d6eb5b101bdcd99b94aa97e0eb4affa75fa0e151082e701b9eb
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2c8322c0057a49117b93f76b6d690bf483c56843cf994e2b3614611effcb47d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:994a0fabdb31bb0426e3f82b99b32aaddcc1766fdd4539450b1f928f65099fb8
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.075,
-  "global_step": 1950000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14826,11 +14826,391 @@
       "eval_samples_per_second": 82.821,
       "eval_steps_per_second": 0.647,
       "step": 1950000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.7086938841350144e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1,
+  "global_step": 2000000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 82.821,
       "eval_steps_per_second": 0.647,
       "step": 1950000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.026354625870075e-05,
+      "loss": 0.4364,
+      "step": 1951000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0253060901106556e-05,
+      "loss": 0.4361,
+      "step": 1952000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0242798171546145e-05,
+      "loss": 0.4365,
+      "step": 1953000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0232747509747644e-05,
+      "loss": 0.4373,
+      "step": 1954000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0222899204125646e-05,
+      "loss": 0.4362,
+      "step": 1955000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.4164978265762329,
+      "eval_runtime": 80.0596,
+      "eval_samples_per_second": 79.94,
+      "eval_steps_per_second": 0.625,
+      "step": 1955000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0213263451653737e-05,
+      "loss": 0.4367,
+      "step": 1956000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0203849598659497e-05,
+      "loss": 0.4367,
+      "step": 1957000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0194638827271399e-05,
+      "loss": 0.4364,
+      "step": 1958000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0185640695119401e-05,
+      "loss": 0.4363,
+      "step": 1959000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.017685522961337e-05,
+      "loss": 0.4362,
+      "step": 1960000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.42052188515663147,
+      "eval_runtime": 77.8558,
+      "eval_samples_per_second": 82.203,
+      "eval_steps_per_second": 0.642,
+      "step": 1960000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0168282457515363e-05,
+      "loss": 0.4369,
+      "step": 1961000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0159930658730172e-05,
+      "loss": 0.4364,
+      "step": 1962000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0151791179631108e-05,
+      "loss": 0.4359,
+      "step": 1963000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0143856216286122e-05,
+      "loss": 0.4368,
+      "step": 1964000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0136134046869866e-05,
+      "loss": 0.4357,
+      "step": 1965000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.41740044951438904,
+      "eval_runtime": 78.1991,
+      "eval_samples_per_second": 81.842,
+      "eval_steps_per_second": 0.639,
+      "step": 1965000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0128632097947403e-05,
+      "loss": 0.4365,
+      "step": 1966000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.0121335373458022e-05,
+      "loss": 0.4362,
+      "step": 1967000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.011425151149977e-05,
+      "loss": 0.4361,
+      "step": 1968000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.010738729828653e-05,
+      "loss": 0.4375,
+      "step": 1969000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0100729012562797e-05,
+      "loss": 0.4372,
+      "step": 1970000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.4145086705684662,
+      "eval_runtime": 79.8319,
+      "eval_samples_per_second": 80.168,
+      "eval_steps_per_second": 0.626,
+      "step": 1970000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0094289991138392e-05,
+      "loss": 0.4363,
+      "step": 1971000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0088057362697175e-05,
+      "loss": 0.4375,
+      "step": 1972000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0082049524936494e-05,
+      "loss": 0.4372,
+      "step": 1973000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0076242416653332e-05,
+      "loss": 0.4349,
+      "step": 1974000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0070648308262255e-05,
+      "loss": 0.436,
+      "step": 1975000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.4151042103767395,
+      "eval_runtime": 79.0273,
+      "eval_samples_per_second": 80.985,
+      "eval_steps_per_second": 0.633,
+      "step": 1975000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.006526721680391e-05,
+      "loss": 0.4342,
+      "step": 1976000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0060099158670026e-05,
+      "loss": 0.4363,
+      "step": 1977000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0055148998189381e-05,
+      "loss": 0.437,
+      "step": 1978000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0050411475939925e-05,
+      "loss": 0.436,
+      "step": 1979000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0045882183469046e-05,
+      "loss": 0.4355,
+      "step": 1980000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.4141569435596466,
+      "eval_runtime": 79.5726,
+      "eval_samples_per_second": 80.43,
+      "eval_steps_per_second": 0.628,
+      "step": 1980000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0041565983372807e-05,
+      "loss": 0.4359,
+      "step": 1981000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0037462888799093e-05,
+      "loss": 0.4362,
+      "step": 1982000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0033576695766748e-05,
+      "loss": 0.4376,
+      "step": 1983000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0029899635949539e-05,
+      "loss": 0.4373,
+      "step": 1984000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0026435717192568e-05,
+      "loss": 0.4367,
+      "step": 1985000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.4171934127807617,
+      "eval_runtime": 77.9474,
+      "eval_samples_per_second": 82.107,
+      "eval_steps_per_second": 0.641,
+      "step": 1985000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0023184950047551e-05,
+      "loss": 0.4361,
+      "step": 1986000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.002015027554519e-05,
+      "loss": 0.4377,
+      "step": 1987000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0017325627506754e-05,
+      "loss": 0.4373,
+      "step": 1988000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.0014716663814055e-05,
+      "loss": 0.4368,
+      "step": 1989000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0012320461270247e-05,
+      "loss": 0.4358,
+      "step": 1990000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.41612717509269714,
+      "eval_runtime": 80.5577,
+      "eval_samples_per_second": 79.446,
+      "eval_steps_per_second": 0.621,
+      "step": 1990000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0010134948139825e-05,
+      "loss": 0.4366,
+      "step": 1991000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0008162636276321e-05,
+      "loss": 0.4369,
+      "step": 1992000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0006403531687724e-05,
+      "loss": 0.4372,
+      "step": 1993000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0004859079123212e-05,
+      "loss": 0.4361,
+      "step": 1994000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0003526191291106e-05,
+      "loss": 0.4369,
+      "step": 1995000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.4170204997062683,
+      "eval_runtime": 80.1918,
+      "eval_samples_per_second": 79.809,
+      "eval_steps_per_second": 0.624,
+      "step": 1995000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0002406524857334e-05,
+      "loss": 0.436,
+      "step": 1996000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0001500883167451e-05,
+      "loss": 0.4372,
+      "step": 1997000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0000807455884181e-05,
+      "loss": 0.4369,
+      "step": 1998000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.0000327631969819e-05,
+      "loss": 0.4362,
+      "step": 1999000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.00000604522778e-05,
+      "loss": 0.4363,
+      "step": 2000000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.41442054510116577,
+      "eval_runtime": 79.9098,
+      "eval_samples_per_second": 80.09,
+      "eval_steps_per_second": 0.626,
+      "step": 2000000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.752506547830784e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4158aaedff079b2378ceb72199c920ad399c00fbc03838dbc3a2204ee0d64219
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fc35de7c7ab795f6ce22b4d822a3c81dd28eb6da159fa0e6bc70e2d249fbce8
 size 449471589