Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

checkpoints-v1.0-discrete-conditional/checkpoint-6075/model.safetensors +3 -0
checkpoints-v1.0-discrete-conditional/checkpoint-6075/optimizer.pt +3 -0
checkpoints-v1.0-discrete-conditional/checkpoint-6075/rng_state.pth +3 -0
checkpoints-v1.0-discrete-conditional/checkpoint-6075/scaler.pt +3 -0
checkpoints-v1.0-discrete-conditional/checkpoint-6075/scheduler.pt +3 -0
checkpoints-v1.0-discrete-conditional/checkpoint-6075/trainer_state.json +586 -0
checkpoints-v1.0-discrete-conditional/checkpoint-6075/training_args.bin +3 -0

checkpoints-v1.0-discrete-conditional/checkpoint-6075/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f308d28a715af9add8b1de2802f5fe0d790cf13b3da275d2033da2142579491f
+size 24241232

checkpoints-v1.0-discrete-conditional/checkpoint-6075/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5894db628b27dc538b3dd2f5afb2580f7e6b9b5ff294a45e847dee74fd85ae81
+size 2090059

checkpoints-v1.0-discrete-conditional/checkpoint-6075/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ef57ee88dfae1c93d3f03788067008bcafcaf720d6594dbfbcb3217f35b3914
+size 14645

checkpoints-v1.0-discrete-conditional/checkpoint-6075/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad5272f5bbb3e1f5e5a02b236aff7f184d3dfb0d9e4a9da7851f5c7531043fe1
+size 1383

checkpoints-v1.0-discrete-conditional/checkpoint-6075/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eedfcc2552d8a73e9f34b1abb5aa7d8a44e2a78a10791d5cf93e6b506cdec12b
+size 1465

checkpoints-v1.0-discrete-conditional/checkpoint-6075/trainer_state.json ADDED Viewed

	@@ -0,0 +1,586 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 256,
+  "global_step": 6075,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12641975308641976,
+      "grad_norm": 0.492948055267334,
+      "learning_rate": 0.000498046875,
+      "loss": 1.2244964838027954,
+      "step": 256
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "eval_bleu": 0.023732509698572428,
+      "eval_loss": 1.1824145491530256,
+      "eval_mse_loss": 1.1824145491530256,
+      "step": 256
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "eval_bleu": 0.023732509698572428,
+      "eval_loss": 1.1824145491530256,
+      "eval_mse_loss": 1.1824145491530256,
+      "eval_runtime": 7.5989,
+      "eval_samples_per_second": 344.523,
+      "eval_steps_per_second": 5.396,
+      "step": 256
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "grad_norm": 0.5793251395225525,
+      "learning_rate": 0.000998046875,
+      "loss": 1.1349375247955322,
+      "step": 512
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "eval_bleu": 0.022541652789025497,
+      "eval_loss": 1.072069642020435,
+      "eval_mse_loss": 1.072069642020435,
+      "step": 512
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "eval_bleu": 0.022541652789025497,
+      "eval_loss": 1.072069642020435,
+      "eval_mse_loss": 1.072069642020435,
+      "eval_runtime": 10.3846,
+      "eval_samples_per_second": 252.104,
+      "eval_steps_per_second": 3.948,
+      "step": 512
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "grad_norm": 1.0635820627212524,
+      "learning_rate": 0.0009948245115884234,
+      "loss": 1.0092785358428955,
+      "step": 768
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "eval_bleu": 0.033273457001155124,
+      "eval_loss": 0.9512386612775849,
+      "eval_mse_loss": 0.9512386612775849,
+      "step": 768
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "eval_bleu": 0.033273457001155124,
+      "eval_loss": 0.9512386612775849,
+      "eval_mse_loss": 0.9512386612775849,
+      "eval_runtime": 7.8124,
+      "eval_samples_per_second": 335.109,
+      "eval_steps_per_second": 5.248,
+      "step": 768
+    },
+    {
+      "epoch": 0.505679012345679,
+      "grad_norm": 1.4405001401901245,
+      "learning_rate": 0.0009793249077302685,
+      "loss": 0.9039018750190735,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_bleu": 0.052676822222678464,
+      "eval_loss": 0.8639799516375471,
+      "eval_mse_loss": 0.8639799516375471,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_bleu": 0.052676822222678464,
+      "eval_loss": 0.8639799516375471,
+      "eval_mse_loss": 0.8639799516375471,
+      "eval_runtime": 7.9883,
+      "eval_samples_per_second": 327.728,
+      "eval_steps_per_second": 5.132,
+      "step": 1024
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "grad_norm": 1.0358325242996216,
+      "learning_rate": 0.0009538244979611361,
+      "loss": 0.8407024145126343,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "eval_bleu": 0.06327640177191206,
+      "eval_loss": 0.8159576320066685,
+      "eval_mse_loss": 0.8159576320066685,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "eval_bleu": 0.06327640177191206,
+      "eval_loss": 0.8159576320066685,
+      "eval_mse_loss": 0.8159576320066685,
+      "eval_runtime": 7.5298,
+      "eval_samples_per_second": 347.684,
+      "eval_steps_per_second": 5.445,
+      "step": 1280
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "grad_norm": 1.162336826324463,
+      "learning_rate": 0.000918855331929685,
+      "loss": 0.7959167957305908,
+      "step": 1536
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "eval_bleu": 0.08702573079240403,
+      "eval_loss": 0.7736199585402884,
+      "eval_mse_loss": 0.7736199585402884,
+      "step": 1536
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "eval_bleu": 0.08702573079240403,
+      "eval_loss": 0.7736199585402884,
+      "eval_mse_loss": 0.7736199585402884,
+      "eval_runtime": 7.3212,
+      "eval_samples_per_second": 357.594,
+      "eval_steps_per_second": 5.6,
+      "step": 1536
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "grad_norm": 1.069529414176941,
+      "learning_rate": 0.0008751470187939401,
+      "loss": 0.765856146812439,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "eval_bleu": 0.09888737557922633,
+      "eval_loss": 0.7493347060389635,
+      "eval_mse_loss": 0.7493347060389635,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "eval_bleu": 0.09888737557922633,
+      "eval_loss": 0.7493347060389635,
+      "eval_mse_loss": 0.7493347060389635,
+      "eval_runtime": 7.8836,
+      "eval_samples_per_second": 332.081,
+      "eval_steps_per_second": 5.201,
+      "step": 1792
+    },
+    {
+      "epoch": 1.011358024691358,
+      "grad_norm": 1.7033277750015259,
+      "learning_rate": 0.000823611504395474,
+      "loss": 0.7400754690170288,
+      "step": 2048
+    },
+    {
+      "epoch": 1.011358024691358,
+      "eval_bleu": 0.109763799561906,
+      "eval_loss": 0.7278894520387417,
+      "eval_mse_loss": 0.7278894520387417,
+      "step": 2048
+    },
+    {
+      "epoch": 1.011358024691358,
+      "eval_bleu": 0.109763799561906,
+      "eval_loss": 0.7278894520387417,
+      "eval_mse_loss": 0.7278894520387417,
+      "eval_runtime": 8.1701,
+      "eval_samples_per_second": 320.438,
+      "eval_steps_per_second": 5.018,
+      "step": 2048
+    },
+    {
+      "epoch": 1.1377777777777778,
+      "grad_norm": 1.650696039199829,
+      "learning_rate": 0.0007653240440959618,
+      "loss": 0.717435359954834,
+      "step": 2304
+    },
+    {
+      "epoch": 1.1377777777777778,
+      "eval_bleu": 0.10638359304769301,
+      "eval_loss": 0.7039981920544695,
+      "eval_mse_loss": 0.7039981920544695,
+      "step": 2304
+    },
+    {
+      "epoch": 1.1377777777777778,
+      "eval_bleu": 0.10638359304769301,
+      "eval_loss": 0.7039981920544695,
+      "eval_mse_loss": 0.7039981920544695,
+      "eval_runtime": 7.2661,
+      "eval_samples_per_second": 360.301,
+      "eval_steps_per_second": 5.643,
+      "step": 2304
+    },
+    {
+      "epoch": 1.2641975308641975,
+      "grad_norm": 1.51780366897583,
+      "learning_rate": 0.0007015007682656353,
+      "loss": 0.6996763944625854,
+      "step": 2560
+    },
+    {
+      "epoch": 1.2641975308641975,
+      "eval_bleu": 0.12510003883439522,
+      "eval_loss": 0.6899523284377121,
+      "eval_mse_loss": 0.6899523284377121,
+      "step": 2560
+    },
+    {
+      "epoch": 1.2641975308641975,
+      "eval_bleu": 0.12510003883439522,
+      "eval_loss": 0.6899523284377121,
+      "eval_mse_loss": 0.6899523284377121,
+      "eval_runtime": 7.9616,
+      "eval_samples_per_second": 328.827,
+      "eval_steps_per_second": 5.15,
+      "step": 2560
+    },
+    {
+      "epoch": 1.3906172839506172,
+      "grad_norm": 1.5419062376022339,
+      "learning_rate": 0.0006334733085052896,
+      "loss": 0.6830626726150513,
+      "step": 2816
+    },
+    {
+      "epoch": 1.3906172839506172,
+      "eval_bleu": 0.1434415539389988,
+      "eval_loss": 0.6733295452304002,
+      "eval_mse_loss": 0.6733295452304002,
+      "step": 2816
+    },
+    {
+      "epoch": 1.3906172839506172,
+      "eval_bleu": 0.1434415539389988,
+      "eval_loss": 0.6733295452304002,
+      "eval_mse_loss": 0.6733295452304002,
+      "eval_runtime": 7.8649,
+      "eval_samples_per_second": 332.873,
+      "eval_steps_per_second": 5.213,
+      "step": 2816
+    },
+    {
+      "epoch": 1.5170370370370372,
+      "grad_norm": 1.7831259965896606,
+      "learning_rate": 0.0005626610140094024,
+      "loss": 0.6682955026626587,
+      "step": 3072
+    },
+    {
+      "epoch": 1.5170370370370372,
+      "eval_bleu": 0.1462795204156182,
+      "eval_loss": 0.6550371501503921,
+      "eval_mse_loss": 0.6550371501503921,
+      "step": 3072
+    },
+    {
+      "epoch": 1.5170370370370372,
+      "eval_bleu": 0.1462795204156182,
+      "eval_loss": 0.6550371501503921,
+      "eval_mse_loss": 0.6550371501503921,
+      "eval_runtime": 8.3223,
+      "eval_samples_per_second": 314.575,
+      "eval_steps_per_second": 4.927,
+      "step": 3072
+    },
+    {
+      "epoch": 1.643456790123457,
+      "grad_norm": 1.8476954698562622,
+      "learning_rate": 0.0004905413377580782,
+      "loss": 0.655277669429779,
+      "step": 3328
+    },
+    {
+      "epoch": 1.643456790123457,
+      "eval_bleu": 0.15115082134880684,
+      "eval_loss": 0.6512059845575472,
+      "eval_mse_loss": 0.6512059845575472,
+      "step": 3328
+    },
+    {
+      "epoch": 1.643456790123457,
+      "eval_bleu": 0.15115082134880684,
+      "eval_loss": 0.6512059845575472,
+      "eval_mse_loss": 0.6512059845575472,
+      "eval_runtime": 7.1783,
+      "eval_samples_per_second": 364.712,
+      "eval_steps_per_second": 5.712,
+      "step": 3328
+    },
+    {
+      "epoch": 1.7698765432098766,
+      "grad_norm": 1.8581129312515259,
+      "learning_rate": 0.0004186190104108759,
+      "loss": 0.6462851166725159,
+      "step": 3584
+    },
+    {
+      "epoch": 1.7698765432098766,
+      "eval_bleu": 0.15871631534957106,
+      "eval_loss": 0.6409407970381946,
+      "eval_mse_loss": 0.6409407970381946,
+      "step": 3584
+    },
+    {
+      "epoch": 1.7698765432098766,
+      "eval_bleu": 0.15871631534957106,
+      "eval_loss": 0.6409407970381946,
+      "eval_mse_loss": 0.6409407970381946,
+      "eval_runtime": 7.8013,
+      "eval_samples_per_second": 335.586,
+      "eval_steps_per_second": 5.256,
+      "step": 3584
+    },
+    {
+      "epoch": 1.8962962962962964,
+      "grad_norm": 1.4670681953430176,
+      "learning_rate": 0.00034839464506939983,
+      "loss": 0.6346220374107361,
+      "step": 3840
+    },
+    {
+      "epoch": 1.8962962962962964,
+      "eval_bleu": 0.16468961242826577,
+      "eval_loss": 0.6350918848340105,
+      "eval_mse_loss": 0.6350918848340105,
+      "step": 3840
+    },
+    {
+      "epoch": 1.8962962962962964,
+      "eval_bleu": 0.16468961242826577,
+      "eval_loss": 0.6350918848340105,
+      "eval_mse_loss": 0.6350918848340105,
+      "eval_runtime": 7.8698,
+      "eval_samples_per_second": 332.666,
+      "eval_steps_per_second": 5.21,
+      "step": 3840
+    },
+    {
+      "epoch": 2.022716049382716,
+      "grad_norm": 1.6064578294754028,
+      "learning_rate": 0.0002813334279500873,
+      "loss": 0.6261877417564392,
+      "step": 4096
+    },
+    {
+      "epoch": 2.022716049382716,
+      "eval_bleu": 0.18248380444483625,
+      "eval_loss": 0.6185257740137053,
+      "eval_mse_loss": 0.6185257740137053,
+      "step": 4096
+    },
+    {
+      "epoch": 2.022716049382716,
+      "eval_bleu": 0.18248380444483625,
+      "eval_loss": 0.6185257740137053,
+      "eval_mse_loss": 0.6185257740137053,
+      "eval_runtime": 8.3116,
+      "eval_samples_per_second": 314.98,
+      "eval_steps_per_second": 4.933,
+      "step": 4096
+    },
+    {
+      "epoch": 2.149135802469136,
+      "grad_norm": 1.1933625936508179,
+      "learning_rate": 0.0002188345482161727,
+      "loss": 0.6169702410697937,
+      "step": 4352
+    },
+    {
+      "epoch": 2.149135802469136,
+      "eval_bleu": 0.17739074250184356,
+      "eval_loss": 0.619684124865183,
+      "eval_mse_loss": 0.619684124865183,
+      "step": 4352
+    },
+    {
+      "epoch": 2.149135802469136,
+      "eval_bleu": 0.17739074250184356,
+      "eval_loss": 0.619684124865183,
+      "eval_mse_loss": 0.619684124865183,
+      "eval_runtime": 7.0884,
+      "eval_samples_per_second": 369.337,
+      "eval_steps_per_second": 5.784,
+      "step": 4352
+    },
+    {
+      "epoch": 2.2755555555555556,
+      "grad_norm": 1.3906270265579224,
+      "learning_rate": 0.00016220200479571452,
+      "loss": 0.612635612487793,
+      "step": 4608
+    },
+    {
+      "epoch": 2.2755555555555556,
+      "eval_bleu": 0.19037059494496988,
+      "eval_loss": 0.6192231905169603,
+      "eval_mse_loss": 0.6192231905169603,
+      "step": 4608
+    },
+    {
+      "epoch": 2.2755555555555556,
+      "eval_bleu": 0.19037059494496988,
+      "eval_loss": 0.6192231905169603,
+      "eval_mse_loss": 0.6192231905169603,
+      "eval_runtime": 7.2603,
+      "eval_samples_per_second": 360.593,
+      "eval_steps_per_second": 5.647,
+      "step": 4608
+    },
+    {
+      "epoch": 2.4019753086419753,
+      "grad_norm": 1.3547346591949463,
+      "learning_rate": 0.00011261739928266108,
+      "loss": 0.6073014736175537,
+      "step": 4864
+    },
+    {
+      "epoch": 2.4019753086419753,
+      "eval_bleu": 0.19665228309802169,
+      "eval_loss": 0.6012938604122255,
+      "eval_mse_loss": 0.6012938604122255,
+      "step": 4864
+    },
+    {
+      "epoch": 2.4019753086419753,
+      "eval_bleu": 0.19665228309802169,
+      "eval_loss": 0.6012938604122255,
+      "eval_mse_loss": 0.6012938604122255,
+      "eval_runtime": 7.3255,
+      "eval_samples_per_second": 357.382,
+      "eval_steps_per_second": 5.597,
+      "step": 4864
+    },
+    {
+      "epoch": 2.528395061728395,
+      "grad_norm": 1.2325892448425293,
+      "learning_rate": 7.111528257956546e-05,
+      "loss": 0.6047106981277466,
+      "step": 5120
+    },
+    {
+      "epoch": 2.528395061728395,
+      "eval_bleu": 0.18764803384320677,
+      "eval_loss": 0.6008666448476838,
+      "eval_mse_loss": 0.6008666448476838,
+      "step": 5120
+    },
+    {
+      "epoch": 2.528395061728395,
+      "eval_bleu": 0.18764803384320677,
+      "eval_loss": 0.6008666448476838,
+      "eval_mse_loss": 0.6008666448476838,
+      "eval_runtime": 7.2141,
+      "eval_samples_per_second": 362.901,
+      "eval_steps_per_second": 5.683,
+      "step": 5120
+    },
+    {
+      "epoch": 2.6548148148148147,
+      "grad_norm": 1.2043205499649048,
+      "learning_rate": 3.856156965839863e-05,
+      "loss": 0.6008339524269104,
+      "step": 5376
+    },
+    {
+      "epoch": 2.6548148148148147,
+      "eval_bleu": 0.1778719937984465,
+      "eval_loss": 0.6019039372118508,
+      "eval_mse_loss": 0.6019039372118508,
+      "step": 5376
+    },
+    {
+      "epoch": 2.6548148148148147,
+      "eval_bleu": 0.1778719937984465,
+      "eval_loss": 0.6019039372118508,
+      "eval_mse_loss": 0.6019039372118508,
+      "eval_runtime": 7.2108,
+      "eval_samples_per_second": 363.066,
+      "eval_steps_per_second": 5.686,
+      "step": 5376
+    },
+    {
+      "epoch": 2.7812345679012345,
+      "grad_norm": 0.8030632734298706,
+      "learning_rate": 1.56354728015935e-05,
+      "loss": 0.5988247990608215,
+      "step": 5632
+    },
+    {
+      "epoch": 2.7812345679012345,
+      "eval_bleu": 0.1821845130406551,
+      "eval_loss": 0.6124805255634028,
+      "eval_mse_loss": 0.6124805255634028,
+      "step": 5632
+    },
+    {
+      "epoch": 2.7812345679012345,
+      "eval_bleu": 0.1821845130406551,
+      "eval_loss": 0.6124805255634028,
+      "eval_mse_loss": 0.6124805255634028,
+      "eval_runtime": 7.2547,
+      "eval_samples_per_second": 360.87,
+      "eval_steps_per_second": 5.652,
+      "step": 5632
+    },
+    {
+      "epoch": 2.907654320987654,
+      "grad_norm": 0.7116315364837646,
+      "learning_rate": 2.81533027462183e-06,
+      "loss": 0.5993514657020569,
+      "step": 5888
+    },
+    {
+      "epoch": 2.907654320987654,
+      "eval_bleu": 0.1971691623533449,
+      "eval_loss": 0.593609597624802,
+      "eval_mse_loss": 0.593609597624802,
+      "step": 5888
+    },
+    {
+      "epoch": 2.907654320987654,
+      "eval_bleu": 0.1971691623533449,
+      "eval_loss": 0.593609597624802,
+      "eval_mse_loss": 0.593609597624802,
+      "eval_runtime": 7.1929,
+      "eval_samples_per_second": 363.972,
+      "eval_steps_per_second": 5.7,
+      "step": 5888
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 6075,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 256,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v1.0-discrete-conditional/checkpoint-6075/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2792db1613dd46e912da1df5b55d8147d2f8e78f28906344920814707c74766f
+size 5137