Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

checkpoints-v4.1-discrete-conditional/checkpoint-1792/model.safetensors +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/optimizer.pt +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/rng_state.pth +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/scaler.pt +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/scheduler.pt +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/trainer_state.json +251 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/training_args.bin +3 -0

checkpoints-v4.1-discrete-conditional/checkpoint-1792/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:348def0448a17fc33dfd58e269365b3a7518263e219bda91f83e9de110663795
+size 24416696

checkpoints-v4.1-discrete-conditional/checkpoint-1792/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fccede8ce292e8b16ad8a02eafd56aba6f2498411f1075b01c8a3df4b4701cd
+size 816907

checkpoints-v4.1-discrete-conditional/checkpoint-1792/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d33ede87b7e42c95f7d6d7faccd1e35edd1370f62e10350592062c54fbbf34bf
+size 14645

checkpoints-v4.1-discrete-conditional/checkpoint-1792/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a42e33465160c5ace903c63375f0694cfab8943854b6c37c46848f754e8871c0
+size 1383

checkpoints-v4.1-discrete-conditional/checkpoint-1792/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:970abb983a5a0197c365bc7fdfdc8155569e58b62f56513c3b9d937587189b2d
+size 1465

checkpoints-v4.1-discrete-conditional/checkpoint-1792/trainer_state.json ADDED Viewed

	@@ -0,0 +1,251 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.8849382716049383,
+  "eval_steps": 256,
+  "global_step": 1792,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06320987654320988,
+      "grad_norm": 0.08904296904802322,
+      "learning_rate": 0.000248046875,
+      "loss": 0.4711284637451172,
+      "step": 128
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "grad_norm": 0.15019357204437256,
+      "learning_rate": 0.000498046875,
+      "loss": 0.4766996204853058,
+      "step": 256
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "eval_cos_loss": 0.13597975344192692,
+      "eval_loss": 0.4843393615106257,
+      "eval_mse_loss": 0.4843393615106257,
+      "step": 256
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "eval_cos_loss": 0.13597975344192692,
+      "eval_loss": 0.4843393615106257,
+      "eval_mse_loss": 0.4843393615106257,
+      "eval_runtime": 5.5201,
+      "eval_samples_per_second": 474.263,
+      "eval_steps_per_second": 7.427,
+      "step": 256
+    },
+    {
+      "epoch": 0.18962962962962962,
+      "grad_norm": 0.10759640485048294,
+      "learning_rate": 0.000748046875,
+      "loss": 0.47947996854782104,
+      "step": 384
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "grad_norm": 0.08275946974754333,
+      "learning_rate": 0.000998046875,
+      "loss": 0.47462955117225647,
+      "step": 512
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "eval_cos_loss": 0.13039116016248378,
+      "eval_loss": 0.4657249777782254,
+      "eval_mse_loss": 0.4657249777782254,
+      "step": 512
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "eval_cos_loss": 0.13039116016248378,
+      "eval_loss": 0.4657249777782254,
+      "eval_mse_loss": 0.4657249777782254,
+      "eval_runtime": 5.7382,
+      "eval_samples_per_second": 456.244,
+      "eval_steps_per_second": 7.145,
+      "step": 512
+    },
+    {
+      "epoch": 0.3160493827160494,
+      "grad_norm": 0.08074437826871872,
+      "learning_rate": 0.0009827157247249464,
+      "loss": 0.4701014459133148,
+      "step": 640
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "grad_norm": 0.059887129813432693,
+      "learning_rate": 0.0009315344337660421,
+      "loss": 0.47220277786254883,
+      "step": 768
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "eval_cos_loss": 0.13229864417779735,
+      "eval_loss": 0.4738647668826871,
+      "eval_mse_loss": 0.4738647668826871,
+      "step": 768
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "eval_cos_loss": 0.13229864417779735,
+      "eval_loss": 0.4738647668826871,
+      "eval_mse_loss": 0.4738647668826871,
+      "eval_runtime": 5.7163,
+      "eval_samples_per_second": 457.991,
+      "eval_steps_per_second": 7.173,
+      "step": 768
+    },
+    {
+      "epoch": 0.44246913580246916,
+      "grad_norm": 0.04632481560111046,
+      "learning_rate": 0.0008500491898731988,
+      "loss": 0.4803292453289032,
+      "step": 896
+    },
+    {
+      "epoch": 0.505679012345679,
+      "grad_norm": 0.04784788191318512,
+      "learning_rate": 0.0007439821899385376,
+      "loss": 0.47202467918395996,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_cos_loss": 0.13205302797439622,
+      "eval_loss": 0.4683481622033003,
+      "eval_mse_loss": 0.4683481622033003,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_cos_loss": 0.13205302797439622,
+      "eval_loss": 0.4683481622033003,
+      "eval_mse_loss": 0.4683481622033003,
+      "eval_runtime": 5.7275,
+      "eval_samples_per_second": 457.091,
+      "eval_steps_per_second": 7.158,
+      "step": 1024
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 0.04520433768630028,
+      "learning_rate": 0.0006207818531897271,
+      "loss": 0.47000765800476074,
+      "step": 1152
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "grad_norm": 0.052492521703243256,
+      "learning_rate": 0.0004890997654891032,
+      "loss": 0.4752293825149536,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "eval_cos_loss": 0.13366234865857335,
+      "eval_loss": 0.4745350596381397,
+      "eval_mse_loss": 0.4745350596381397,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "eval_cos_loss": 0.13366234865857335,
+      "eval_loss": 0.4745350596381397,
+      "eval_mse_loss": 0.4745350596381397,
+      "eval_runtime": 5.4531,
+      "eval_samples_per_second": 480.092,
+      "eval_steps_per_second": 7.519,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6953086419753086,
+      "grad_norm": 0.06958144158124924,
+      "learning_rate": 0.00035818313279679524,
+      "loss": 0.468513160943985,
+      "step": 1408
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "grad_norm": 0.07884542644023895,
+      "learning_rate": 0.00023722540797531234,
+      "loss": 0.4731239974498749,
+      "step": 1536
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "eval_cos_loss": 0.13044148719892268,
+      "eval_loss": 0.46598181055813304,
+      "eval_mse_loss": 0.46598181055813304,
+      "step": 1536
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "eval_cos_loss": 0.13044148719892268,
+      "eval_loss": 0.46598181055813304,
+      "eval_mse_loss": 0.46598181055813304,
+      "eval_runtime": 5.2545,
+      "eval_samples_per_second": 498.242,
+      "eval_steps_per_second": 7.803,
+      "step": 1536
+    },
+    {
+      "epoch": 0.8217283950617283,
+      "grad_norm": 0.08384841680526733,
+      "learning_rate": 0.00013472069233656453,
+      "loss": 0.47170335054397583,
+      "step": 1664
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "grad_norm": 0.08261716365814209,
+      "learning_rate": 5.786724825584927e-05,
+      "loss": 0.4725135862827301,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "eval_cos_loss": 0.13125932561915096,
+      "eval_loss": 0.47124562975836964,
+      "eval_mse_loss": 0.47124562975836964,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "eval_cos_loss": 0.13125932561915096,
+      "eval_loss": 0.47124562975836964,
+      "eval_mse_loss": 0.47124562975836964,
+      "eval_runtime": 5.1931,
+      "eval_samples_per_second": 504.135,
+      "eval_steps_per_second": 7.895,
+      "step": 1792
+    }
+  ],
+  "logging_steps": 128,
+  "max_steps": 2025,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 256,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v4.1-discrete-conditional/checkpoint-1792/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0839bffbc58eb6068cc228e4d756dbb22a9adf723766e40a7bc2a03aca92630
+size 5137