Initial upload

Browse files

Files changed (12) hide show

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_2000/partial_model_weights.pth +3 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_2000/train_config.json +29 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_2000/train_log.log +0 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_4000/partial_model_weights.pth +3 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_4000/train_config.json +29 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_4000/train_log.log +0 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_500/partial_model_weights.pth +3 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_500/train_config.json +29 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_500/train_log.log +34 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_6000/partial_model_weights.pth +3 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_6000/train_config.json +29 -0
checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_6000/train_log.log +0 -0

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_2000/partial_model_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d69d3076cf36901714a712ef246c8f8aa8be34bc6c5d9aedb36b51c90e6cd90
+size 1975288322

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_2000/train_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "stage": "stage2",
+    "lr": 3e-05,
+    "epochs": 10,
+    "log_interval": 4,
+    "gradient_clip": 1.0,
+    "tr_batch_size": 4,
+    "te_batch_size": 4,
+    "gradient_accumulation_steps": 1,
+    "update_params": [
+        "all"
+    ],
+    "corpus": "math_derivation",
+    "num_of_sents": [
+        12,
+        12
+    ],
+    "encoder": "bert-base-cased",
+    "repeat": 1,
+    "max_num_each_cat": 2000,
+    "fb_mode": 0.0,
+    "set_loss_mask": false,
+    "use_label_dec": true,
+    "use_label_enc": false,
+    "decoder": "Qwen/Qwen2.5-0.5B",
+    "pretrained_path": null,
+    "device": "cuda",
+    "save_dir": "checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_2000"
+}

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_2000/train_log.log ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_4000/partial_model_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9653bb2737dacaff5ad743be55f8f68ef2cda481c11b7a2555407d52656c32f0
+size 1975288322

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_4000/train_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "stage": "stage2",
+    "lr": 3e-05,
+    "epochs": 10,
+    "log_interval": 4,
+    "gradient_clip": 1.0,
+    "tr_batch_size": 4,
+    "te_batch_size": 4,
+    "gradient_accumulation_steps": 1,
+    "update_params": [
+        "all"
+    ],
+    "corpus": "math_derivation",
+    "num_of_sents": [
+        12,
+        12
+    ],
+    "encoder": "bert-base-cased",
+    "repeat": 1,
+    "max_num_each_cat": 4000,
+    "fb_mode": 0.0,
+    "set_loss_mask": false,
+    "use_label_dec": true,
+    "use_label_enc": false,
+    "decoder": "Qwen/Qwen2.5-0.5B",
+    "pretrained_path": null,
+    "device": "cuda",
+    "save_dir": "checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_4000"
+}

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_4000/train_log.log ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_500/partial_model_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb3386a8e754c0aad746d44a1046ee21909841de1c636636942db8a3e53f5b5f
+size 1975288322

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_500/train_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "stage": "stage2",
+    "lr": 3e-05,
+    "epochs": 10,
+    "log_interval": 4,
+    "gradient_clip": 1.0,
+    "tr_batch_size": 4,
+    "te_batch_size": 4,
+    "gradient_accumulation_steps": 1,
+    "update_params": [
+        "all"
+    ],
+    "corpus": "math_derivation",
+    "num_of_sents": [
+        12,
+        12
+    ],
+    "encoder": "bert-base-cased",
+    "repeat": 1,
+    "max_num_each_cat": 500,
+    "fb_mode": 0.0,
+    "set_loss_mask": false,
+    "use_label_dec": true,
+    "use_label_enc": false,
+    "decoder": "Qwen/Qwen2.5-0.5B",
+    "pretrained_path": null,
+    "device": "cuda",
+    "save_dir": "checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_500"
+}

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_500/train_log.log ADDED Viewed

	@@ -0,0 +1,34 @@

+* training corpus: math_derivation
+* total num: 3500
+* epochs: 10
+* batch size: 4
+* gradient_accumulation_steps: 1
+--------------------------------------------------------------------------------
+| epoch   1 |     3/  700 batches | train loss 2.2737865
+| epoch   1 |     7/  700 batches | train loss 1.8909767
+| epoch   1 |    11/  700 batches | train loss 2.2367806
+| epoch   1 |    15/  700 batches | train loss 1.4953537
+| epoch   1 |    19/  700 batches | train loss 1.0802276
+| epoch   1 |    23/  700 batches | train loss 1.0777125
+| epoch   1 |    27/  700 batches | train loss 0.9398872
+| epoch   1 |    31/  700 batches | train loss 0.7538413
+| epoch   1 |    35/  700 batches | train loss 0.7569203
+| epoch   1 |    39/  700 batches | train loss 0.7991652
+| epoch   1 |    43/  700 batches | train loss 0.6284156
+| epoch   1 |    47/  700 batches | train loss 0.5409176
+| epoch   1 |    51/  700 batches | train loss 0.6084326
+| epoch   1 |    55/  700 batches | train loss 0.6365047
+| epoch   1 |    59/  700 batches | train loss 0.6892266
+| epoch   1 |    63/  700 batches | train loss 0.5623323
+| epoch   1 |    67/  700 batches | train loss 0.5938894
+| epoch   1 |    71/  700 batches | train loss 0.6103931
+| epoch   1 |    75/  700 batches | train loss 0.6170006
+| epoch   1 |    79/  700 batches | train loss 0.5508593
+| epoch   1 |    83/  700 batches | train loss 0.5028061
+| epoch   1 |    87/  700 batches | train loss 0.8172022
+| epoch   1 |    91/  700 batches | train loss 0.5984362
+| epoch   1 |    95/  700 batches | train loss 0.7497207
+| epoch   1 |    99/  700 batches | train loss 0.6599419
+| epoch   1 |   103/  700 batches | train loss 0.5675180
+| epoch   1 |   107/  700 batches | train loss 0.4801010
+| epoch   1 |   111/  700 batches | train loss 0.4890854

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_6000/partial_model_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:016f6a274e4b488d730f635259f2c68cbd867459fd7430cdb02e05ca18eeb186
+size 1975288322

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_6000/train_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "stage": "stage2",
+    "lr": 3e-05,
+    "epochs": 10,
+    "log_interval": 4,
+    "gradient_clip": 1.0,
+    "tr_batch_size": 4,
+    "te_batch_size": 4,
+    "gradient_accumulation_steps": 1,
+    "update_params": [
+        "all"
+    ],
+    "corpus": "math_derivation",
+    "num_of_sents": [
+        12,
+        12
+    ],
+    "encoder": "bert-base-cased",
+    "repeat": 1,
+    "max_num_each_cat": 6000,
+    "fb_mode": 0.0,
+    "set_loss_mask": false,
+    "use_label_dec": true,
+    "use_label_enc": false,
+    "decoder": "Qwen/Qwen2.5-0.5B",
+    "pretrained_path": null,
+    "device": "cuda",
+    "save_dir": "checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_6000"
+}

checkpoint_dec_Qwen-Qwen2.5-0.5B_epochs_10_corpus_math_derivation_stage_stage2_num_12_use_label_dec_True_max_num_each_cat_6000/train_log.log ADDED Viewed

The diff for this file is too large to render. See raw diff