Model save

Browse files

Files changed (7) hide show

README.md +58 -0
generation_config.json +12 -0
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
trainer_log.jsonl +23 -0

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+library_name: transformers
+tags:
+- llama-factory
+- generated_from_trainer
+model-index:
+- name: r2egym-nl2bash-stackseq
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# r2egym-nl2bash-stackseq
+This model was trained from scratch on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- total_eval_batch_size: 64
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.98) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 7.0
+### Training results
+### Framework versions
+- Transformers 4.56.1
+- Pytorch 2.9.1+cu128
+- Datasets 4.4.1
+- Tokenizers 0.22.1

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:070c70fc2e45e02a25d986716b72127ce31f78801612a52ee985ebfae64a960c
 size 4902257696

 version https://git-lfs.github.com/spec/v1
+oid sha256:acef5022918d7df85b9b4b4a92bc344fd8311a5499c5fe9c9b70ef10d39432d4
 size 4902257696

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39dac758e86d20841080c7bdfaa03fd7ac1039bc55eea02480fde0870d8b380c
 size 4915960368

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2e69ff2b74881612cc1fa590566ffaf526be99186db86453fb1186e401bdf78
 size 4915960368

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb072b31c89244d587b364531d7c9bebfe4777308d3b349072b5dca53646b79b
 size 4983068496

 version https://git-lfs.github.com/spec/v1
+oid sha256:b257af984da91c971d95fe52fd294a89c6f74a1a4aad53bd98733bd3154a881e
 size 4983068496

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a7607f72b45bd8744097a5c75c11f727570a06a3cd0bea8e9935d391f60602b
 size 1580230264

 version https://git-lfs.github.com/spec/v1
+oid sha256:df2c66f8a6ada08d08eed2845bd954460c7fd5edfc591dca675f5baf183292f5
 size 1580230264

trainer_log.jsonl CHANGED Viewed

@@ -1834,3 +1834,26 @@
 {"current_steps": 9005, "total_steps": 9128, "loss": 0.1847, "lr": 2.248260322829543e-08, "epoch": 6.906789413118527, "percentage": 98.65, "elapsed_time": "8:40:30", "remaining_time": "0:07:06"}
 {"current_steps": 9010, "total_steps": 9128, "loss": 0.1961, "lr": 2.0706351382184796e-08, "epoch": 6.910625239739164, "percentage": 98.71, "elapsed_time": "8:42:11", "remaining_time": "0:06:50"}
 {"current_steps": 9015, "total_steps": 9128, "loss": 0.1939, "lr": 1.9003146911462656e-08, "epoch": 6.9144610663598005, "percentage": 98.76, "elapsed_time": "8:43:53", "remaining_time": "0:06:34"}

 {"current_steps": 9005, "total_steps": 9128, "loss": 0.1847, "lr": 2.248260322829543e-08, "epoch": 6.906789413118527, "percentage": 98.65, "elapsed_time": "8:40:30", "remaining_time": "0:07:06"}
 {"current_steps": 9010, "total_steps": 9128, "loss": 0.1961, "lr": 2.0706351382184796e-08, "epoch": 6.910625239739164, "percentage": 98.71, "elapsed_time": "8:42:11", "remaining_time": "0:06:50"}
 {"current_steps": 9015, "total_steps": 9128, "loss": 0.1939, "lr": 1.9003146911462656e-08, "epoch": 6.9144610663598005, "percentage": 98.76, "elapsed_time": "8:43:53", "remaining_time": "0:06:34"}
+{"current_steps": 9020, "total_steps": 9128, "loss": 0.1962, "lr": 1.7372996043307777e-08, "epoch": 6.918296892980437, "percentage": 98.82, "elapsed_time": "8:45:33", "remaining_time": "0:06:17"}
+{"current_steps": 9025, "total_steps": 9128, "loss": 0.1924, "lr": 1.581590473780148e-08, "epoch": 6.922132719601074, "percentage": 98.87, "elapsed_time": "8:47:11", "remaining_time": "0:06:01"}
+{"current_steps": 9030, "total_steps": 9128, "loss": 0.1897, "lr": 1.4331878687912082e-08, "epoch": 6.925968546221711, "percentage": 98.93, "elapsed_time": "8:48:47", "remaining_time": "0:05:44"}
+{"current_steps": 9035, "total_steps": 9128, "loss": 0.1957, "lr": 1.2920923319463819e-08, "epoch": 6.929804372842348, "percentage": 98.98, "elapsed_time": "8:50:37", "remaining_time": "0:05:27"}
+{"current_steps": 9040, "total_steps": 9128, "loss": 0.1875, "lr": 1.1583043791130178e-08, "epoch": 6.933640199462984, "percentage": 99.04, "elapsed_time": "8:52:29", "remaining_time": "0:05:11"}
+{"current_steps": 9045, "total_steps": 9128, "loss": 0.182, "lr": 1.0318244994402815e-08, "epoch": 6.937476026083621, "percentage": 99.09, "elapsed_time": "8:54:12", "remaining_time": "0:04:54"}
+{"current_steps": 9050, "total_steps": 9128, "loss": 0.1927, "lr": 9.126531553582673e-09, "epoch": 6.941311852704258, "percentage": 99.15, "elapsed_time": "8:55:55", "remaining_time": "0:04:37"}
+{"current_steps": 9055, "total_steps": 9128, "loss": 0.1849, "lr": 8.007907825755557e-09, "epoch": 6.9451476793248945, "percentage": 99.2, "elapsed_time": "8:57:37", "remaining_time": "0:04:20"}
+{"current_steps": 9060, "total_steps": 9128, "loss": 0.1764, "lr": 6.962377900781026e-09, "epoch": 6.948983505945531, "percentage": 99.26, "elapsed_time": "8:59:22", "remaining_time": "0:04:02"}
+{"current_steps": 9065, "total_steps": 9128, "loss": 0.1778, "lr": 5.98994560128352e-09, "epoch": 6.952819332566168, "percentage": 99.31, "elapsed_time": "9:00:59", "remaining_time": "0:03:45"}
+{"current_steps": 9070, "total_steps": 9128, "loss": 0.1869, "lr": 5.09061448261905e-09, "epoch": 6.956655159186805, "percentage": 99.36, "elapsed_time": "9:02:39", "remaining_time": "0:03:28"}
+{"current_steps": 9075, "total_steps": 9128, "loss": 0.1825, "lr": 4.264387832884076e-09, "epoch": 6.960490985807441, "percentage": 99.42, "elapsed_time": "9:04:22", "remaining_time": "0:03:10"}
+{"current_steps": 9080, "total_steps": 9128, "loss": 0.207, "lr": 3.511268672888868e-09, "epoch": 6.964326812428078, "percentage": 99.47, "elapsed_time": "9:05:59", "remaining_time": "0:02:53"}
+{"current_steps": 9085, "total_steps": 9128, "loss": 0.1804, "lr": 2.83125975615306e-09, "epoch": 6.968162639048715, "percentage": 99.53, "elapsed_time": "9:07:36", "remaining_time": "0:02:35"}
+{"current_steps": 9090, "total_steps": 9128, "loss": 0.1788, "lr": 2.2243635688945496e-09, "epoch": 6.971998465669352, "percentage": 99.58, "elapsed_time": "9:09:19", "remaining_time": "0:02:17"}
+{"current_steps": 9095, "total_steps": 9128, "loss": 0.1818, "lr": 1.6905823300206181e-09, "epoch": 6.9758342922899885, "percentage": 99.64, "elapsed_time": "9:10:56", "remaining_time": "0:01:59"}
+{"current_steps": 9100, "total_steps": 9128, "loss": 0.1897, "lr": 1.2299179911168247e-09, "epoch": 6.979670118910625, "percentage": 99.69, "elapsed_time": "9:12:34", "remaining_time": "0:01:42"}
+{"current_steps": 9105, "total_steps": 9128, "loss": 0.1894, "lr": 8.423722364425679e-10, "epoch": 6.983505945531262, "percentage": 99.75, "elapsed_time": "9:14:14", "remaining_time": "0:01:24"}
+{"current_steps": 9110, "total_steps": 9128, "loss": 0.1927, "lr": 5.279464829244241e-10, "epoch": 6.987341772151899, "percentage": 99.8, "elapsed_time": "9:15:55", "remaining_time": "0:01:05"}
+{"current_steps": 9115, "total_steps": 9128, "loss": 0.1897, "lr": 2.866418801517057e-10, "epoch": 6.991177598772536, "percentage": 99.86, "elapsed_time": "9:17:36", "remaining_time": "0:00:47"}
+{"current_steps": 9120, "total_steps": 9128, "loss": 0.1898, "lr": 1.1845931037202107e-10, "epoch": 6.995013425393172, "percentage": 99.91, "elapsed_time": "9:19:16", "remaining_time": "0:00:29"}
+{"current_steps": 9125, "total_steps": 9128, "loss": 0.1923, "lr": 2.3399388486833318e-11, "epoch": 6.998849252013809, "percentage": 99.97, "elapsed_time": "9:20:56", "remaining_time": "0:00:11"}
+{"current_steps": 9127, "total_steps": 9128, "epoch": 7.0, "percentage": 99.99, "elapsed_time": "9:21:40", "remaining_time": "0:00:03"}