shnl
/

extract_gcn_8000

Safetensors

qwen2

Model card Files Files and versions

xet

Community

shnl commited on Nov 16, 2025

Commit

6e44fea

verified ·

1 Parent(s): e80f0da

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

model.safetensors +1 -1
trainer_state.json +39 -6

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:beef18c1806ad7e3fcce32919e58436d6e4efcab7dd824d59efb93cf28eb5660
 size 988097824

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1080eca2e2b2303df23691e909bc44bf473c367036322fbcadfdec34865aa63
 size 988097824

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 2000,
-  "best_metric": 0.15754735469818115,
-  "best_model_checkpoint": "check-point-qwen2.5-bags/checkpoint-2000",
-  "epoch": 0.479415113561455,
   "eval_steps": 2000,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19,6 +19,39 @@
       "eval_samples_per_second": 86.784,
       "eval_steps_per_second": 21.696,
       "step": 2000
     }
   ],
   "logging_steps": 8344,
@@ -38,7 +71,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.0365632004096e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 8000,
+  "best_metric": 0.13777850568294525,
+  "best_model_checkpoint": "check-point-qwen2.5-bags/checkpoint-8000",
+  "epoch": 1.9176005273566248,
   "eval_steps": 2000,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 86.784,
       "eval_steps_per_second": 21.696,
       "step": 2000
+    },
+    {
+      "epoch": 0.95883022712291,
+      "eval_entropy": 0.1454699612403101,
+      "eval_loss": 0.14876286685466766,
+      "eval_mean_token_accuracy": 0.954681836819464,
+      "eval_num_tokens": 65536000.0,
+      "eval_runtime": 11.8969,
+      "eval_samples_per_second": 86.745,
+      "eval_steps_per_second": 21.686,
+      "step": 4000
+    },
+    {
+      "epoch": 1.43818541379517,
+      "eval_entropy": 0.1354526253633721,
+      "eval_loss": 0.14411340653896332,
+      "eval_mean_token_accuracy": 0.9560297101505043,
+      "eval_num_tokens": 98297856.0,
+      "eval_runtime": 11.9057,
+      "eval_samples_per_second": 86.682,
+      "eval_steps_per_second": 21.67,
+      "step": 6000
+    },
+    {
+      "epoch": 1.9176005273566248,
+      "eval_entropy": 0.13540720385174418,
+      "eval_loss": 0.13777850568294525,
+      "eval_mean_token_accuracy": 0.9574325225611989,
+      "eval_num_tokens": 131065856.0,
+      "eval_runtime": 11.8969,
+      "eval_samples_per_second": 86.745,
+      "eval_steps_per_second": 21.686,
+      "step": 8000
     }
   ],
   "logging_steps": 8344,
       "attributes": {}
     }
   },
+  "total_flos": 2.8144933446038323e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null