Autonomous Space trainer update

Browse files

Files changed (9) hide show

adapter_config.json +2 -2
effective_run_config.json +12 -2
live_events.jsonl +0 -0
live_progress.json +11 -1
metrics/eval_metrics.json +3 -3
metrics/train_metrics.json +3 -3
run_summary.json +14 -4
trainer_state.json +33 -33
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "c_fc",
-    "c_attn",
-    "c_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "c_proj",
     "c_fc",
+    "c_attn"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

effective_run_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "ce_weight_end": 0.5,
   "ce_weight_start": 0.35,
-  "created_at": "2026-02-24T08:01:09.221857+00:00",
   "dataset_id": "NorthernTribe-Research/UMSR-v1",
   "distill_enabled": true,
   "enforce_inhouse_models": true,
@@ -23,8 +23,18 @@
   ],
   "min_quality": 0.72,
   "model_dtype": "bfloat16",
-  "output_dir": "/app/runs/20260224_080047",
   "resume_from_checkpoint": "",
   "save_total_limit": 4,
   "student_model": "NorthernTribe-Research/UMSR-Reasoner-7B",
   "target_repo_id": "NorthernTribe-Research/UMSR-Reasoner-7B",

 {
   "ce_weight_end": 0.5,
   "ce_weight_start": 0.35,
+  "created_at": "2026-02-24T08:19:15.059846+00:00",
   "dataset_id": "NorthernTribe-Research/UMSR-v1",
   "distill_enabled": true,
   "enforce_inhouse_models": true,
   ],
   "min_quality": 0.72,
   "model_dtype": "bfloat16",
+  "output_dir": "/app/runs/20260224_081901",
   "resume_from_checkpoint": "",
+  "runtime_hardware": {
+    "cuda_available": false,
+    "cuda_compute_capability_0": "",
+    "cuda_device_0": "",
+    "cuda_device_count": 0,
+    "cuda_total_memory_gb_0": null,
+    "mps_available": false,
+    "torch_available": true,
+    "torch_version": "2.10.0+cu128"
+  },
   "save_total_limit": 4,
   "student_model": "NorthernTribe-Research/UMSR-Reasoner-7B",
   "target_repo_id": "NorthernTribe-Research/UMSR-Reasoner-7B",

live_events.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff

live_progress.json CHANGED Viewed

@@ -16,6 +16,16 @@
     "learning_rate": 4.032258064516129e-07,
     "loss": 5.431174278259277
   },
   "status": "completed",
-  "updated_at": "2026-02-24T08:07:49.286465+00:00"
 }

     "learning_rate": 4.032258064516129e-07,
     "loss": 5.431174278259277
   },
+  "runtime_hardware": {
+    "cuda_available": false,
+    "cuda_compute_capability_0": "",
+    "cuda_device_0": "",
+    "cuda_device_count": 0,
+    "cuda_total_memory_gb_0": null,
+    "mps_available": false,
+    "torch_available": true,
+    "torch_version": "2.10.0+cu128"
+  },
   "status": "completed",
+  "updated_at": "2026-02-24T08:23:53.900701+00:00"
 }

metrics/eval_metrics.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "eval_loss": 5.438441753387451,
-  "eval_runtime": 16.5202,
   "eval_samples": 64,
-  "eval_samples_per_second": 3.874,
-  "eval_steps_per_second": 3.874
 }

 {
   "eval_loss": 5.438441753387451,
+  "eval_runtime": 17.0533,
   "eval_samples": 64,
+  "eval_samples_per_second": 3.753,
+  "eval_steps_per_second": 3.753
 }

metrics/train_metrics.json CHANGED Viewed

@@ -9,8 +9,8 @@
   "temperature_start": 2.5,
   "total_flos": 42322071132.0,
   "train_loss": 4.595640664920211,
-  "train_runtime": 383.1142,
   "train_samples": 256,
-  "train_samples_per_second": 0.668,
-  "train_steps_per_second": 0.668
 }

   "temperature_start": 2.5,
   "total_flos": 42322071132.0,
   "train_loss": 4.595640664920211,
+  "train_runtime": 261.398,
   "train_samples": 256,
+  "train_samples_per_second": 0.979,
+  "train_steps_per_second": 0.979
 }

run_summary.json CHANGED Viewed

@@ -10,13 +10,13 @@
   "distill_enabled": true,
   "enforce_inhouse_models": true,
   "eval_rows": 64,
-  "finished_at": "2026-02-24T08:07:49.286128+00:00",
   "fp16": false,
   "gradient_checkpointing": true,
   "kd_weight_end": 0.5,
   "kd_weight_start": 0.65,
-  "live_events_path": "/app/runs/20260224_080047/live_events.jsonl",
-  "live_progress_path": "/app/runs/20260224_080047/live_progress.json",
   "lora_alpha": 64,
   "lora_dropout": 0.05,
   "lora_enabled": true,
@@ -32,9 +32,19 @@
   ],
   "model_dtype": "bfloat16",
   "mps_available": false,
-  "output_dir": "/app/runs/20260224_080047",
   "requested_warmup_steps": 0,
   "resume_from_checkpoint": "",
   "save_total_limit": 4,
   "target_repo_id": "NorthernTribe-Research/UMSR-Reasoner-7B",
   "teacher_count": 1,

   "distill_enabled": true,
   "enforce_inhouse_models": true,
   "eval_rows": 64,
+  "finished_at": "2026-02-24T08:23:53.900247+00:00",
   "fp16": false,
   "gradient_checkpointing": true,
   "kd_weight_end": 0.5,
   "kd_weight_start": 0.65,
+  "live_events_path": "/app/runs/20260224_081901/live_events.jsonl",
+  "live_progress_path": "/app/runs/20260224_081901/live_progress.json",
   "lora_alpha": 64,
   "lora_dropout": 0.05,
   "lora_enabled": true,
   ],
   "model_dtype": "bfloat16",
   "mps_available": false,
+  "output_dir": "/app/runs/20260224_081901",
   "requested_warmup_steps": 0,
   "resume_from_checkpoint": "",
+  "runtime_hardware": {
+    "cuda_available": false,
+    "cuda_compute_capability_0": "",
+    "cuda_device_0": "",
+    "cuda_device_count": 0,
+    "cuda_total_memory_gb_0": null,
+    "mps_available": false,
+    "torch_available": true,
+    "torch_version": "2.10.0+cu128"
+  },
   "save_total_limit": 4,
   "target_repo_id": "NorthernTribe-Research/UMSR-Reasoner-7B",
   "teacher_count": 1,

trainer_state.json CHANGED Viewed

@@ -317,9 +317,9 @@
       "distill_temperature": 2.373046875,
       "epoch": 0.09765625,
       "eval_loss": 3.927885055541992,
-      "eval_runtime": 26.4719,
-      "eval_samples_per_second": 2.418,
-      "eval_steps_per_second": 2.418,
       "step": 25
     },
     {
@@ -630,9 +630,9 @@
       "distill_temperature": 2.24609375,
       "epoch": 0.1953125,
       "eval_loss": 4.088868141174316,
-      "eval_runtime": 24.5155,
-      "eval_samples_per_second": 2.611,
-      "eval_steps_per_second": 2.611,
       "step": 50
     },
     {
@@ -943,9 +943,9 @@
       "distill_temperature": 2.119140625,
       "epoch": 0.29296875,
       "eval_loss": 4.2497992515563965,
-      "eval_runtime": 24.4874,
-      "eval_samples_per_second": 2.614,
-      "eval_steps_per_second": 2.614,
       "step": 75
     },
     {
@@ -1256,9 +1256,9 @@
       "distill_temperature": 1.9921875,
       "epoch": 0.390625,
       "eval_loss": 4.411334991455078,
-      "eval_runtime": 22.5608,
-      "eval_samples_per_second": 2.837,
-      "eval_steps_per_second": 2.837,
       "step": 100
     },
     {
@@ -1569,9 +1569,9 @@
       "distill_temperature": 1.865234375,
       "epoch": 0.48828125,
       "eval_loss": 4.573975086212158,
-      "eval_runtime": 21.1387,
-      "eval_samples_per_second": 3.028,
-      "eval_steps_per_second": 3.028,
       "step": 125
     },
     {
@@ -1882,9 +1882,9 @@
       "distill_temperature": 1.73828125,
       "epoch": 0.5859375,
       "eval_loss": 4.739337921142578,
-      "eval_runtime": 23.1527,
-      "eval_samples_per_second": 2.764,
-      "eval_steps_per_second": 2.764,
       "step": 150
     },
     {
@@ -2195,9 +2195,9 @@
       "distill_temperature": 1.611328125,
       "epoch": 0.68359375,
       "eval_loss": 4.90593957901001,
-      "eval_runtime": 21.2637,
-      "eval_samples_per_second": 3.01,
-      "eval_steps_per_second": 3.01,
       "step": 175
     },
     {
@@ -2508,9 +2508,9 @@
       "distill_temperature": 1.484375,
       "epoch": 0.78125,
       "eval_loss": 5.072885513305664,
-      "eval_runtime": 17.5798,
-      "eval_samples_per_second": 3.641,
-      "eval_steps_per_second": 3.641,
       "step": 200
     },
     {
@@ -2821,9 +2821,9 @@
       "distill_temperature": 1.357421875,
       "epoch": 0.87890625,
       "eval_loss": 5.237745761871338,
-      "eval_runtime": 16.7918,
-      "eval_samples_per_second": 3.811,
-      "eval_steps_per_second": 3.811,
       "step": 225
     },
     {
@@ -3134,9 +3134,9 @@
       "distill_temperature": 1.23046875,
       "epoch": 0.9765625,
       "eval_loss": 5.399942398071289,
-      "eval_runtime": 16.9158,
-      "eval_samples_per_second": 3.783,
-      "eval_steps_per_second": 3.783,
       "step": 250
     },
     {
@@ -3221,9 +3221,9 @@
       "step": 256,
       "total_flos": 42322071132.0,
       "train_loss": 4.595640664920211,
-      "train_runtime": 383.1142,
-      "train_samples_per_second": 0.668,
-      "train_steps_per_second": 0.668
     }
   ],
   "logging_steps": 1,

       "distill_temperature": 2.373046875,
       "epoch": 0.09765625,
       "eval_loss": 3.927885055541992,
+      "eval_runtime": 13.3298,
+      "eval_samples_per_second": 4.801,
+      "eval_steps_per_second": 4.801,
       "step": 25
     },
     {
       "distill_temperature": 2.24609375,
       "epoch": 0.1953125,
       "eval_loss": 4.088868141174316,
+      "eval_runtime": 13.1424,
+      "eval_samples_per_second": 4.87,
+      "eval_steps_per_second": 4.87,
       "step": 50
     },
     {
       "distill_temperature": 2.119140625,
       "epoch": 0.29296875,
       "eval_loss": 4.2497992515563965,
+      "eval_runtime": 14.3197,
+      "eval_samples_per_second": 4.469,
+      "eval_steps_per_second": 4.469,
       "step": 75
     },
     {
       "distill_temperature": 1.9921875,
       "epoch": 0.390625,
       "eval_loss": 4.411334991455078,
+      "eval_runtime": 14.5811,
+      "eval_samples_per_second": 4.389,
+      "eval_steps_per_second": 4.389,
       "step": 100
     },
     {
       "distill_temperature": 1.865234375,
       "epoch": 0.48828125,
       "eval_loss": 4.573975086212158,
+      "eval_runtime": 14.6477,
+      "eval_samples_per_second": 4.369,
+      "eval_steps_per_second": 4.369,
       "step": 125
     },
     {
       "distill_temperature": 1.73828125,
       "epoch": 0.5859375,
       "eval_loss": 4.739337921142578,
+      "eval_runtime": 15.7116,
+      "eval_samples_per_second": 4.073,
+      "eval_steps_per_second": 4.073,
       "step": 150
     },
     {
       "distill_temperature": 1.611328125,
       "epoch": 0.68359375,
       "eval_loss": 4.90593957901001,
+      "eval_runtime": 14.8353,
+      "eval_samples_per_second": 4.314,
+      "eval_steps_per_second": 4.314,
       "step": 175
     },
     {
       "distill_temperature": 1.484375,
       "epoch": 0.78125,
       "eval_loss": 5.072885513305664,
+      "eval_runtime": 15.3273,
+      "eval_samples_per_second": 4.176,
+      "eval_steps_per_second": 4.176,
       "step": 200
     },
     {
       "distill_temperature": 1.357421875,
       "epoch": 0.87890625,
       "eval_loss": 5.237745761871338,
+      "eval_runtime": 15.8537,
+      "eval_samples_per_second": 4.037,
+      "eval_steps_per_second": 4.037,
       "step": 225
     },
     {
       "distill_temperature": 1.23046875,
       "epoch": 0.9765625,
       "eval_loss": 5.399942398071289,
+      "eval_runtime": 16.0564,
+      "eval_samples_per_second": 3.986,
+      "eval_steps_per_second": 3.986,
       "step": 250
     },
     {
       "step": 256,
       "total_flos": 42322071132.0,
       "train_loss": 4.595640664920211,
+      "train_runtime": 261.398,
+      "train_samples_per_second": 0.979,
+      "train_steps_per_second": 0.979
     }
   ],
   "logging_steps": 1,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be358fbb43e9d9e8f930a1c065bc3e315768742f862cda8dafe891203e7f0b93
 size 5201

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2d23671895b8a0d20a8fc1fc999d056c5abf3a9e171b9f55654865cd05ff443
 size 5201