Add final-response verifier checkpoint

Files changed (5) hide show

hf_model/artifact_manifest.json CHANGED Viewed

@@ -15,7 +15,9 @@
     "eval_batch_size": 32,
     "grad_accum": 4,
     "max_per_label": 5000,
-    "force_retrain": false,
     "export_cpu_only": true
   },
   "gpu_info": {
@@ -49,5 +51,5 @@
   ],
   "deployment_default": "shadow",
   "shadow_first_reason": "experimental final-response verifier; promote only after eval replay",
-  "created_unix": 1780095207
 }

     "eval_batch_size": 32,
     "grad_accum": 4,
     "max_per_label": 5000,
+    "balance_labels": true,
+    "min_per_label": 64,
+    "force_retrain": true,
     "export_cpu_only": true
   },
   "gpu_info": {
   ],
   "deployment_default": "shadow",
   "shadow_first_reason": "experimental final-response verifier; promote only after eval replay",
+  "created_unix": 1780181972
 }

hf_model/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8c89842b5aba73baf40ed2feba491dc2f943a29607b1cd7c2283b3223da02e3
 size 567607780

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb0398c7150936e081bbe64568c55846b57eaa9af6d3a31551d0c878ca33d171
 size 567607780

hf_model/onnx_parity_report.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "schema_version": "final-response-verifier-onnx-parity/v1",
-  "rows": 14,
   "pt_fp32_top_label_agreement": 1.0,
-  "pt_fp32_max_abs_diff": 2.4586915969848633e-07,
   "quantized_present": true,
   "fp32_quantized_top_label_agreement": 1.0,
   "fp32_quantized_disagreements": 0,
-  "fp32_quantized_max_abs_diff": 0.01770871877670288
 }

 {
   "schema_version": "final-response-verifier-onnx-parity/v1",
+  "rows": 33,
   "pt_fp32_top_label_agreement": 1.0,
+  "pt_fp32_max_abs_diff": 4.470348358154297e-07,
   "quantized_present": true,
   "fp32_quantized_top_label_agreement": 1.0,
   "fp32_quantized_disagreements": 0,
+  "fp32_quantized_max_abs_diff": 0.03157895430922508
 }

hf_model/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3aa09ad6bcd2b2645c3222fbfd7f683982407dbb27cefb40e1903787f71d0a2
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:906f6075ba75e9681408fd0cfbb76d1dbc4c174c8391db6fb133a8ba8ba64706
 size 5905

hf_model/training_provenance.json CHANGED Viewed

@@ -18,41 +18,43 @@
     "eval_batch_size": 32,
     "grad_accum": 4,
     "max_per_label": 5000,
-    "force_retrain": false,
     "export_cpu_only": true
   },
-  "rows": 128,
-  "train_rows": 97,
-  "validation_rows": 17,
-  "test_rows": 14,
   "label_counts": {
-    "valid_final_response": 37,
-    "contradicts_tool_result": 37,
-    "unsupported_claim": 18,
-    "missing_tool_fact": 18,
-    "failed_to_acknowledge_data_gap": 18
   },
   "resumed_from_checkpoint": false,
   "train_metrics": {
-    "train_runtime": 10.306,
-    "train_samples_per_second": 47.06,
-    "train_steps_per_second": 0.97,
-    "total_flos": 39847260684000.0,
-    "train_loss": 1.6460792223612468,
     "epoch": 3.0
   },
   "test_metrics": {
-    "eval_loss": 1.6308313608169556,
-    "eval_accuracy": 0.14285714285714285,
-    "eval_macro_precision": 0.02857142857142857,
     "eval_macro_recall": 0.2,
-    "eval_macro_f1": 0.05,
-    "eval_macro_precision_all_labels": 0.02857142857142857,
     "eval_macro_recall_all_labels": 0.2,
-    "eval_macro_f1_all_labels": 0.05,
-    "eval_runtime": 0.4413,
-    "eval_samples_per_second": 31.727,
-    "eval_steps_per_second": 2.266,
     "epoch": 3.0
   }
 }

     "eval_batch_size": 32,
     "grad_accum": 4,
     "max_per_label": 5000,
+    "balance_labels": true,
+    "min_per_label": 64,
+    "force_retrain": true,
     "export_cpu_only": true
   },
+  "rows": 378,
+  "train_rows": 312,
+  "validation_rows": 33,
+  "test_rows": 33,
   "label_counts": {
+    "valid_final_response": 122,
+    "unsupported_claim": 64,
+    "failed_to_acknowledge_data_gap": 64,
+    "missing_tool_fact": 64,
+    "contradicts_tool_result": 64
   },
   "resumed_from_checkpoint": false,
   "train_metrics": {
+    "train_runtime": 11.0074,
+    "train_samples_per_second": 141.723,
+    "train_steps_per_second": 2.271,
+    "total_flos": 118144540443600.0,
+    "train_loss": 1.6387429555257162,
     "epoch": 3.0
   },
   "test_metrics": {
+    "eval_loss": 1.729296088218689,
+    "eval_accuracy": 0.09090909090909091,
+    "eval_macro_precision": 0.01818181818181818,
     "eval_macro_recall": 0.2,
+    "eval_macro_f1": 0.03333333333333333,
+    "eval_macro_precision_all_labels": 0.01818181818181818,
     "eval_macro_recall_all_labels": 0.2,
+    "eval_macro_f1_all_labels": 0.03333333333333333,
+    "eval_runtime": 0.5187,
+    "eval_samples_per_second": 63.619,
+    "eval_steps_per_second": 3.856,
     "epoch": 3.0
   }
 }