Add final-response verifier ONNX artifacts

Files changed (5) hide show

onnx/artifact_manifest.json CHANGED Viewed

@@ -49,5 +49,5 @@
   ],
   "deployment_default": "shadow",
   "shadow_first_reason": "experimental final-response verifier; promote only after eval replay",
-  "created_unix": 1779885930
 }

   ],
   "deployment_default": "shadow",
   "shadow_first_reason": "experimental final-response verifier; promote only after eval replay",
+  "created_unix": 1780095207
 }

onnx/model.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:186472a7a434ecaba20f1900d9b8487d077fe370d237c2a9e2a5dd950cbf99ab
 size 568055401

 version https://git-lfs.github.com/spec/v1
+oid sha256:3849500df5f74f1da797de9bf0c62231639e6d494d2f1ebbbd37b1423dff3adb
 size 568055401

onnx/model_quantized.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20cd2f7cc417304e8a1a872367d412d1de1e8ed36e4d5761a44cf564c36ce60b
 size 172267901

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e6b6ab9ac6c268e164d7bcb04c2bb9d0bd91c4a2b798e7ece0d97a7fc9c01c6
 size 172267901

onnx/onnx_parity_report.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "schema_version": "final-response-verifier-onnx-parity/v1",
-  "rows": 10,
   "pt_fp32_top_label_agreement": 1.0,
-  "pt_fp32_max_abs_diff": 3.5762786865234375e-07,
   "quantized_present": true,
   "fp32_quantized_top_label_agreement": 1.0,
   "fp32_quantized_disagreements": 0,
-  "fp32_quantized_max_abs_diff": 0.021983787417411804
 }

 {
   "schema_version": "final-response-verifier-onnx-parity/v1",
+  "rows": 14,
   "pt_fp32_top_label_agreement": 1.0,
+  "pt_fp32_max_abs_diff": 2.4586915969848633e-07,
   "quantized_present": true,
   "fp32_quantized_top_label_agreement": 1.0,
   "fp32_quantized_disagreements": 0,
+  "fp32_quantized_max_abs_diff": 0.01770871877670288
 }

onnx/training_provenance.json CHANGED Viewed

@@ -21,38 +21,38 @@
     "force_retrain": false,
     "export_cpu_only": true
   },
-  "rows": 90,
-  "train_rows": 70,
-  "validation_rows": 10,
-  "test_rows": 10,
   "label_counts": {
-    "contradicts_tool_result": 18,
-    "missing_tool_fact": 18,
     "unsupported_claim": 18,
-    "valid_final_response": 18,
     "failed_to_acknowledge_data_gap": 18
   },
   "resumed_from_checkpoint": false,
   "train_metrics": {
-    "train_runtime": 14.0866,
-    "train_samples_per_second": 24.846,
-    "train_steps_per_second": 0.71,
-    "total_flos": 16883336101500.0,
-    "train_loss": 1.620902379353841,
     "epoch": 3.0
   },
   "test_metrics": {
-    "eval_loss": 1.6238057613372803,
-    "eval_accuracy": 0.2,
-    "eval_macro_precision": 0.04,
     "eval_macro_recall": 0.2,
-    "eval_macro_f1": 0.06666666666666667,
-    "eval_macro_precision_all_labels": 0.04,
     "eval_macro_recall_all_labels": 0.2,
-    "eval_macro_f1_all_labels": 0.06666666666666667,
-    "eval_runtime": 0.4888,
-    "eval_samples_per_second": 20.46,
-    "eval_steps_per_second": 2.046,
     "epoch": 3.0
   }
 }

     "force_retrain": false,
     "export_cpu_only": true
   },
+  "rows": 128,
+  "train_rows": 97,
+  "validation_rows": 17,
+  "test_rows": 14,
   "label_counts": {
+    "valid_final_response": 37,
+    "contradicts_tool_result": 37,
     "unsupported_claim": 18,
+    "missing_tool_fact": 18,
     "failed_to_acknowledge_data_gap": 18
   },
   "resumed_from_checkpoint": false,
   "train_metrics": {
+    "train_runtime": 10.306,
+    "train_samples_per_second": 47.06,
+    "train_steps_per_second": 0.97,
+    "total_flos": 39847260684000.0,
+    "train_loss": 1.6460792223612468,
     "epoch": 3.0
   },
   "test_metrics": {
+    "eval_loss": 1.6308313608169556,
+    "eval_accuracy": 0.14285714285714285,
+    "eval_macro_precision": 0.02857142857142857,
     "eval_macro_recall": 0.2,
+    "eval_macro_f1": 0.05,
+    "eval_macro_precision_all_labels": 0.02857142857142857,
     "eval_macro_recall_all_labels": 0.2,
+    "eval_macro_f1_all_labels": 0.05,
+    "eval_runtime": 0.4413,
+    "eval_samples_per_second": 31.727,
+    "eval_steps_per_second": 2.266,
     "epoch": 3.0
   }
 }