lennarddaw
/

howzer-severity-transformer

+{
+  "HowzerSeverity (ours)": {
+    "params": "336M",
+    "type": "fine-tuned",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 1.0,
+      "tier_f1_macro": 1.0,
+      "tier_accuracy": 1.0,
+      "score_mae": 0.030167026676734283,
+      "tier_f1_low": 1.0,
+      "tier_f1_medium": 1.0,
+      "tier_f1_high": 1.0,
+      "tier_f1_critical": 1.0,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          24,
+          0,
+          0,
+          0
+        ],
+        [
+          0,
+          19,
+          0,
+          0
+        ],
+        [
+          0,
+          0,
+          2,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          3
+        ]
+      ]
+    }
+  },
+  "mDeBERTa XNLI": {
+    "params": "~300M",
+    "type": "zero-shot-nli",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 0.45595583494519665,
+      "tier_f1_macro": 0.2838491295938104,
+      "tier_accuracy": 0.4375,
+      "score_mae": 0.16276687665792802,
+      "tier_f1_low": 0.6808510638297872,
+      "tier_f1_medium": 0.2727272727272727,
+      "tier_f1_high": 0.18181818181818182,
+      "tier_f1_critical": 0.0,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          16,
+          0,
+          8,
+          0
+        ],
+        [
+          7,
+          3,
+          7,
+          2
+        ],
+        [
+          0,
+          0,
+          2,
+          0
+        ],
+        [
+          0,
+          0,
+          3,
+          0
+        ]
+      ]
+    }
+  },
+  "BART MNLI": {
+    "params": "~300M",
+    "type": "zero-shot-nli",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 0.21050724637681162,
+      "tier_f1_macro": 0.14347826086956522,
+      "tier_accuracy": 0.16666666666666666,
+      "score_mae": 0.23398512904193877,
+      "tier_f1_low": 0.26666666666666666,
+      "tier_f1_medium": 0.17391304347826086,
+      "tier_f1_high": 0.0,
+      "tier_f1_critical": 0.13333333333333333,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          4,
+          2,
+          6,
+          12
+        ],
+        [
+          1,
+          2,
+          4,
+          12
+        ],
+        [
+          1,
+          0,
+          0,
+          1
+        ],
+        [
+          0,
+          0,
+          1,
+          2
+        ]
+      ]
+    }
+  },
+  "German Sentiment BERT": {
+    "params": "110M",
+    "type": "sentiment-mapped",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 0.2868131868131868,
+      "tier_f1_macro": 0.1695970695970696,
+      "tier_accuracy": 0.2708333333333333,
+      "score_mae": 0.19046067998939412,
+      "tier_f1_low": 0.5641025641025641,
+      "tier_f1_medium": 0.0,
+      "tier_f1_high": 0.11428571428571428,
+      "tier_f1_critical": 0.0,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          11,
+          0,
+          13,
+          0
+        ],
+        [
+          4,
+          0,
+          15,
+          0
+        ],
+        [
+          0,
+          0,
+          2,
+          0
+        ],
+        [
+          0,
+          0,
+          3,
+          0
+        ]
+      ]
+    }
+  },
+  "nlptown Star Rating": {
+    "params": "110M",
+    "type": "sentiment-mapped",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 0.4287094645550528,
+      "tier_f1_macro": 0.30458144796380093,
+      "tier_accuracy": 0.375,
+      "score_mae": 0.21206720113219513,
+      "tier_f1_low": 0.6153846153846154,
+      "tier_f1_medium": 0.25,
+      "tier_f1_high": 0.0,
+      "tier_f1_critical": 0.35294117647058826,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          12,
+          2,
+          7,
+          3
+        ],
+        [
+          3,
+          3,
+          7,
+          6
+        ],
+        [
+          0,
+          0,
+          0,
+          2
+        ],
+        [
+          0,
+          0,
+          0,
+          3
+        ]
+      ]
+    }
+  },
+  "Claude Opus 4.6": {
+    "params": "~70B?",
+    "type": "llm",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 0.8849479166666666,
+      "tier_f1_macro": 0.818125,
+      "tier_accuracy": 0.875,
+      "score_mae": 0.06494583333333333,
+      "tier_f1_low": 0.96,
+      "tier_f1_medium": 0.8125,
+      "tier_f1_high": 0.5,
+      "tier_f1_critical": 1.0,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          24,
+          0,
+          0,
+          0
+        ],
+        [
+          2,
+          13,
+          4,
+          0
+        ],
+        [
+          0,
+          0,
+          2,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          3
+        ]
+      ]
+    }
+  },
+  "Claude Sonnet 4.6": {
+    "params": "~70B?",
+    "type": "llm",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 0.9809684684684684,
+      "tier_f1_macro": 0.9432432432432433,
+      "tier_accuracy": 0.9791666666666666,
+      "score_mae": 0.005687499999999999,
+      "tier_f1_low": 1.0,
+      "tier_f1_medium": 0.972972972972973,
+      "tier_f1_high": 0.8,
+      "tier_f1_critical": 1.0,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          24,
+          0,
+          0,
+          0
+        ],
+        [
+          0,
+          18,
+          1,
+          0
+        ],
+        [
+          0,
+          0,
+          2,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          3
+        ]
+      ]
+    }
+  },
+  "Claude Haiku 4.5": {
+    "params": "~8B?",
+    "type": "llm",
+    "metrics": {
+      "n_valid": 48,
+      "n_total": 48,
+      "parse_rate": 1.0,
+      "tier_f1_weighted": 0.8112037037037038,
+      "tier_f1_macro": 0.7794444444444444,
+      "tier_accuracy": 0.8125,
+      "score_mae": 0.037641666666666664,
+      "tier_f1_low": 0.84,
+      "tier_f1_medium": 0.7777777777777778,
+      "tier_f1_high": 0.5,
+      "tier_f1_critical": 1.0,
+      "critical_to_low": 0,
+      "confusion_matrix": [
+        [
+          21,
+          3,
+          0,
+          0
+        ],
+        [
+          4,
+          14,
+          1,
+          0
+        ],
+        [
+          1,
+          0,
+          1,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          3
+        ]
+      ]
+    }
+  },
+  "_meta": {
+    "n_samples": 48,
+    "timestamp": "2026-02-24 18:13:25"
+  }
+}