Upload README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -93,8 +93,7 @@ The following datasets were **not used** during training or distillation. All re
 | **HANS** | Heuristic / syntactic bias test | Zero-shot |
 | **SciTail** | Science-domain entailment | Evaluated in binary setting |
 | **XNLI (English)** | Cross-lingual NLI test | Zero-shot on English split |
-| **FEVER** | Fact verification | Zero-shot probing |
-| **MedNLI** | Clinical NLI | Not used (access restricted) |
 ---
@@ -201,6 +200,21 @@ SciTail originally has entailment vs neutral classes. For evaluation, the model
 This demonstrates strong cross-domain and cross-benchmark generalization, even without explicit multilingual or XNLI-specific training.
 ---
 ## ⚡ Efficiency

 | **HANS** | Heuristic / syntactic bias test | Zero-shot |
 | **SciTail** | Science-domain entailment | Evaluated in binary setting |
 | **XNLI (English)** | Cross-lingual NLI test | Zero-shot on English split |
 ---
 This demonstrates strong cross-domain and cross-benchmark generalization, even without explicit multilingual or XNLI-specific training.
+## Results
+| Task | Dataset | Split | Accuracy | Macro-F1 |
+|------|---------|--------|-----------|-----------|
+| Natural Language Inference | MNLI (matched) | validation | 90.47% | 90.42% |
+| Natural Language Inference | MNLI (mismatched) | validation | 90.12% | 90.07% |
+| Natural Language Inference | SNLI | test | ~88–89% | ~88–89% |
+| Adversarial NLI | ANLI R1 | test_r1 | 73.60% | 73.61% |
+| Adversarial NLI | ANLI R2 | test_r2 | 57.70% | 57.60% |
+| Adversarial NLI | ANLI R3 | test_r3 | 53.67% | 53.68% |
+| Zero-shot | RTE (GLUE) | validation | 86.28% | 86.20% |
+| Zero-shot | HANS | validation | 77.74% | 76.60% |
+| Zero-shot (binary) | SciTail | dev | 78.83% | 78.81% |
+| Zero-shot | XNLI (English) | test | 90.92% | 90.94% |
 ---
 ## ⚡ Efficiency