TinyBanglaClickbaitBERT: Distilled multi-task Bengali clickbait detection model

Files changed (10) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tiny_bangla_clickbait_bert.onnx.data filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

+---
+language: bn
+tags:
+  - bengali
+  - clickbait-detection
+  - knowledge-distillation
+  - tinybert
+  - multi-task
+license: mit
+---
+# TinyBanglaClickbaitBERT
+A compact Bengali clickbait detection model distilled from BanglaClickbaitBERT.
+## Model Details
+- **Architecture**: 4-layer Transformer (384-d, 6 heads)
+- **Parameters**: 20.1M (vs 110.2M teacher → 5.5x compression)
+- **Tasks**: Binary (clickbait/non-clickbait) + 11-class multiclass
+## Performance
+| Task | Student F1 | Teacher F1 | Retention |
+|------|-----------|-----------|-----------|
+| Binary (macro) | 0.8543 | 0.8849 | 96.5% |
+| Multiclass (macro) | 0.4201 | 0.5088 | 82.6% |
+## Speed
+- Teacher: 7.9 ms | Student: 3.4 ms | **2.3x speedup**
+- Teacher: 440.9 MB | Student: 80.3 MB | **5.5x compression**
+## Usage
+```python
+import torch
+checkpoint = torch.load("tiny_bangla_clickbait_bert.pt")
+# See label_config.json for class mappings
+```
+## Distilled from
+[khalidsyfullah/bangla-clickbait-multitask](https://huggingface.co/khalidsyfullah/bangla-clickbait-multitask)

best_student.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e800c7361c88fba63208d53bc00f292778f6f4519858748c189673547f98165b
+size 80346719

label_config.json ADDED Viewed

+{
+  "binary_classes": [
+    "clickbait",
+    "not_clickbait"
+  ],
+  "multi_classes": [
+    "analytical",
+    "celebrity_click",
+    "curiosity_gap",
+    "emotional",
+    "factual",
+    "fake_news",
+    "general",
+    "informative",
+    "misleading",
+    "reportage",
+    "sensational"
+  ],
+  "hierarchy_map": {
+    "2": 0,
+    "7": 1,
+    "1": 0,
+    "9": 1,
+    "3": 0,
+    "5": 0,
+    "4": 1,
+    "10": 0,
+    "8": 0,
+    "6": 1,
+    "0": 1
+  },
+  "num_binary_labels": 2,
+  "num_multi_labels": 11
+}

tiny_bangla_clickbait_bert.onnx ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1dfabb3835572befe6f2f8da15c661c411e082fceb0af397c9a23b1c6ee34e7
+size 534942

tiny_bangla_clickbait_bert.onnx.data ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:62c474e7422e0d64fd46c7627b1bfc9e230084ef87e4dfc6c10d8c32bf97f93f
+size 78577664

tiny_bangla_clickbait_bert.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8fc402a84ce85e0b47a3f82441aec86dfc823c5123091dc5c660b995bb3bf7da
+size 80348933

tiny_quantized.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:14ef1189857205ee4a236233245cc13e0ed95ad7cdebde80d3dbb754235ece31
+size 57655510

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "full_tokenizer_file": null,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": false,
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]"
+}