Initial commit

Files changed (11) hide show

.gitattributes +36 -0
README.md +107 -0
bestthreshold.png +3 -0
config.json +32 -0
model.safetensors +3 -0
special_tokens_map.json +7 -0
testmetrics.png +3 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
valf1perepoch.png +3 -0
vocab.txt +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,107 @@

+---
+language:
+- he
+license: cc-by-sa-4.0
+tags:
+- text-classification
+- profanity-detection
+- hebrew
+- bert
+- alephbert
+library_name: transformers
+base_model: onlplab/alephbert-base
+datasets:
+- custom
+metrics:
+- accuracy
+- precision
+- recall
+- f1
+---
+# OpenCensor-Hebrew
+This is a fine tuned **AlephBERT** model that finds bad words ( profanity ) in Hebrew text.
+You give the model a Hebrew sentence.
+It returns:
+- a score between **0 and 1**
+- a yes/no flag (based on a cutoff you choose)
+Meaning of the score:
+- **0 = clean**, **1 = has profanity**
+- Recommended cutoff from tests: **0.29** ( you can change it )
+![Validation F1 per Epoch](valf1perepoch.png)
+![Final Test Metrics](testmetrics.png)
+![Best Threshold](bestthreshold.png)
+## How to use
+```python
+import torch
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+KModel = "LikoKIko/OpenCensor-Hebrew"
+KCutoff = 0.29 # best threshold from training
+KMaxLen = 256 # number of tokens (not characters)
+tokenizer = AutoTokenizer.from_pretrained(KModel)
+model = AutoModelForSequenceClassification.from_pretrained(KModel, num_labels=1).eval()
+text = "some hebrew text here"
+inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=KMaxLen)
+with torch.inference_mode():
+  score = torch.sigmoid(model(**inputs).logits).item()
+KHasProfanity = int(score >= KCutoff)
+print({"score": round(score, 4), "KHasProfanity": KHasProfanity})
+```
+Note: If the text is very long, it is cut at `KMaxLen` tokens.
+## About this model
+- Base: `onlplab/alephbert-base`
+- Task: binary classification (clean / profanity)
+- Language: Hebrew
+- Max length: 256 tokens
+- Training (this run):
+  - Batch size: 32
+  - Epochs: 10
+  - Learning rate: 0.000015
+  - Loss: binary cross-entropy with logits (`BCEWithLogitsLoss`). We use `pos_weight` so the model pays more attention to the rare class. This helps when the dataset is imbalanced.
+  - Scheduler: linear warmup (10%)
+### Results (this run)
+- Test Accuracy: 0.9740
+- Test Precision: 0.9726
+- Test Recall: 0.9708
+- Test F1: 0.9717
+- Best threshold: 0.29
+## Reproduce (training code)
+This model was trained with a script that:
+- Loads `onlplab/alephbert-base` with `num_labels=1`
+- Tokenizes with `max_length=256` and pads to the max length
+- Trains with AdamW, linear warmup, and mixed precision
+- Tries cutoffs from `0.05` to `0.95` on the validation set and picks the best F1
+- Saves the best checkpoint by validation F1, then reports test metrics
+## License
+CC-BY-SA-4.0
+## How to cite
+```bibtex
+@misc{opencensor-hebrew,
+  title = {OpenCensor-Hebrew: Hebrew Profanity Detection Model},
+  author = {LikoKIko},
+  year = {2025},
+  url = {https://huggingface.co/LikoKIko/OpenCensor-Hebrew}
+}
+```

bestthreshold.png ADDED Viewed

Git LFS Details

SHA256: 88dd499b308a8943e0e614f5f87966e07f3eb341a1f8651d2c8b5ad0feda09d9
Pointer size: 130 Bytes
Size of remote file: 21.8 kB

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "onlplab/alephbert-base",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 52000
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:417aa196c649d1b5677e08d7fffa15e05b621330e55f97a63123df94e036bc8a
+size 503932924

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

testmetrics.png ADDED Viewed

Git LFS Details

SHA256: aee4b9ee2c451475d4b9f203d91a8902642e82a8972d0f89568af6b07810db88
Pointer size: 130 Bytes
Size of remote file: 50.8 kB

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

valf1perepoch.png ADDED Viewed

Git LFS Details

SHA256: b6d3bb050ec8b670650712fb0bcf6738a34431d01c9cb1415464c7fca3c62ea9
Pointer size: 131 Bytes
Size of remote file: 105 kB

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff