HussainKAUST
/

saudi-eou-model

conversational-ai

Model card Files Files and versions

HussainKAUST commited on Dec 13, 2025

Commit

c1121fb

·

verified ·

1 Parent(s): 37b0fb5

Update README.md

Files changed (1) hide show

README.md +47 -15

README.md CHANGED Viewed

@@ -2,34 +2,66 @@
 language: ar
 base_model: faisalq/SaudiBERT
 tags:
-- eou
-- turn-taking
 - arabic
 - saudi
 ---
 # Saudi Arabic End-of-Utterance (EOU) Model
-This is a fine-tuned **SaudiBERT** model for **End-of-Utterance (EOU) detection** in Saudi Arabic conversational text.
 ## Task
-Binary classification:
-- 0 → Incomplete utterance
-- 1 → End of utterance
 ## Training
-- Base model: faisalq/SaudiBERT
-- Data: Saudi Arabic conversational dataset
-- Loss: Focal Loss
-- Metric: F1-score
-## Usage
 ```python
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import torch
-tok = AutoTokenizer.from_pretrained("HussainKAUST/saudi-eou-model")
-mdl = AutoModelForSequenceClassification.from_pretrained("HussainKAUST/saudi-eou-model")
-x = tok("ابي احجز موعد بس ...", return_tensors="pt")
-p = torch.sigmoid(mdl(**x).logits).item()

 language: ar
 base_model: faisalq/SaudiBERT
 tags:
 - arabic
 - saudi
+- eou
+- turn-taking
+- conversational-ai
+license: mit
 ---
 # Saudi Arabic End-of-Utterance (EOU) Model
+This model detects **End-of-Utterance (EOU)** events in **Saudi Arabic conversational text**.
+It outputs the probability that a speaker has **finished their turn**, enabling natural turn-taking in real-time voice agents (e.g., LiveKit).
+---
 ## Task
+Binary classification (probability output):
+- **0** → Incomplete utterance (speaker likely to continue)
+- **1** → Complete utterance (end of turn)
+---
+## Model Details
+- **Base model:** `faisalq/SaudiBERT`
+- **Architecture:** BERT Sequence Classification
+- **Output:** Single probability (sigmoid)
+- **Dialect focus:** Saudi Arabic (ar-SA)
+---
 ## Training
+- **Dataset:** Saudi Arabic conversational EOU dataset
+  https://huggingface.co/datasets/HussainKAUST/saudi-eou-dataset
+- **Data source:** Synthetic Saudi dialogue with natural pauses and incomplete turns
+- **Loss:** Focal Loss (class imbalance handling)
+- **Epochs:** 6
+---
+## Evaluation Results
+- **Validation F1:** ~0.83
+- **Test F1:** ~0.75
+- **Test Accuracy:** ~0.81
+---
+## Usage Example
 ```python
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import torch
+tokenizer = AutoTokenizer.from_pretrained("HussainKAUST/saudi-eou-model")
+model = AutoModelForSequenceClassification.from_pretrained("HussainKAUST/saudi-eou-model")
+text = "ابي احجز موعد بس ..."
+inputs = tokenizer(text, return_tensors="pt")
+with torch.no_grad():
+    prob = torch.sigmoid(model(**inputs).logits).item()
+print("EOU probability:", prob)