Hailay
/

MachineT_TigEng

@@ -5,67 +5,91 @@ language:
 tags:
   - tokenizer
   - machine-translation
 license: mit
 datasets:
-  - nllb  # NLLB training dataset
-  - opus  # OPUS parallel data for testing
 metrics:
   - bleu
 ---
-# English-Tigrinya Tokenizer
-This tokenizer is trained for English to Tigrinya machine translation tasks using the NLLB dataset for training and OPUS parallel data for testing.
-## Model Details
-- **Languages:** English, Tigrinya
-- **Model type:** Tokenizer using SentencePiece
-- **License:** MIT License
-- **Training dataset:** NLLB
-- **Testing dataset:** OPUS parallel data
-- **Evaluation metric:** BLEU score
-## Machine Translation Model: English ↔ Tigrinya
-This model is a fine-tuned machine translation model trained to translate between English and Tigrinya. It was trained on the parallel corpus of English and Tigrinya sentences.
-### Model Overview
-- **Model Type**: MarianMT (Multilingual Transformer Model)
-- **Languages**: English ↔ Tigrinya
-- **Model Architecture**: MarianMT, fine-tuned for English ↔ Tigrinya translation
-- **Training Framework**: Hugging Face Transformers, PyTorch
-### Training Details
 - **Training Dataset**: NLLB Parallel Corpus (English ↔ Tigrinya)
-- **Training Epochs**: 3
 - **Batch Size**: 8
-- **Max Length**: 128 tokens
-- **Learning Rate**: Starts from `1.44e-07` and decays during training
-- **Training Loss**:
-    - Final training loss: 0.4756
-    - Per-epoch loss progress:
-      - Epoch 1: 0.443
-      - Epoch 2: 0.4077
-      - Epoch 3: 0.4379
-- **Gradient Norms**:
-    - Epoch 1: 1.14
-    - Epoch 2: 1.11
-    - Epoch 3: 1.06
-- **Training Time**: 43376.7 seconds (~12 hours)
-- **Training Speed**:
-    - Training samples per second: 96.7
-    - Training steps per second: 12.08
-## Model Usage
-This model can be used for translating English sentences to Tigrinya and vice versa.
-### Example Usage (Python)
 ```python
 from transformers import MarianMTModel, MarianTokenizer
@@ -75,10 +99,24 @@ model_name = "Hailay/MachineT_TigEng"
 model = MarianMTModel.from_pretrained(model_name)
 tokenizer = MarianTokenizer.from_pretrained(model_name)
-# Translate an English sentence to Tigrinya
 english_text = "We must obey the Lord and leave them alone"
-encoded_input = tokenizer(english_text, return_tensors="pt", padding=True, truncation=True)
-translated = model.generate(**encoded_input)
 translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
-print(f"Translated text: {translated_text}")

 tags:
   - tokenizer
   - machine-translation
+  - low-resource
+  - geez-script
 license: mit
 datasets:
+  - nllb        # NLLB training dataset
+  - opus        # OPUS parallel data for testing
 metrics:
   - bleu
 ---
+# English–Tigrinya Machine Translation & Tokenizer
+### 📌 Conference
+Accepted at the **3rd International Conference on Foundation and Large Language Models (FLLM2025)**
+📍 25–28 November 2025 | Vienna, Austria
+**Paper Title**: *Low-Resource English–Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks*
+---
+## 📝 Model Summary
+This repository provides a **custom tokenizer** and a **fine-tuned MarianMT model** for **English ↔ Tigrinya machine translation**.
+It leverages the NLLB dataset for training and OPUS parallel corpora for testing and evaluation, with BLEU used as the primary metric.
+- **Languages:** English (eng), Tigrinya (tig)
+- **Tokenizer:** SentencePiece, customized for Geez-script representation
+- **Model:** MarianMT (multilingual transformer) fine-tuned for English–Tigrinya translation
+- **License:** MIT
+---
+## 🔍 Model Details
+### Tokenizer
+- **Type**: SentencePiece-based subword tokenizer
+- **Purpose**: Handles Geez-script specific tokenization for Tigrinya
+- **Training Data**: NLLB English–Tigrinya subset
+- **Evaluation Data**: OPUS parallel corpus
+### Translation Model
+- **Base Model**: MarianMT
+- **Frameworks**: Hugging Face Transformers, PyTorch
+- **Task**: Bidirectional English ↔ Tigrinya MT
+---
+## ⚙️ Training Details
 - **Training Dataset**: NLLB Parallel Corpus (English ↔ Tigrinya)
+- **Testing Dataset**: OPUS Parallel Corpus
+- **Epochs**: 3
 - **Batch Size**: 8
+- **Max Sequence Length**: 128 tokens
+- **Learning Rate**: `1.44e-07` with decay
+**Training Loss**
+- Epoch 1: 0.443
+- Epoch 2: 0.4077
+- Epoch 3: 0.4379
+- Final Loss: 0.4756
+**Gradient Norms**
+- Epoch 1: 1.14
+- Epoch 2: 1.11
+- Epoch 3: 1.06
+**Performance**
+- Training Time: ~12 hours (43,376.7s)
+- Speed: 96.7 samples/sec | 12.08 steps/sec
+---
+## 📊 Evaluation
+- **Metric**: BLEU score
+- **Evaluation Dataset**: OPUS parallel English–Tigrinya
+---
+## 🚀 Usage
+This model can be directly used for **English → Tigrinya** and **Tigrinya → English** translation.
+### Example (Python)
 ```python
 from transformers import MarianMTModel, MarianTokenizer
 model = MarianMTModel.from_pretrained(model_name)
 tokenizer = MarianTokenizer.from_pretrained(model_name)
+# Translate English → Tigrinya
 english_text = "We must obey the Lord and leave them alone"
+inputs = tokenizer(english_text, return_tensors="pt", padding=True, truncation=True)
+translated = model.generate(**inputs)
 translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
+print("Translated text:", translated_text)
+##  📌Citation
+If you use this model or tokenizer in your work, please cite:
+@inproceedings{hailay2025lowres,
+  title     = {Low-Resource English–Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks},
+  author    = {Hailay Kidu and collaborators},
+  booktitle = {Proceedings of the 3rd International Conference on Foundation and Large Language Models (FLLM2025)},
+  year      = {2025},
+  location  = {Vienna, Austria}
+}