darthvader256
/

simitech-aml-afrinllb-translator

anti-money-laundering

Model card Files Files and versions

darthvader256 commited on 15 days ago

Commit

e84af39

·

verified ·

1 Parent(s): d363453

chore: update model card

Files changed (1) hide show

README.md +54 -0

README.md ADDED Viewed

	@@ -0,0 +1,54 @@

+---
+language:
+  - lug
+  - sw
+  - en
+license: other
+tags:
+  - translation
+  - anti-money-laundering
+  - luganda
+  - swahili
+  - nllb
+  - east-africa
+base_model: facebook/nllb-200-distilled-600M
+datasets:
+  - darthvader256/Simivalleyaml
+---
+# Simitech AML AfriNLLB Translator
+Fine-tuned from `facebook/nllb-200-distilled-600M` on East African AML transaction narratives.
+Specialized for translating Luganda (`lug_Latn`) and Swahili (`swh_Latn`) mobile money
+transaction descriptions to English for downstream AML classification.
+## Why a specialized translator?
+General NLLB models miss domain-specific AML vocabulary:
+- Mobile money agent terminology (float, airtime, USSD codes)
+- Ugandan colloquialisms used in social engineering scams
+- Financial crime typology phrases specific to EAC corridor
+## Usage
+```python
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+model_id = "darthvader256/simitech-aml-afrinllb-translator"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
+tokenizer.src_lang = "lug_Latn"
+inputs = tokenizer("nkusaba ssente z'omusawo omukisa", return_tensors="pt")
+output = model.generate(
+    **inputs,
+    forced_bos_token_id=tokenizer.lang_code_to_id["eng_Latn"],
+    max_new_tokens=128,
+)
+print(tokenizer.decode(output[0], skip_special_tokens=True))
+# → "I am asking for doctor money, please"
+```
+## Source
+`decision-plane/app/training/nlp_finetune.py` — `AfriNLLBTranslator` class