ilyyeees
/

byt5-leetspeak-decoder

text2text-generation

Eval Results (legacy)

Model card Files Files and versions

Metrics Training metrics Community

ilyyeees commited on about 1 month ago

Commit

cb5926c

·

1 Parent(s): c35eb56

upgrade to v2 - v1 in v1-legacy branch

Files changed (2) hide show

README.md +57 -10
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,21 +1,68 @@
 ---
-language: en
 tags:
-- byt5
 - leetspeak
-- decoder
 - text2text-generation
-license: apache-2.0
 pipeline_tag: translation
 ---
-# ByT5 Leetspeak Decoder
-This is a fine-tuned **ByT5** model trained to decode "Leetspeak" (e.g., `h3110 w0r1d`) back into standard English (`hello world`).
-**Model Accuracy:** ~98% on general sentence structures.
-### Performance:
-- **BLEU:** 94.8
-- **CER:** 0.7%

 ---
+license: mit
+language:
+- en
 tags:
 - leetspeak
 - text2text-generation
+- byt5
+- decoder
+- translation
+datasets:
+- wikitext
+- samsum
 pipeline_tag: translation
 ---
+# ByT5 Leetspeak Decoder V2
+**Translates leetspeak, internet slang, and gaming abbreviations back to clean English.**
+Built on `google/byt5-base`. V2 trained on real Reddit comments for improved slang handling.
+## Performance
+| Metric | V1 | V2 |
+|--------|-----|-----|
+| Accuracy | 71% | **85%** |
+| Training Data | WikiText (synthetic) | Reddit (real) |
+## Usage
+```python
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+model = AutoModelForSeq2SeqLM.from_pretrained("ilyyeees/byt5-leetspeak-decoder-v2")
+tokenizer = AutoTokenizer.from_pretrained("ilyyeees/byt5-leetspeak-decoder-v2")
+def translate(text):
+    inputs = tokenizer(text, return_tensors="pt")
+    outputs = model.generate(**inputs, max_length=256)
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# Examples
+print(translate("idk wh4t 2 d0 tbh"))  # I don't know what to do to be honest.
+print(translate("c u l8r m8"))         # See you later mate.
+print(translate("brb in 10"))          # be right back in 10
+print(translate("g2g l8r m8"))         # got to go later mate
+print(translate("1 h4v3 2 c4ts"))      # I have 2 cats
+```
+## What It Handles
+- **Leetspeak**: `h3ll0 w0rld` → `hello world`
+- **Slang**: `tbh`, `idk`, `rn`, `ngl`, `afk`
+- **Gaming**: `gg wp`, `brb`, `g2g`, `1v1`
+- **Numbers**: Preserves real numbers (`2 cats` stays `2 cats`)
+- **Context**: `2 late` → `too late` vs `2 cats` → `2 cats`
+## Training
+- **Base**: `google/byt5-base` (580M params)
+- **V1**: WikiText + SAMSum + synthetic corruption
+- **V2**: Real Reddit comments (5k) + Qwen 2.5 32B translations + continued training
+## Links
+- [GitHub](https://github.com/ilyyeees/leet-speak-decoder)
+- [V1 Model](https://huggingface.co/ilyyeees/byt5-leetspeak-decoder)

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4049fdf80259c02acb852ddc1d1ed5a1cc2ab28b1001affe0b8c846ffdcd111d
+size 5969