FiLex: Filipino Lexical Normalization

A lexical normalization model for Filipino/Tagalog lexical normalization. Created by fine-tuning Google's ByT5-base model using a custom dataset. Converts informal/noisy Filipino text (e.g. SMS, social media) into its canonical form.

Usage

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import torch

model = AutoModelForSeq2SeqLM.from_pretrained("Angelo25/Filipino-Lexical-Normalization")
tokenizer = AutoTokenizer.from_pretrained("Angelo25/Filipino-Lexical-Normalization")
model.eval()

inputs = tokenizer("Sample Input Text", return_tensors="pt").to(model.device)
output = model.generate(
    **inputs,
    max_new_tokens=inputs["input_ids"].shape[1] + 50,
    num_beams=3,
    early_stopping=True,
    use_cache=True
)
print(tokenizer.decode(output[0], skip_special_tokens=True))

Downloads last month: 77

Safetensors

Model size

0.6B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Angelo25/Filipino-Lexical-Normalization

Base model

google/byt5-base

Finetuned

(52)

this model

Angelo25
/

Filipino-Lexical-Normalization

FiLex: Filipino Lexical Normalization

Usage

Model tree for Angelo25/Filipino-Lexical-Normalization

Space using Angelo25/Filipino-Lexical-Normalization 1