CHILDES IPA Tokenizers

Tokenizers for each language in IPA-CHILDES used to train cross-lingual phoneme LLMs in our papers:

IPA-CHILDES & G2P+: Feature-Rich Resources for Cross-Lingual Phonology and Phonemic Language Modeling
BabyLM's First Words: Word Segmentation as a Phonological Probing Task

Scripts for creating the tokenizers can be found here. Scripts for training models using these tokenizers can be found here.

To load a tokenizer:

from transformers import AutoTokenizer
dutch_tokenizer = AutoTokenizer.from_pretrained('phonemetransformers/ipa-childes-tokenizers', subfolder='Dutch')

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train phonemetransformers/ipa-childes-tokenizers

Collections including phonemetransformers/ipa-childes-tokenizers

IPA CHILDES

Collection

The IPA-CHILDES dataset along with the models and tokenizers used for phoneme-based language modeling for the 31 languages in CHILDES. • 5 items • Updated Apr 8, 2025

BabyLM's First Words

Collection

Models trained on IPA-CHILDES and evaluated for phonological knowledge using the word segmentation task, linked to child language acquisition. • 7 items • Updated Apr 8, 2025

Papers for phonemetransformers/ipa-childes-tokenizers

BabyLM's First Words: Word Segmentation as a Phonological Probing Task

Paper • 2504.03338 • Published Apr 4, 2025

IPA-CHILDES & G2P+: Feature-Rich Resources for Cross-Lingual Phonology and Phonemic Language Modeling

Paper • 2504.03036 • Published Apr 3, 2025