Implémentation du tokenizer en java

by Florian9M - opened May 3, 2024

May 3, 2024

J'aimerais utiliser le tokenizer en Java mais personne ne la encore implémenté.
Serait-il possible d'avoir les merges, le vocab et la base_vocab pour pouvoir l'implémenter ?

wissamantoun

ALMAnaCH (Inria) org May 3, 2024

Le tokenizer de CamemBERT est un modèl SentencePiece Unigram, donc il y a pas des merges. Vous pouvez trouver le vocab dans le fichier tokenizer.json ou sentencepiece.bpe.model (https://huggingface.co/almanach/camembert-base/tree/main)

wissamantoun changed discussion status to closed Jun 23, 2025

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment