Instructions to use almanach/camembert-base with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use almanach/camembert-base with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("fill-mask", model="almanach/camembert-base")# Load model directly from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("almanach/camembert-base") model = AutoModelForMaskedLM.from_pretrained("almanach/camembert-base") - Inference
- Notebooks
- Google Colab
- Kaggle
Implémentation du tokenizer en java
#9
by Florian9M - opened
J'aimerais utiliser le tokenizer en Java mais personne ne la encore implémenté.
Serait-il possible d'avoir les merges, le vocab et la base_vocab pour pouvoir l'implémenter ?
Le tokenizer de CamemBERT est un modèl SentencePiece Unigram, donc il y a pas des merges. Vous pouvez trouver le vocab dans le fichier tokenizer.json ou sentencepiece.bpe.model (https://huggingface.co/almanach/camembert-base/tree/main)
wissamantoun changed discussion status to closed