Spaces:
Sleeping
Sleeping
Dataset Ewe (Végbé)
Ce dossier contient les données pour l'entraînement et le finetune de modèles LLM/SLM sur la langue Ewe (Togo, Ghana, Bénin).
Structure des sous-dossiers
raw/: données brutes collectées (tous formats)clean/: données nettoyées, formatéesannotated/: données enrichies (tags, traductions, métadonnées)final/: corpus prêt à l'entraînement (JSONL, Parquet...)
Bonnes pratiques
- Diversité des sources (oral, écrit, médias, réseaux sociaux...)
- Respect de la vie privée, anonymisation
- Annotation thématique et contextuelle
- Traductions si possible (français, anglais)
Exemple de schéma JSONL
Voir le fichier final/ewe_corpus.schema.json pour la structure détaillée.