Scrap-Dji / datasets /ewe /README.md
joel
Initial deployment: Scrap-Dji with API
dfdddb1

Dataset Ewe (Végbé)

Ce dossier contient les données pour l'entraînement et le finetune de modèles LLM/SLM sur la langue Ewe (Togo, Ghana, Bénin).

Structure des sous-dossiers

  • raw/ : données brutes collectées (tous formats)
  • clean/ : données nettoyées, formatées
  • annotated/ : données enrichies (tags, traductions, métadonnées)
  • final/ : corpus prêt à l'entraînement (JSONL, Parquet...)

Bonnes pratiques

  • Diversité des sources (oral, écrit, médias, réseaux sociaux...)
  • Respect de la vie privée, anonymisation
  • Annotation thématique et contextuelle
  • Traductions si possible (français, anglais)

Exemple de schéma JSONL

Voir le fichier final/ewe_corpus.schema.json pour la structure détaillée.