Spaces:

jojonocode
/

Scrap-Dji

Sleeping

App Files Files Community

Scrap-Dji / datasets /ewe /README.md

joel

Initial deployment: Scrap-Dji with API

dfdddb1 2 months ago

|

history blame contribute delete

751 Bytes

Dataset Ewe (Végbé)

Ce dossier contient les données pour l'entraînement et le finetune de modèles LLM/SLM sur la langue Ewe (Togo, Ghana, Bénin).

Structure des sous-dossiers

raw/ : données brutes collectées (tous formats)
clean/ : données nettoyées, formatées
annotated/ : données enrichies (tags, traductions, métadonnées)
final/ : corpus prêt à l'entraînement (JSONL, Parquet...)

Bonnes pratiques

Diversité des sources (oral, écrit, médias, réseaux sociaux...)
Respect de la vie privée, anonymisation
Annotation thématique et contextuelle
Traductions si possible (français, anglais)

Exemple de schéma JSONL

Voir le fichier final/ewe_corpus.schema.json pour la structure détaillée.