Bretagne
/

whisper-large-v3-turbo-audio_breton-transcription_breton

@@ -19,7 +19,7 @@ D'après les auteurs du [distil-whisper](https://github.com/huggingface/distil-w
 Le distil-whisper étant disponible qu'en anglais, j'ai utilisé à la place le [whisper-large-v3-turbo](https://huggingface.co/openai/whisper-large-v3-turbo) qui est multilingue et fait 809M de paramètres. Le modèle étant légèrement plus grand mais surtout entraîné sur plus d'heures (5M contre 700K pour le distil-whiper) dont du breton et du gallois (qui est proche du breton), mon hypothèse est qu'il faille en réalité moins que les 1 000H avancées par distil-whisper.
 Du fait de la limite de temps de disposition du GPU, j'estime que le modèle a pu voir environ 700H d'audios en breton.
-Le breton ne disposant pas d'autant d'heures d'audio annotées, il s'agit en réalité des données de cette [collection](https://huggingface.co/collections/Bretagne/br-audio-finetuning-asr-en-breton-67a27f1fcf9d856beb5c97b9) vues plusieurs fois par le modèle (= 8 epochs). Ainsi, il est très probable qu'il soit surentraîné sur ces données et puisse avoir du mal à généraliser (un WER de 4,516 sur commonvoice semble aller dans ce sens).
 Notez que les données ont été regroupées en paquet de 30s avant de les donner au modèle suite à l'observation des auteurs du distil-whisper que donner des séquences de cette taille au modèle améliorerait les résultats.
@@ -57,7 +57,7 @@ Réalité : Ha koulz eo cʼhoazh da saveteiñ ar brezhoneg ?
 Comme indiqué, il s'agit d'un premier test pouvant être considéré comme une baseline à améliorer par la suite.
 Des idées en vracs :
 - utiliser ce modèle pour pseudo-labeliser des données d'audio brutes libres de droit ne disposant pas de transcription
-- utiliser ce premier point pour avoir des données de 30s "naturelles" plutôt que de devoir aggréger des données de 4-5s
 - utiliser ce premier point pour essayer d'avoir des données plus variées dans une optique d'avoir le modèle le plus généraliste possible
 - incorporer des données en gallois dans le jeu d'entraînement (Note : cette [technique](https://www.youtube.com/watch?v=fR42OOy9ROo) est surtout utilisée pour le texte, il faudrait vérifier que cela fonctionne aussi pour l'audio)
 - créer un modèle de correction pour nettoyer la sortie du modèle d'ASR

 Le distil-whisper étant disponible qu'en anglais, j'ai utilisé à la place le [whisper-large-v3-turbo](https://huggingface.co/openai/whisper-large-v3-turbo) qui est multilingue et fait 809M de paramètres. Le modèle étant légèrement plus grand mais surtout entraîné sur plus d'heures (5M contre 700K pour le distil-whiper) dont du breton et du gallois (qui est proche du breton), mon hypothèse est qu'il faille en réalité moins que les 1 000H avancées par distil-whisper.
 Du fait de la limite de temps de disposition du GPU, j'estime que le modèle a pu voir environ 700H d'audios en breton.
+Le breton ne disposant pas d'autant d'heures d'audio annotées, il s'agit en réalité des données de cette [collection](https://huggingface.co/collections/Bretagne/br-audio-finetuning-asr-en-breton-67a27f1fcf9d856beb5c97b9) vues plusieurs fois par le modèle (= 8 epochs). Ainsi, il est très probable qu'il soit surentraîné sur ces données et puisse avoir du mal à généraliser (un WER de 4,516 sur commonvoice 22.0 semble aller dans ce sens).
 Notez que les données ont été regroupées en paquet de 30s avant de les donner au modèle suite à l'observation des auteurs du distil-whisper que donner des séquences de cette taille au modèle améliorerait les résultats.
 Comme indiqué, il s'agit d'un premier test pouvant être considéré comme une baseline à améliorer par la suite.
 Des idées en vracs :
 - utiliser ce modèle pour pseudo-labeliser des données d'audio brutes libres de droit ne disposant pas de transcription
+- utiliser ce premier point pour avoir des données de 30s "naturelles" plutôt que de devoir aggréger des données de 4-5s (30s successives auront plus d'information que 5/6 phrases non liées entre elles et concaténées artificiellement)
 - utiliser ce premier point pour essayer d'avoir des données plus variées dans une optique d'avoir le modèle le plus généraliste possible
 - incorporer des données en gallois dans le jeu d'entraînement (Note : cette [technique](https://www.youtube.com/watch?v=fR42OOy9ROo) est surtout utilisée pour le texte, il faudrait vérifier que cela fonctionne aussi pour l'audio)
 - créer un modèle de correction pour nettoyer la sortie du modèle d'ASR