Update README.md
Browse files
README.md
CHANGED
|
@@ -19,7 +19,7 @@ D'après les auteurs du [distil-whisper](https://github.com/huggingface/distil-w
|
|
| 19 |
Le distil-whisper étant disponible qu'en anglais, j'ai utilisé à la place le [whisper-large-v3-turbo](https://huggingface.co/openai/whisper-large-v3-turbo) qui est multilingue et fait 809M de paramètres. Le modèle étant légèrement plus grand mais surtout entraîné sur plus d'heures (5M contre 700K pour le distil-whiper) dont du breton et du gallois (qui est proche du breton), mon hypothèse est qu'il faille en réalité moins que les 1 000H avancées par distil-whisper.
|
| 20 |
|
| 21 |
Du fait de la limite de temps de disposition du GPU, j'estime que le modèle a pu voir environ 700H d'audios en breton.
|
| 22 |
-
Le breton ne disposant pas d'autant d'heures d'audio annotées, il s'agit en réalité des données de cette [collection](https://huggingface.co/collections/Bretagne/br-audio-finetuning-asr-en-breton-67a27f1fcf9d856beb5c97b9) vues plusieurs fois par le modèle (= 8 epochs). Ainsi, il est très probable qu'il soit surentraîné sur ces données et puisse avoir du mal à généraliser (un WER de 4,516 sur commonvoice semble aller dans ce sens).
|
| 23 |
Notez que les données ont été regroupées en paquet de 30s avant de les donner au modèle suite à l'observation des auteurs du distil-whisper que donner des séquences de cette taille au modèle améliorerait les résultats.
|
| 24 |
|
| 25 |
|
|
@@ -57,7 +57,7 @@ Réalité : Ha koulz eo cʼhoazh da saveteiñ ar brezhoneg ?
|
|
| 57 |
Comme indiqué, il s'agit d'un premier test pouvant être considéré comme une baseline à améliorer par la suite.
|
| 58 |
Des idées en vracs :
|
| 59 |
- utiliser ce modèle pour pseudo-labeliser des données d'audio brutes libres de droit ne disposant pas de transcription
|
| 60 |
-
- utiliser ce premier point pour avoir des données de 30s "naturelles" plutôt que de devoir aggréger des données de 4-5s
|
| 61 |
- utiliser ce premier point pour essayer d'avoir des données plus variées dans une optique d'avoir le modèle le plus généraliste possible
|
| 62 |
- incorporer des données en gallois dans le jeu d'entraînement (Note : cette [technique](https://www.youtube.com/watch?v=fR42OOy9ROo) est surtout utilisée pour le texte, il faudrait vérifier que cela fonctionne aussi pour l'audio)
|
| 63 |
- créer un modèle de correction pour nettoyer la sortie du modèle d'ASR
|
|
|
|
| 19 |
Le distil-whisper étant disponible qu'en anglais, j'ai utilisé à la place le [whisper-large-v3-turbo](https://huggingface.co/openai/whisper-large-v3-turbo) qui est multilingue et fait 809M de paramètres. Le modèle étant légèrement plus grand mais surtout entraîné sur plus d'heures (5M contre 700K pour le distil-whiper) dont du breton et du gallois (qui est proche du breton), mon hypothèse est qu'il faille en réalité moins que les 1 000H avancées par distil-whisper.
|
| 20 |
|
| 21 |
Du fait de la limite de temps de disposition du GPU, j'estime que le modèle a pu voir environ 700H d'audios en breton.
|
| 22 |
+
Le breton ne disposant pas d'autant d'heures d'audio annotées, il s'agit en réalité des données de cette [collection](https://huggingface.co/collections/Bretagne/br-audio-finetuning-asr-en-breton-67a27f1fcf9d856beb5c97b9) vues plusieurs fois par le modèle (= 8 epochs). Ainsi, il est très probable qu'il soit surentraîné sur ces données et puisse avoir du mal à généraliser (un WER de 4,516 sur commonvoice 22.0 semble aller dans ce sens).
|
| 23 |
Notez que les données ont été regroupées en paquet de 30s avant de les donner au modèle suite à l'observation des auteurs du distil-whisper que donner des séquences de cette taille au modèle améliorerait les résultats.
|
| 24 |
|
| 25 |
|
|
|
|
| 57 |
Comme indiqué, il s'agit d'un premier test pouvant être considéré comme une baseline à améliorer par la suite.
|
| 58 |
Des idées en vracs :
|
| 59 |
- utiliser ce modèle pour pseudo-labeliser des données d'audio brutes libres de droit ne disposant pas de transcription
|
| 60 |
+
- utiliser ce premier point pour avoir des données de 30s "naturelles" plutôt que de devoir aggréger des données de 4-5s (30s successives auront plus d'information que 5/6 phrases non liées entre elles et concaténées artificiellement)
|
| 61 |
- utiliser ce premier point pour essayer d'avoir des données plus variées dans une optique d'avoir le modèle le plus généraliste possible
|
| 62 |
- incorporer des données en gallois dans le jeu d'entraînement (Note : cette [technique](https://www.youtube.com/watch?v=fR42OOy9ROo) est surtout utilisée pour le texte, il faudrait vérifier que cela fonctionne aussi pour l'audio)
|
| 63 |
- créer un modèle de correction pour nettoyer la sortie du modèle d'ASR
|