MEscriva commited on
Commit
e7fc6ef
·
verified ·
1 Parent(s): 63c80b5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +106 -1
README.md CHANGED
@@ -23,4 +23,109 @@ tags:
23
  - multilingual
24
  - research
25
  - gilbert
26
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23
  - multilingual
24
  - research
25
  - gilbert
26
+ ---
27
+ # Gilbert-FR-Source
28
+
29
+ `Gilbert-FR-Source` est un modèle de transcription automatique de la parole (ASR) en langue française, utilisé comme modèle de base (backbone) pour les travaux de recherche et développement menés autour de la plateforme Gilbert. Il sert de fondation pour l’exploration de nouvelles variantes spécialisées, notamment pour les environnements professionnels, les réunions multi-locuteurs, la parole spontanée, les accents régionaux et la téléphonie large bande ou bas débit.
30
+
31
+ L’objectif principal de ce modèle est de fournir une base stable, performante et reproductible pour l’ensemble des expérimentations subséquentes (fine-tuning, adaptation domaine, optimisation des performances et de la latence).
32
+
33
+ ---
34
+
35
+ ## 1. Objectif et utilisation
36
+
37
+ `Gilbert-FR-Source` constitue le modèle de référence utilisé en interne pour :
38
+
39
+ - l’évaluation comparative de pipelines ASR ;
40
+ - les études d’adaptation domaine en conditions réelles (réunions, visios, environnements bruités) ;
41
+ - les travaux de robustification de la transcription sur des accents ou profils vocaux diversifiés ;
42
+ - la préparation de variantes optimisées (long-form, accents, téléphonie) ;
43
+ - la mise en place de benchmarks et d’outils de mesure de performance interne.
44
+
45
+ Ce modèle n’est pas une version fine-tunée, mais une base de recherche préparée pour la création de futures versions spécialisées.
46
+
47
+ ---
48
+
49
+ ## 2. Performances de référence (benchmarks publics)
50
+
51
+ Les résultats suivants constituent des performances observées sur des jeux de données publics fréquemment utilisés dans l'évaluation des systèmes ASR :
52
+
53
+ | Jeu de données | WER |
54
+ |----------------|-----|
55
+ | MLS (FR) | 3.98 % |
56
+ | Common Voice FR (v13.0) | 7.28 % |
57
+ | VoxPopuli (FR) | 8.91 % |
58
+ | Fleurs (FR) | 4.84 % |
59
+ | African Accented French | 4.20 % |
60
+
61
+ Ces valeurs servent uniquement de référence et constituent un point de départ pour les futures variantes optimisées du modèle (long-form, accents, téléphonie). Elles permettent de situer les performances sur de la lecture, de la parole semi-libre, de la parole politique ou institutionnelle, et des accents variés.
62
+
63
+ ---
64
+
65
+ ## 3. Architecture
66
+
67
+ Le modèle repose sur l’architecture Whisper Large V3.
68
+ Caractéristiques principales :
69
+
70
+ - modèle encodeur-décodeur multilingue ;
71
+ - capacité à modéliser des séquences longues ;
72
+ - pré-entraînement sur de larges corpus multilingues ;
73
+ - forte spécialisation implicite en français observée dans les benchmarks publics ;
74
+ - compatibilité avec les runtimes optimisés (CTranslate2, ONNX Runtime, MLX).
75
+
76
+ Le modèle est particulièrement adapté aux tâches de transcription longue, multilingue et à fort besoin de stabilité syntaxique.
77
+
78
+ ---
79
+
80
+ ## 4. Données et entraînement
81
+
82
+ Ce modèle n’a pas été réentraîné dans cette version : il est utilisé tel que, comme base de recherche.
83
+
84
+ Les futures versions spécialiséées pourront inclure :
85
+
86
+ - du fine-tuning sur des corpus internes de réunions professionnelles ;
87
+ - de l’adaptation domaine pour des contextes spécifiques (enseignement supérieur, santé, administration, finance) ;
88
+ - de la robustification sur conditions difficiles (téléphonie 8 kHz, micros dégradés, bruit ambiant) ;
89
+ - de l’amélioration spécifique sur les accents variés.
90
+
91
+ ---
92
+
93
+ ## 5. Usages recommandés
94
+
95
+ - transcription française standard ;
96
+ - comparaison de pipelines ASR ;
97
+ - prototypage et recherche ;
98
+ - mesure de qualité et mise en place de benchmarks internes ;
99
+ - base pour l’adaptation domaine.
100
+
101
+ ---
102
+
103
+ ## 6. Licence et conformité
104
+
105
+ Ce dépôt contient des fichiers publiés sous licence MIT.
106
+ Conformément à la licence MIT :
107
+
108
+ > Une copie de la licence est fournie dans ce dépôt.
109
+ > Certains fichiers inclus ont été initialement publiés sous licence MIT.
110
+
111
+ Toutes les futures versions fine-tunées ou adaptées seront la propriété de Lexia France.
112
+
113
+ ---
114
+
115
+ ## 7. Versions futures prévues
116
+
117
+ - Gilbert-FR-Longform-v1 (parole longue, réunions et discours)
118
+ - Gilbert-FR-Accents-v1 (accents régionaux et internationaux)
119
+ - Gilbert-FR-Téléphone-v1 (8 kHz, call center, voix compressée)
120
+ - Gilbert-Multilingue-v1 (extension multi-langue)
121
+
122
+ Ces versions feront l’objet d’évaluations systématiques sur les jeux de données publics et internes.
123
+
124
+ ---
125
+
126
+ ## 8. Contact
127
+
128
+ Pour toute question, collaboration ou demande d’évaluation :
129
+ - Site : https://gilbert-assistant.fr
130
+ - Contact : mathis@lexiapro.fr
131
+