MEscriva commited on
Commit
69442e3
·
verified ·
1 Parent(s): e7fc6ef

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +118 -54
README.md CHANGED
@@ -24,108 +24,172 @@ tags:
24
  - research
25
  - gilbert
26
  ---
27
- # Gilbert-FR-Source
28
 
29
- `Gilbert-FR-Source` est un modèle de transcription automatique de la parole (ASR) en langue française, utilisé comme modèle de base (backbone) pour les travaux de recherche et développement menés autour de la plateforme Gilbert. Il sert de fondation pour l’exploration de nouvelles variantes spécialisées, notamment pour les environnements professionnels, les réunions multi-locuteurs, la parole spontanée, les accents régionaux et la téléphonie large bande ou bas débit.
30
 
31
- L’objectif principal de ce modèle est de fournir une base stable, performante et reproductible pour l’ensemble des expérimentations subséquentes (fine-tuning, adaptation domaine, optimisation des performances et de la latence).
 
 
 
 
 
 
 
 
 
32
 
33
  ---
34
 
35
- ## 1. Objectif et utilisation
36
 
37
- `Gilbert-FR-Source` constitue le modèle de référence utilisé en interne pour :
38
 
39
- - l’évaluation comparative de pipelines ASR ;
40
- - les études d’adaptation domaine en conditions réelles (réunions, visios, environnements bruités) ;
41
- - les travaux de robustification de la transcription sur des accents ou profils vocaux diversifiés ;
42
- - la préparation de variantes optimisées (long-form, accents, téléphonie) ;
43
- - la mise en place de benchmarks et d’outils de mesure de performance interne.
44
 
45
- Ce modèle n’est pas une version fine-tunée, mais une base de recherche préparée pour la création de futures versions spécialisées.
 
46
 
47
  ---
48
 
49
- ## 2. Performances de référence (benchmarks publics)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
50
 
51
- Les résultats suivants constituent des performances observées sur des jeux de données publics fréquemment utilisés dans l'évaluation des systèmes ASR :
52
 
53
- | Jeu de données | WER |
54
- |----------------|-----|
 
 
55
  | MLS (FR) | 3.98 % |
56
  | Common Voice FR (v13.0) | 7.28 % |
57
  | VoxPopuli (FR) | 8.91 % |
58
  | Fleurs (FR) | 4.84 % |
59
  | African Accented French | 4.20 % |
60
 
61
- Ces valeurs servent uniquement de référence et constituent un point de départ pour les futures variantes optimisées du modèle (long-form, accents, téléphonie). Elles permettent de situer les performances sur de la lecture, de la parole semi-libre, de la parole politique ou institutionnelle, et des accents variés.
 
 
 
 
 
 
 
62
 
63
  ---
64
 
65
- ## 3. Architecture
 
 
66
 
67
- Le modèle repose sur l’architecture Whisper Large V3.
68
- Caractéristiques principales :
 
 
 
69
 
70
- - modèle encodeur-décodeur multilingue ;
71
- - capacité à modéliser des séquences longues ;
72
- - pré-entraînement sur de larges corpus multilingues ;
73
- - forte spécialisation implicite en français observée dans les benchmarks publics ;
74
- - compatibilité avec les runtimes optimisés (CTranslate2, ONNX Runtime, MLX).
75
 
76
- Le modèle est particulièrement adapté aux tâches de transcription longue, multilingue et à fort besoin de stabilité syntaxique.
 
 
 
 
77
 
78
  ---
79
 
80
- ## 4. Données et entraînement
81
 
82
- Ce modèle n’a pas été réentraîné dans cette version : il est utilisé tel que, comme base de recherche.
83
 
84
- Les futures versions spécialiséées pourront inclure :
 
 
 
 
85
 
86
- - du fine-tuning sur des corpus internes de réunions professionnelles ;
87
- - de l’adaptation domaine pour des contextes spécifiques (enseignement supérieur, santé, administration, finance) ;
88
- - de la robustification sur conditions difficiles (téléphonie 8 kHz, micros dégradés, bruit ambiant) ;
89
- - de l’amélioration spécifique sur les accents variés.
 
 
 
90
 
91
  ---
92
 
93
- ## 5. Usages recommandés
 
 
94
 
95
- - transcription française standard ;
96
- - comparaison de pipelines ASR ;
97
- - prototypage et recherche ;
98
- - mesure de qualité et mise en place de benchmarks internes ;
99
- - base pour l’adaptation domaine.
 
 
100
 
101
  ---
102
 
103
- ## 6. Licence et conformité
 
 
 
 
 
104
 
105
- Ce dépôt contient des fichiers publiés sous licence MIT.
106
- Conformément à la licence MIT :
107
 
108
- > Une copie de la licence est fournie dans ce dépôt.
109
- > Certains fichiers inclus ont été initialement publiés sous licence MIT.
110
 
111
- Toutes les futures versions fine-tunées ou adaptées seront la propriété de Lexia France.
 
 
 
112
 
113
  ---
114
 
115
- ## 7. Versions futures prévues
 
 
116
 
117
- - Gilbert-FR-Longform-v1 (parole longue, réunions et discours)
118
- - Gilbert-FR-Accents-v1 (accents régionaux et internationaux)
119
- - Gilbert-FR-Téléphone-v1 (8 kHz, call center, voix compressée)
120
- - Gilbert-Multilingue-v1 (extension multi-langue)
121
 
122
- Ces versions feront l’objet d’évaluations systématiques sur les jeux de données publics et internes.
123
 
124
  ---
125
 
126
- ## 8. Contact
127
 
128
- Pour toute question, collaboration ou demande d’évaluation :
129
- - Site : https://gilbert-assistant.fr
130
- - Contact : mathis@lexiapro.fr
131
 
 
 
 
24
  - research
25
  - gilbert
26
  ---
 
27
 
28
+ # Gilbert-FR-Source Research Baseline for French Automatic Speech Recognition
29
 
30
+ `Gilbert-FR-Source` is a French automatic speech recognition (ASR) model used as the **research foundation** for the Gilbert project.
31
+ It is designed as an internal scientific baseline enabling controlled experimentation, reproducible evaluation, and rigorous comparison across ASR architectures, datasets, and adaptation methods.
32
+
33
+ This model is not a fine-tuned derivative, but a **curated research anchor** used to support systematic studies in:
34
+
35
+ - domain adaptation,
36
+ - robustness to spontaneous and long-form speech,
37
+ - accented and low-resource linguistic profiles,
38
+ - telephony and bandwidth-constrained speech,
39
+ - multi-speaker and meeting transcription.
40
 
41
  ---
42
 
43
+ ## 1. Research Motivation
44
 
45
+ The Gilbert project aims to build highly specialized ASR systems optimized for:
46
 
47
+ - professional meeting transcription (hybrid/remote),
48
+ - long-form multi-speaker discourse,
49
+ - institutional environments (education, public sector),
50
+ - constrained audio conditions (telephony, VoIP, low SNR),
51
+ - sociolinguistic diversity (African, Canadian, Belgian and other French accents).
52
 
53
+ While Whisper Large V3 provides strong baseline performance, its behavior under domain shifts (spontaneous interactions, overlapping speech, degraded microphones) requires systematic study.
54
+ `Gilbert-FR-Source` provides the **frozen starting point** for this line of research, ensuring controlled comparisons between experiments.
55
 
56
  ---
57
 
58
+ ## 2. Scientific Goals and Research Questions
59
+
60
+ This model is used to answer a series of research questions:
61
+
62
+ ### **Q1. Long-form modeling**
63
+ How does Whisper-L3 behave on meetings lasting 30–120 minutes, with natural topic shifts, interruptions, and pragmatic markers?
64
+
65
+ ### **Q2. Accent robustness**
66
+ Which classes of French accents induce the strongest WER degradation?
67
+ How does robustness vary across FLEURS, African French, and Common Voice subsets?
68
+
69
+ ### **Q3. Telephony adaptation**
70
+ What is the degradation curve when downsampling to 16 kHz / 8 kHz / μ-law compressed audio?
71
+
72
+ ### **Q4. Domain adaptation efficiency**
73
+ What is the marginal gain of targeted fine-tuning on professional meeting datasets (education, administration, healthcare)?
74
+
75
+ ### **Q5. Multilingual side-effects**
76
+ To what extent does French fine-tuning affect cross-lingual generalization?
77
+
78
+ These research axes structure the development of future specialized Gilbert models.
79
+
80
+ ---
81
 
82
+ ## 3. Benchmark Reference Results
83
 
84
+ The following WER scores originate from established open benchmarks and serve as a *reference baseline* for future experiments:
85
+
86
+ | Dataset | WER |
87
+ |--------|-----|
88
  | MLS (FR) | 3.98 % |
89
  | Common Voice FR (v13.0) | 7.28 % |
90
  | VoxPopuli (FR) | 8.91 % |
91
  | Fleurs (FR) | 4.84 % |
92
  | African Accented French | 4.20 % |
93
 
94
+ These results provide **upper bounds** before targeted fine-tuning.
95
+ Future Gilbert variants will be evaluated using:
96
+
97
+ - internal meeting datasets,
98
+ - domain-specific corpora (administration, higher education, healthcare),
99
+ - accented speech corpora,
100
+ - telephony datasets,
101
+ - long-form evaluation methods (> 1 hour audio).
102
 
103
  ---
104
 
105
+ ## 4. Architecture
106
+
107
+ The model is based on the **Whisper Large V3** encoder–decoder architecture, offering:
108
 
109
+ - large multilingual pretraining,
110
+ - long-context modeling capacity,
111
+ - robust cross-lingual alignment,
112
+ - stable decoding for long outputs,
113
+ - strong zero-shot performance on French.
114
 
115
+ It is compatible with:
 
 
 
 
116
 
117
+ - Hugging Face Transformers,
118
+ - CTranslate2,
119
+ - ONNX Runtime,
120
+ - MLX (Apple Silicon),
121
+ - quantization-based acceleration pipelines.
122
 
123
  ---
124
 
125
+ ## 5. Methodology and Reproducibility
126
 
127
+ `Gilbert-FR-Source` is used in strict research settings emphasizing:
128
 
129
+ ### **Reproducible training protocols**
130
+ - frozen weights for baseline comparison,
131
+ - controlled hyperparameter schedules,
132
+ - consistent evaluation datasets,
133
+ - deterministic decoding configurations.
134
 
135
+ ### **Evaluation methodology**
136
+ WER is computed with standard normalization (lowercasing, punctuation removal).
137
+ More advanced metrics (diarization error rate, long-context drift) are included in internal research pipelines.
138
+
139
+ ### **Versioning policy**
140
+ This repository represents version `0.1` of the research baseline.
141
+ All future fine-tuned models will explicitly reference this version for traceability.
142
 
143
  ---
144
 
145
+ ## 6. Limitations
146
+
147
+ This baseline inherits the known limitations of Whisper and of the underlying datasets:
148
 
149
+ - sensitivity to overlapping speech,
150
+ - occasional hallucinations in long-form decoding,
151
+ - domain shift on spontaneous dialogue,
152
+ - potential biases related to accent distribution in training data,
153
+ - suboptimal performance in telephony bandwidth.
154
+
155
+ Understanding and quantifying these limitations is one of the core objectives of the Gilbert research roadmap.
156
 
157
  ---
158
 
159
+ ## 7. Future Work (Planned Research Directions)
160
+
161
+ The following models will be developed as independent checkpoints:
162
+
163
+ - **Gilbert-FR-Longform-v1**
164
+ Long meetings, multi-speaker interaction, discourse-level context stability.
165
 
166
+ - **Gilbert-FR-Accents-v1**
167
+ Robustness to regional and international French accents.
168
 
169
+ - **Gilbert-FR-Telephone-v1**
170
+ Optimized for 8 kHz VoIP/call-center speech.
171
 
172
+ - **Gilbert-Multilingual-v1**
173
+ Extended cross-lingual performance with optimized French anchors.
174
+
175
+ Each model will include detailed evaluation reports and will adhere to research reproducibility standards.
176
 
177
  ---
178
 
179
+ ## 8. License
180
+
181
+ This repository includes files distributed under the MIT License.
182
 
183
+ > A copy of the MIT License is included.
184
+ > Some files were originally released under MIT.
 
 
185
 
186
+ All future Gilbert models built on top of this baseline are the exclusive property of Lexia France.
187
 
188
  ---
189
 
190
+ ## 9. Contact
191
 
192
+ For research collaboration, evaluation access, or technical inquiries:
 
 
193
 
194
+ - Website: https://gilbert-assistant.fr
195
+ - Email: mathis@lexiapro.fr