## 🔁 PROJET EN COURS DE DEVELOPPEMENT Ce pipeline permet de traiter automatiquement les interactions des clients d’un centre d’appel en **Darija**, que ce soit en **texte (lettres latines)** ou en **audio (voix parlĂ©e)**. Il combine des modĂšles de reconnaissance vocale, de traduction, de classification, de gĂ©nĂ©ration intelligente de rĂ©ponse, et de recherche d'information. --- ### 1. **EntrĂ©e utilisateur** - Le client peut envoyer : - Un **message texte** en Darija (lettres latines) - Un **message vocal** en Darija parlĂ© --- ### 2. **Transcription audio (le cas Ă©chĂ©ant)** - Si le message est un **audio**, il est transcrit automatiquement en texte Darija grĂące au modĂšle : - **`asr-wav2vec2-dvoice-darija`** - Architecture : `wav2vec 2.0 + CTC/Attention` - Performance : - **WER (Word Error Rate)** : 18.28% (paaaas maaaal) - **CER (Character Error Rate)** : 5.85%(granularitĂ© mzyana des caracteres) --- ### 3. **Traduction Darija → Anglais** - Le texte en Darija (issu d’un audio ou d’un message texte) est **traduit en anglais** via : - **`lachkarsalim/LatinDarija_English-v2`** --- ### 4. **Classification du besoin client (Zero-Shot)== je peux laisser tomber cette partie** - Le texte traduit en anglais est classifiĂ© selon une liste de catĂ©gories mĂ©tiers : - Exemples de catĂ©gories : - Billing Problem - Technical Support - Refund Request - Subscription Cancellation - ModĂšle utilisĂ© : **`typeform/distilbert-base-uncased-mnli` or better** - Type : zero-shot classification → pas besoin d’entraĂźner le modĂšle sur nos propres donnĂ©es --- ### 5. **Recherche d'information (RAG – Retrieval-Augmented Generation)** - En fonction du label prĂ©dit, le systĂšme effectue une **recherche d'information intelligente** dans : - une **base documentaire FAQ** - des **guides internes** - ou des **scripts de support technique** - Le contenu extrait sert Ă  **nourrir** le modĂšle gĂ©nĂ©ratif dans l’étape suivante - Faut chercher comment collecter ses bases donnĂ©es/ synthĂ©thique --- ### 6. **GĂ©nĂ©ration de la rĂ©ponse intelligente** - La rĂ©ponse est **gĂ©nĂ©rĂ©e de façon contextualisĂ©e** par un LLM (type GPT 

) : - Comprend la situation client - Pose Ă©ventuellement des **questions supplĂ©mentaires** - Donne des **instructions prĂ©cises** (ex : rĂ©initialiser le modem, vĂ©rifier la box
) - Avantage : la rĂ©ponse est **adaptĂ©e et non mĂ©canique** --- ### 7. **Traduction de la rĂ©ponse (Anglais → Darija)** - La rĂ©ponse finale est **traduite en Darija lettres latines** pour que le client la comprenne facilement. - Ou bien la rĂ©ponse aura un fallback en francais ou en arabe normale --- ### 8. **Sortie finale** - Le client reçoit une rĂ©ponse : - claire - personnalisĂ©e - dans sa **langue et alphabet** --- ### 🔧 Technologies utilisĂ©es | Étape | ModĂšle / Composant | | --- | --- | | ASR Darija | `asr-wav2vec2-dvoice-darija` | | Traduction | `lachkarsalim/LatinDarija_English-v2` | | Classification | `typeform/distilbert-base-uncased-mnli` | | RAG | Base documentaire + vecteurs | | GĂ©nĂ©ration | GPT-like LLM | | DĂ©ploiement | FastAPI + Docker/Hugging Face Spaces |