Create README.md
Browse files
README.md
ADDED
|
@@ -0,0 +1,92 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
## 🔁 Pipeline de traitement intelligent des interactions client (texte et audio) – Darija
|
| 2 |
+
|
| 3 |
+
Ce pipeline permet de traiter automatiquement les interactions des clients d’un centre d’appel en **Darija**, que ce soit en **texte (lettres latines)** ou en **audio (voix parlée)**. Il combine des modèles de reconnaissance vocale, de traduction, de classification, de génération intelligente de réponse, et de recherche d'information.
|
| 4 |
+
|
| 5 |
+
---
|
| 6 |
+
|
| 7 |
+
### 1. **Entrée utilisateur**
|
| 8 |
+
|
| 9 |
+
- Le client peut envoyer :
|
| 10 |
+
- Un **message texte** en Darija (lettres latines)
|
| 11 |
+
- Un **message vocal** en Darija parlé
|
| 12 |
+
|
| 13 |
+
---
|
| 14 |
+
|
| 15 |
+
### 2. **Transcription audio (le cas échéant)**
|
| 16 |
+
|
| 17 |
+
- Si le message est un **audio**, il est transcrit automatiquement en texte Darija grâce au modèle :
|
| 18 |
+
- **`asr-wav2vec2-dvoice-darija`**
|
| 19 |
+
- Architecture : `wav2vec 2.0 + CTC/Attention`
|
| 20 |
+
- Performance :
|
| 21 |
+
- **WER (Word Error Rate)** : 18.28% (paaaas maaaal)
|
| 22 |
+
- **CER (Character Error Rate)** : 5.85%(granularité mzyana des caracteres)
|
| 23 |
+
|
| 24 |
+
---
|
| 25 |
+
|
| 26 |
+
### 3. **Traduction Darija → Anglais**
|
| 27 |
+
|
| 28 |
+
- Le texte en Darija (issu d’un audio ou d’un message texte) est **traduit en anglais** via :
|
| 29 |
+
- **`lachkarsalim/LatinDarija_English-v2`**
|
| 30 |
+
|
| 31 |
+
---
|
| 32 |
+
|
| 33 |
+
### 4. **Classification du besoin client (Zero-Shot)== je peux laisser tomber cette partie**
|
| 34 |
+
|
| 35 |
+
- Le texte traduit en anglais est classifié selon une liste de catégories métiers :
|
| 36 |
+
- Exemples de catégories :
|
| 37 |
+
- Billing Problem
|
| 38 |
+
- Technical Support
|
| 39 |
+
- Refund Request
|
| 40 |
+
- Subscription Cancellation
|
| 41 |
+
- Modèle utilisé : **`typeform/distilbert-base-uncased-mnli` or better**
|
| 42 |
+
- Type : zero-shot classification → pas besoin d’entraîner le modèle sur nos propres données
|
| 43 |
+
|
| 44 |
+
---
|
| 45 |
+
|
| 46 |
+
### 5. **Recherche d'information (RAG – Retrieval-Augmented Generation)**
|
| 47 |
+
|
| 48 |
+
- En fonction du label prédit, le système effectue une **recherche d'information intelligente** dans :
|
| 49 |
+
- une **base documentaire FAQ**
|
| 50 |
+
- des **guides internes**
|
| 51 |
+
- ou des **scripts de support technique**
|
| 52 |
+
- Le contenu extrait sert à **nourrir** le modèle génératif dans l’étape suivante
|
| 53 |
+
- Faut chercher comment collecter ses bases données/ synthéthique
|
| 54 |
+
|
| 55 |
+
---
|
| 56 |
+
|
| 57 |
+
### 6. **Génération de la réponse intelligente**
|
| 58 |
+
|
| 59 |
+
- La réponse est **générée de façon contextualisée** par un LLM (type GPT ……) :
|
| 60 |
+
- Comprend la situation client
|
| 61 |
+
- Pose éventuellement des **questions supplémentaires**
|
| 62 |
+
- Donne des **instructions précises** (ex : réinitialiser le modem, vérifier la box…)
|
| 63 |
+
- Avantage : la réponse est **adaptée et non mécanique**
|
| 64 |
+
|
| 65 |
+
---
|
| 66 |
+
|
| 67 |
+
### 7. **Traduction de la réponse (Anglais → Darija)**
|
| 68 |
+
|
| 69 |
+
- La réponse finale est **traduite en Darija lettres latines** pour que le client la comprenne facilement.
|
| 70 |
+
- Ou bien la réponse aura un fallback en francais ou en arabe normale
|
| 71 |
+
|
| 72 |
+
---
|
| 73 |
+
|
| 74 |
+
### 8. **Sortie finale**
|
| 75 |
+
|
| 76 |
+
- Le client reçoit une réponse :
|
| 77 |
+
- claire
|
| 78 |
+
- personnalisée
|
| 79 |
+
- dans sa **langue et alphabet**
|
| 80 |
+
|
| 81 |
+
---
|
| 82 |
+
|
| 83 |
+
### 🔧 Technologies utilisées
|
| 84 |
+
|
| 85 |
+
| Étape | Modèle / Composant |
|
| 86 |
+
| --- | --- |
|
| 87 |
+
| ASR Darija | `asr-wav2vec2-dvoice-darija` |
|
| 88 |
+
| Traduction | `lachkarsalim/LatinDarija_English-v2` |
|
| 89 |
+
| Classification | `typeform/distilbert-base-uncased-mnli` |
|
| 90 |
+
| RAG | Base documentaire + vecteurs |
|
| 91 |
+
| Génération | GPT-like LLM |
|
| 92 |
+
| Déploiement | FastAPI + Docker/Hugging Face Spaces |
|