CONCREE
/

Adia_TTS

@@ -31,71 +31,134 @@ pipeline_tag: text-to-speech
 ## Introduction
 ADIA_TTS est un modèle de synthèse vocale (Text-to-Speech) en wolof, développé par CONCREE pour démocratiser l'accès aux technologies vocales dans les langues africaines. Basé sur le modèle parler-tts-mini-multilingual-v1.1, il représente une avancée significative dans la synthèse vocale pour la langue wolof.
 ```sh
 pip install git+https://github.com/huggingface/parler-tts.git
 ```
 ## Utilisation
-ADIA_TTS suit les mêmes inférences que les versions actuelles de `Parler-TTS`. La qualité de la voix peut être ajustée en modifiant la description fournie au modèle, en précisant des critères comme : voix claire, monotone, sans bruit de fond, etc.
-### Exemple d'utilisation
-Le code suivant montre comment utiliser ADIA_TTS pour générer un fichier audio :
-```py
 import torch
 from parler_tts import ParlerTTSForConditionalGeneration
 from transformers import AutoTokenizer
-from IPython.display import Audio
 import soundfile as sf
-# Détection de l'appareil disponible
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
-# Chargement du modèle et du tokenizer
 model = ParlerTTSForConditionalGeneration.from_pretrained("CONCREE/Adia_TTS").to(device)
 tokenizer = AutoTokenizer.from_pretrained("CONCREE/Adia_TTS")
-# Définition du texte d'entrée (exemple en wolof)
-prompt = "Entreprenariat ci Senegal dafa am solo lool ci yokkuteg koom-koom, di gëna yokk liggéey ak indi gis-gis yu bees ci dëkk bi."
-# Description influençant la qualité de la synthèse vocale
-description = "A crystal clear and distinct voice, with a moderate reading rate that facilitates understanding. The tone is monotonous, without variations or inflections, which provides a uniform listening experience. The voice is free of background noise and allows for continuous reading, without inappropriate pauses, thus ensuring a constant and pleasant flow."
-# Tokenisation des entrées
 input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
-prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
-# Génération de l'audio
-generation = model.generate(
     input_ids=input_ids,
-    prompt_input_ids=prompt_input_ids,
 )
-audio_arr = generation.cpu().numpy().squeeze()
-sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)
-Audio(audio_arr, rate=model.config.sampling_rate)
-```
-# Exemple:
-"Entreprenariat ci Senegal dafa am solo lool ci yokkuteg koom-koom, di gëna yokk liggéey ak indi gis-gis yu bees ci dëkk bi."
 <audio controls>
-  <source src="https://huggingface.co/spaces/CONCREE/Adia_TTS/resolve/main/t%C3%A9l%C3%A9chargement.wav" type="audio/wav">
 </audio>
-## Ajustement de la Qualité Audio
-La qualité de l'audio peut être modifiée en ajustant la description fournie au modèle. Voici quelques exemples :
 ```py
-description = "Aida speaks slowly with a very clear recording but a monotone voice."
-description = "Adia's speech is very quiet and monotone, delivered with a very small amount of discernible expression."
-description = "Adia's voice comes across as very monotone, speaking slowly with very clear sounds and no background noise."
-description = "A warm, natural, and friendly voice with a steady pace and clear pronunciation. The audio is crisp with no background noise, and the delivery is expressive but calm, giving a conversational feel."
 ```
-En variant la description, vous pouvez obtenir une sortie vocale différente en termes de clarté, d'expression et de débit.
 ## Références
-```
 @misc{CONCREE-2024-Adia_TTS,
   author = {CONCREE},
   title = {Adia_TTS},
@@ -116,5 +179,17 @@ En variant la description, vous pouvez obtenir une sortie vocale différente en
 ```
 ## Licence
-Ce modèle est publié sous la licence permissive Apache 2.0, permettant son utilisation libre et sa modification sous certaines conditions.

 ## Introduction
 ADIA_TTS est un modèle de synthèse vocale (Text-to-Speech) en wolof, développé par CONCREE pour démocratiser l'accès aux technologies vocales dans les langues africaines. Basé sur le modèle parler-tts-mini-multilingual-v1.1, il représente une avancée significative dans la synthèse vocale pour la langue wolof.
+## Points clés
+* Entraîné sur 40 heures de données vocales en wolof
+* Affiné pendant 100 epochs (~168 heures d'entraînement)
+* Qualité vocale naturelle et fluide
+* Support multilocuteur avec contrôle des caractéristiques vocales
+## Caractéristiques techniques
+### Spécifications du modèle
+* Architecture : parler-tts-mini-multilingual-v1.1
+* Taille du modèle : 1.88 GB
+* Format du modèle : PyTorch
+* Fréquence d'échantillonnage : 24kHz
+* Encodage audio : 16-bit PCM
+### Performance
+* Temps moyen d'inférence :  secondes/phrase (CPU), 20 secondes/phrase (GPU)
+* Consommation mémoire : 3.9 GB (RAM minimale recommandée)
+* Support CUDA : Oui, compatible avec CUDA T4, A100 et version supérieur
+## Installation
+### Prérequis
+Python 3.8 ou supérieur
+PyTorch 2.0 ou supérieur
+CUDA (obligatoire, pour accélération GPU)
+###Installation via pip
 ```sh
 pip install git+https://github.com/huggingface/parler-tts.git
 ```
 ## Utilisation
+## Exemple de base
+'''py
 import torch
 from parler_tts import ParlerTTSForConditionalGeneration
 from transformers import AutoTokenizer
 import soundfile as sf
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
+# Chargement du modèle
 model = ParlerTTSForConditionalGeneration.from_pretrained("CONCREE/Adia_TTS").to(device)
 tokenizer = AutoTokenizer.from_pretrained("CONCREE/Adia_TTS")
+# Texte en wolof à synthétiser
+text = "Entreprenariat ci Senegal dafa am solo lool ci yokkuteg koom-koom, di gëna yokk liggéey ak indi gis-gis yu bees ci dëkk bi."
+# Description du style vocal
+description = "A clear and educational voice, with a flow adapted to learning"
+# Génération
 input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
+prompt_ids = tokenizer(text, return_tensors="pt").input_ids.to(device)
+audio = model.generate(
     input_ids=input_ids,
+    prompt_input_ids=prompt_ids,
 )
+# Sauvegarde
+sf.write("output.wav", audio.cpu().numpy().squeeze(), model.config.sampling_rate)
+'''
 <audio controls>
+  <source src="https://huggingface.co/spaces/CONCREE/Adia_TTS/resolve/main/snt.wav" type="audio/wav">
 </audio>
+## Configuration avancée
+## Paramètres de génération
+'''py
+generation_config = {
+    "temperature": 0.8,           # Contrôle la variabilité de la sortie
+    "max_new_tokens": 1000,       # Longueur maximale de la séquence générée
+    "do_sample": True,            # Active l'échantillonnage aléatoire
+    "top_k": 50,                  # Limite le nombre de tokens considérés
+    "repetition_penalty": 1.2,    # Pénalise la répétition de tokens
+}
+audio = model.generate(
+    input_ids=input_ids,
+    prompt_input_ids=prompt_ids,
+    **generation_config
+)
+'''
+<audio controls>
+  <source src="https://huggingface.co/spaces/CONCREE/Adia_TTS/resolve/main/avct.wav" type="audio/wav">
+</audio>
+## Styles vocaux
+### Exemples de descriptions pour différents styles :
+1. ### Voix naturelle
 ```py
+description = "A warm and natural voice, with a conversational flow"
 ```
+<audio controls>
+  <source src="https://huggingface.co/spaces/CONCREE/Adia_TTS/resolve/main/styl1.wav" type="audio/wav">
+</audio>
+2. ### Voix professionnelle
+'''py
+description = "A professional, clear and composed voice, perfect for formal presentations"
+'''
+<audio controls>
+  <source src="https://huggingface.co/spaces/CONCREE/Adia_TTS/resolve/main/styl2.wav" type="audio/wav">
+</audio>
+3. ### Voix pour l'éducation
+'''py
+description = "A clear and educational voice, with a flow adapted to learning"
+'''
+<audio controls>
+  <source src="https://huggingface.co/spaces/CONCREE/Adia_TTS/resolve/main/styl3.wav" type="audio/wav">
+</audio>
+## Limitations connues
+* Performance réduite sur les phrases très longues (>200 caractères )
+* Gestion limitée des nombres et des dates
+* Variations possibles dans la qualité selon l'accent régional
+* Temps de chargement initial du modèle relativement long
 ## Références
+'''
 @misc{CONCREE-2024-Adia_TTS,
   author = {CONCREE},
   title = {Adia_TTS},
 ```
 ## Licence
+Ce projet est sous licence Apache 2.0. Voir le fichier LICENSE pour plus de détails.
+## Conditions d'utilisation
+* Usage commercial autorisé
+* Modification autorisée
+* Distribution autorisée
+* Obligation de mention de licence
+* Pas de garantie fournie
+## Contact
+Pour toute question ou support :
+Email : contact@concree.com