Spaces:

Ilkinism
/

diction_analyze

Sleeping

App Files Files Community

Ilkinism commited on May 27, 2025

Commit

45d0379

verified ·

1 Parent(s): d63442e

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +58 -54

src/streamlit_app.py CHANGED Viewed

@@ -2,51 +2,52 @@ import streamlit as st
 import torch
 import numpy as np
 from pydub import AudioSegment
-from transformers import pipeline, WhisperProcessor
-# webrtcvad: Bu kütüphane genel VAD için kullanılır ancak mevcut analiz akışınızda doğrudan bir işlevi yok.
-# Eğer kullanmayacaksanız requirements.txt'den ve importtan kaldırabilirsiniz.
-import webrtcvad
 from phonemizer.backend import EspeakBackend
 from fastdtw import fastdtw
 from scipy.signal import find_peaks
 import librosa
 import io
-import os # Dosya yollarını yönetmek için
-# import ffmpeg
-os.environ["STREAMLIT_HOME"] = "/app/.streamlit"
-# Model ve tokenizer yolları (yerel klasörler için göreceli yollar)
-# Hugging Face Spaces'te bu klasörler projenizin kök dizininde olacaktır.
-BASE_DIR = os.path.dirname(os.path.abspath(__file__))  # src klasörü
-model_path = os.path.join(BASE_DIR, "../model_whisper-large-v3-turbo-aze-60hours(part15_aug)-lab")
-tokenizer_path = os.path.join(BASE_DIR, "../tokenizer_whisper-large-v3-turbo-aze-60hours(part15_aug)-lab")
-# model_path = 'model_whisper-large-v3-turbo-aze-60hours(part15_aug)-lab'
-# tokenizer_path = 'tokenizer_whisper-large-v3-turbo-aze-60hours(part15_aug)-lab'
-# Model ve tokenizer klasörlerinin varlığını kontrol et
 if not os.path.exists(model_path) or not os.path.exists(tokenizer_path):
-    st.error(f"Hata: Model veya tokenizer klasörleri bulunamadı. Lütfen '{model_path}' ve '{tokenizer_path}' yollarını ve dosya yapısını kontrol edin.")
     st.stop() # Uygulamayı durdur
 @st.cache_resource
 def load_asr_components():
     """ASR modelini ve işlemcisini önbelleğe alır."""
     try:
         processor = WhisperProcessor.from_pretrained(tokenizer_path, language='aze', task='transcribe')
-        pipeline_config = {
-            "task": "automatic-speech-recognition",
-            "model": model_path,
-            "tokenizer": processor.tokenizer,
-            "feature_extractor": processor.feature_extractor,
-            "device": 0 if torch.cuda.is_available() else -1, # CUDA varsa GPU kullan
-            "torch_dtype": torch.float16 if torch.cuda.is_available() else torch.float32,
-            "generate_kwargs": {
                 "task": "transcribe",
                 "language": "azerbaijani",
                 "num_beams": 2,
@@ -56,33 +57,35 @@ def load_asr_components():
                 "logprob_threshold": -1.0,
                 "return_timestamps": True,
             }
-        }
-        asr_pipeline = pipeline(**pipeline_config)
         return processor, asr_pipeline
     except Exception as e:
-        st.error(f"ASR bileşenleri yüklenirken hata oluştu: {e}. Lütfen model ve tokenizer yollarını kontrol edin.")
         return None, None
 processor, asr_pipeline = load_asr_components()
 class DictionAnalyzer:
     def __init__(self):
-        # phonemizer backend'i de önbelleğe alınabilir veya burada başlatılabilir
-        # EspeakBackend'in başlatılması biraz zaman alabilir, ilk yüklemede sorun olmaması için burada.
         self.phonemizer = EspeakBackend("az")
     def analyze_prosody(self, y, sr):
         try:
-            pitch, _, _ = librosa.pyin(y, fmin=librosa.note_to_hz('C2'), fmax=librosa.note_to_hz('C7'))
         except Exception:
-            pitch = np.array([np.nan]) # Handle cases where pyin might fail
         energy = librosa.feature.rms(y=y)[0]
         peaks, _ = find_peaks(energy, height=np.mean(energy) if energy.size > 0 else 0)
         return {
-            "average_pitch": np.nanmean(pitch) if not np.all(np.isnan(pitch)) else 0,
-            "pitch_variance": np.nanvar(pitch) if not np.all(np.isnan(pitch)) else 0,
             "energy_peaks": len(peaks)
         }
@@ -110,8 +113,9 @@ class DictionAnalyzer:
             return {"phonetic_distance": float('inf')}
         try:
             dtw_distance, _ = fastdtw(numeric_transcript, numeric_reference, dist=lambda x, y: np.linalg.norm(x - y))
-        except ValueError: # Handle empty sequences for DTW
              dtw_distance = float('inf')
         return {"phonetic_distance": dtw_distance}
@@ -120,7 +124,7 @@ class DictionAnalyzer:
         Dəyəri yaxşı, orta, pis kateqoriyasına uyğun olaraq 1-10 arası bal verir.
         is_lower_better: Əgər dəyər nə qədər aşağı olarsa, o qədər yaxşıdırsa True qeyd edin.
         """
-        if value is None or np.isnan(value) or value == float('inf'): # Handle invalid values
             return "Hesaplanamadı", 0
         if is_lower_better:
@@ -139,14 +143,14 @@ class DictionAnalyzer:
                 return "Pis", 2
     def full_analysis(self, audio_data, reference_text):
-        # audio_data dictionary olarak gelmeli: {"raw": np.array, "sampling_rate": int}
         y = audio_data["raw"]
         sr = audio_data["sampling_rate"]
         audio_duration = librosa.get_duration(y=y, sr=sr)
         if asr_pipeline is None:
-            st.error("ASR pipeline yüklenemedi. Analiz yapılamıyor.")
             return None
         try:
@@ -160,11 +164,11 @@ class DictionAnalyzer:
         fluency = self.analyze_speed_and_fluency(transcript, audio_duration)
         pronunciation = self.compare_pronunciation(transcript, reference_text)
-        # Değerlendirme aralıkları: Bu aralıklar, modelinizin performansı ve istediğiniz metriklere göre ayarlanmalıdır.
-        # Bunlar sadece örneklerdir.
         prosody_avg_pitch_eval = self.evaluate_score(prosody["average_pitch"], (100, 250), (70, 300), is_lower_better=False)
         prosody_pitch_variance_eval = self.evaluate_score(prosody["pitch_variance"], (500, 3000), (200, 5000), is_lower_better=False)
-        # energy_peaks için audio_duration'a göre bir oran düşünebilirsiniz. Örneğin: 0.1-0.5 peak/saniye iyi olabilir.
         prosody_energy_peaks_eval = self.evaluate_score(prosody["energy_peaks"] / audio_duration if audio_duration > 0 else 0, (0.1, 0.5), (0.05, 0.7), is_lower_better=False)
         fluency_wps_eval = self.evaluate_score(fluency["words_per_second"], (2.0, 3.0), (1.5, 3.5), is_lower_better=False)
@@ -194,16 +198,16 @@ class DictionAnalyzer:
 # Streamlit UI
 st.title("Diksiyon Analiz Uygulaması")
-st.write("Ses dosyanızı yükleyin ve referans metin girerek diksiyonunuzu analiz edin.")
-uploaded_file = st.file_uploader("Ses Dosyası Yükleyin (.wav, .mp3)", type=["wav", "mp3"])
 reference_text_input = st.text_area("Referans Metin Girin",
                                      "Salam, hər vaxtınız xeyr, mənim adım Əlidir. Salam, Əli bəy. Sizə necə kömək edə bilərəm? Kartımın şifrəsini dəyişmək istəyirəm və şifrəmi unutmuşam. Şifrənizi dəyişdirmək üçün sizdən bəzi məlumatlar istəyəcəm. Zəhmət olmasa, adınızı, soyadınızı və bir də vəsigənin fin kodunu deyə bilərsiniz. Əlbəttə, deyə bilərəm. Mənim adım Ələl Əkbəlli. Fin kodum isə 7CRH7UE. Zəhmət olmasa, yenə təkrar bilərsiniz fin kodu? 7-C-R-H-7-U-E Təşəkkür edirəm, Əli bəy. Şifrənizi sıfırlamaq üçün sizə indi kod gəlməlidir telefona, gəldi, hal-hazırda? Bəli, bəli, kod gəldi. İndi parolu dəyişə bilərəm. Bəli, dəyişə bilərsiniz? Oldu, hazırda şifrəmi dəyişdirdim. Aha, hal-hazırda əməliyyatınız uğurla tamamlanıb və şifrəniz dəyişilib. Yeni şifrədən istifadə edə bilərsiniz, kart hesabınıza daxil olmaq üçün. Başqa sualınız varmı? Xeyr, çox təşəkkür edəm sizə. Buyurun, gününüz xoş geçsin. Sağ olun.")
 if uploaded_file is not None and reference_text_input:
-    st.audio(uploaded_file, format='audio/wav') # Kullanıcının yüklediği sesi oynat
-    with st.spinner('Ses dosyası işleniyor...'):
         try:
             audio_bytes = uploaded_file.read()
             audio_segment = AudioSegment.from_file(io.BytesIO(audio_bytes))
@@ -219,20 +223,20 @@ if uploaded_file is not None and reference_text_input:
             # Eğer sample rate 16000 değilse, yeniden örnekle
             if audio_segment.frame_rate != 16000:
-                st.info(f"Ses dosyası {audio_segment.frame_rate} Hz. 16000 Hz'e dönüştürülüyor...")
                 audio_array = librosa.resample(y=audio_array, orig_sr=audio_segment.frame_rate, target_sr=16000)
             audio_input_for_analysis = {"raw": audio_array, "sampling_rate": 16000}
         except Exception as e:
-            st.error(f"Ses dosyası okunurken veya işlenirken hata oluştu: {e}")
             audio_input_for_analysis = None
     if audio_input_for_analysis:
         analyzer = DictionAnalyzer()
-        st.write("Analiz ediliyor, lütfen bekleyin...")
-        with st.spinner('Analiz tamamlanıyor...'):
             report = analyzer.full_analysis(audio_input_for_analysis, reference_text_input)
         if report:
@@ -253,4 +257,4 @@ if uploaded_file is not None and reference_text_input:
         else:
             st.error("Analiz tamamlanamadı.")
 elif uploaded_file is None and st.button("Analiz Et"):
-    st.warning("Lütfen bir ses dosyası yükleyin ve referans metin girin.")

 import torch
 import numpy as np
 from pydub import AudioSegment
+from transformers import pipeline, WhisperProcessor, AutoModelForSpeechSeq2Seq # AutoModelForSpeechSeq2Seq əlavə edildi
+import webrtcvad
 from phonemizer.backend import EspeakBackend
 from fastdtw import fastdtw
 from scipy.signal import find_peaks
 import librosa
 import io
+import os
+# Hugging Face Spaces-də `src` qovluğu strukturunu nəzərə alaraq
+BASE_DIR = os.path.dirname(os.path.abspath(__file__))  # src qovluğunun yolu
+PROJECT_ROOT = os.path.join(BASE_DIR, "..") # layihənin kök qovluğu
+model_path = os.path.join(PROJECT_ROOT, "model_whisper-large-v3-turbo-aze-60hours(part15_aug)-lab")
+tokenizer_path = os.path.join(PROJECT_ROOT, "tokenizer_whisper-large-v3-turbo-aze-60hours(part15_aug)-lab")
+# Model və tokenizer klasörlərinin varlığını kontrol et
 if not os.path.exists(model_path) or not os.path.exists(tokenizer_path):
+    st.error(f"Hata: Model veya tokenizer klasörleri bulunamadı. Lütfen '{model_path}' ve '{tokenizer_path}' yollarını ve Hugging Face Space-deki dosya yapısını kontrol edin. Model fayllarının ({model_path}/pytorch_model.bin or model.safetensors) mövcud olduğundan əmin olun.")
     st.stop() # Uygulamayı durdur
 @st.cache_resource
 def load_asr_components():
     """ASR modelini ve işlemcisini önbelleğe alır."""
     try:
+        # Önce işlemciyi yükle
         processor = WhisperProcessor.from_pretrained(tokenizer_path, language='aze', task='transcribe')
+        # Modeli doğrudan Whisper model sınıfı olarak yükle
+        # Bu, AutoModelForCTC hatasının önüne geçmek için kritikdir.
+        # Eğer modeliniz safetensors formatındaysa, from_pretrained otomatik olarak onu tanıyacaktır.
+        model = AutoModelForSpeechSeq2Seq.from_pretrained(
+            model_path,
+            torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+            device_map="auto" if torch.cuda.is_available() else None # GPU varsa otomatik olaraq cihazı seç
+        )
+        # ASR pipeline-ı qur
+        asr_pipeline = pipeline(
+            "automatic-speech-recognition",
+            model=model, # Yüklenen model obyektini ötürürük
+            tokenizer=processor.tokenizer,
+            feature_extractor=processor.feature_extractor,
+            device=0 if torch.cuda.is_available() else -1,
+            torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+            generate_kwargs={
                 "task": "transcribe",
                 "language": "azerbaijani",
                 "num_beams": 2,
                 "logprob_threshold": -1.0,
                 "return_timestamps": True,
             }
+        )
         return processor, asr_pipeline
     except Exception as e:
+        st.error(f"ASR bileşenleri yüklenirken hata oluştu: {e}. Lütfen model ve tokenizer yollarını kontrol edin. Modelinizde `pytorch_model.bin` veya `model.safetensors` faylının olduğundan əmin olun.")
         return None, None
 processor, asr_pipeline = load_asr_components()
 class DictionAnalyzer:
     def __init__(self):
         self.phonemizer = EspeakBackend("az")
     def analyze_prosody(self, y, sr):
         try:
+            # pyin fasilələr səbəbindən NaN dəyərlər qaytara bilər, bunları idarə edin
+            pitch, _, _ = librosa.pyin(y, fmin=librosa.note_to_hz('C2'), fmax=librosa.note_to_hz('C7'), sr=sr, frame_length=2048, hop_length=512)
+            # NaN dəyərləri sıfırla dolduraraq və ya qulaq ardına vuraraq orta dəyəri hesablayın
+            pitch = pitch[~np.isnan(pitch)] # NaN dəyərləri çıxar
+            if pitch.size == 0: pitch = np.array([0.0]) # Boş qalarsa sıfır ver
         except Exception:
+            pitch = np.array([0.0]) # Hata durumunda da sıfır ver
         energy = librosa.feature.rms(y=y)[0]
+        # Enerji pikleri boş enerji dizileri için handle
         peaks, _ = find_peaks(energy, height=np.mean(energy) if energy.size > 0 else 0)
         return {
+            "average_pitch": np.mean(pitch),
+            "pitch_variance": np.var(pitch),
             "energy_peaks": len(peaks)
         }
             return {"phonetic_distance": float('inf')}
         try:
+            # DTW üçün numpy.ndarray obyektlərini istifadə edin
             dtw_distance, _ = fastdtw(numeric_transcript, numeric_reference, dist=lambda x, y: np.linalg.norm(x - y))
+        except ValueError: # Boş ardıcıllıqlar üçün DTW xətasını idarə et
              dtw_distance = float('inf')
         return {"phonetic_distance": dtw_distance}
         Dəyəri yaxşı, orta, pis kateqoriyasına uyğun olaraq 1-10 arası bal verir.
         is_lower_better: Əgər dəyər nə qədər aşağı olarsa, o qədər yaxşıdırsa True qeyd edin.
         """
+        if value is None or np.isnan(value) or value == float('inf'): # Geçərsiz dəyərləri idarə et
             return "Hesaplanamadı", 0
         if is_lower_better:
                 return "Pis", 2
     def full_analysis(self, audio_data, reference_text):
+        # audio_data dictionary olaraq gəlməlidir: {"raw": np.array, "sampling_rate": int}
         y = audio_data["raw"]
         sr = audio_data["sampling_rate"]
         audio_duration = librosa.get_duration(y=y, sr=sr)
         if asr_pipeline is None:
+            st.error("ASR pipeline yüklənmədi. Analiz yapılamıyor.")
             return None
         try:
         fluency = self.analyze_speed_and_fluency(transcript, audio_duration)
         pronunciation = self.compare_pronunciation(transcript, reference_text)
+        # Dəyərləndirmə aralıqları: Bu aralıqlar, modelinizin performansı və istədiyiniz metriklərə görə ayarlanmalıdır.
+        # Bunlar sadəcə nümunələrdir.
         prosody_avg_pitch_eval = self.evaluate_score(prosody["average_pitch"], (100, 250), (70, 300), is_lower_better=False)
         prosody_pitch_variance_eval = self.evaluate_score(prosody["pitch_variance"], (500, 3000), (200, 5000), is_lower_better=False)
+        # energy_peaks üçün audio_duration'a görə bir oran düşünə bilərsiniz. Örneğin: 0.1-0.5 peak/saniyə yaxşı ola bilər.
         prosody_energy_peaks_eval = self.evaluate_score(prosody["energy_peaks"] / audio_duration if audio_duration > 0 else 0, (0.1, 0.5), (0.05, 0.7), is_lower_better=False)
         fluency_wps_eval = self.evaluate_score(fluency["words_per_second"], (2.0, 3.0), (1.5, 3.5), is_lower_better=False)
 # Streamlit UI
 st.title("Diksiyon Analiz Uygulaması")
+st.write("Ses dosyanızı yükləyin və referans metin girərək diksiyonunuzu analiz edin.")
+uploaded_file = st.file_uploader("Ses Dosyası Yükləyin (.wav, .mp3)", type=["wav", "mp3"])
 reference_text_input = st.text_area("Referans Metin Girin",
                                      "Salam, hər vaxtınız xeyr, mənim adım Əlidir. Salam, Əli bəy. Sizə necə kömək edə bilərəm? Kartımın şifrəsini dəyişmək istəyirəm və şifrəmi unutmuşam. Şifrənizi dəyişdirmək üçün sizdən bəzi məlumatlar istəyəcəm. Zəhmət olmasa, adınızı, soyadınızı və bir də vəsigənin fin kodunu deyə bilərsiniz. Əlbəttə, deyə bilərəm. Mənim adım Ələl Əkbəlli. Fin kodum isə 7CRH7UE. Zəhmət olmasa, yenə təkrar bilərsiniz fin kodu? 7-C-R-H-7-U-E Təşəkkür edirəm, Əli bəy. Şifrənizi sıfırlamaq üçün sizə indi kod gəlməlidir telefona, gəldi, hal-hazırda? Bəli, bəli, kod gəldi. İndi parolu dəyişə bilərəm. Bəli, dəyişə bilərsiniz? Oldu, hazırda şifrəmi dəyişdirdim. Aha, hal-hazırda əməliyyatınız uğurla tamamlanıb və şifrəniz dəyişilib. Yeni şifrədən istifadə edə bilərsiniz, kart hesabınıza daxil olmaq üçün. Başqa sualınız varmı? Xeyr, çox təşəkkür edəm sizə. Buyurun, gününüz xoş geçsin. Sağ olun.")
 if uploaded_file is not None and reference_text_input:
+    st.audio(uploaded_file, format='audio/wav') # Kullanıcının yüklədiyi səsi oynat
+    with st.spinner('Ses dosyası işlənir...'):
         try:
             audio_bytes = uploaded_file.read()
             audio_segment = AudioSegment.from_file(io.BytesIO(audio_bytes))
             # Eğer sample rate 16000 değilse, yeniden örnekle
             if audio_segment.frame_rate != 16000:
+                st.info(f"Ses dosyası {audio_segment.frame_rate} Hz. 16000 Hz'e dönüştürülür...")
                 audio_array = librosa.resample(y=audio_array, orig_sr=audio_segment.frame_rate, target_sr=16000)
             audio_input_for_analysis = {"raw": audio_array, "sampling_rate": 16000}
         except Exception as e:
+            st.error(f"Ses dosyası oxunarkən və ya işlənərkən hata oluştu: {e}")
             audio_input_for_analysis = None
     if audio_input_for_analysis:
         analyzer = DictionAnalyzer()
+        st.write("Analiz edilir, lütfən gözləyin...")
+        with st.spinner('Analiz tamamlanır...'):
             report = analyzer.full_analysis(audio_input_for_analysis, reference_text_input)
         if report:
         else:
             st.error("Analiz tamamlanamadı.")
 elif uploaded_file is None and st.button("Analiz Et"):
+    st.warning("Lütfen bir ses dosyası yükləyin və referans metin girin.")