Spaces:

Mnem-AI
/

MnemAI

Sleeping

App Files Files Community

fraunhofer commited on Dec 17, 2025

Commit

f79b859

1 Parent(s): b58a541

analiz motoru ve küçük değişiklikler

Browse files

Files changed (4) hide show

.gitignore +4 -0
Dockerfile +5 -7
main.py +58 -104
phonology_engine.py +4 -1

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+__pycache__/
+*.py[cod]
+*.pyo
+*.pyd

Dockerfile CHANGED Viewed

@@ -2,14 +2,14 @@ FROM python:3.9
 WORKDIR /code
-# FFmpeg kurulumu (Ses işleme için şart)
 RUN apt-get update && apt-get install -y ffmpeg
 # Kütüphaneleri yükle
 COPY ./requirements.txt /code/requirements.txt
 RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
-# Kullanıcı yetkilerini ayarla (Hugging Face güvenlik kuralı)
 RUN useradd -m -u 1000 user
 USER user
 ENV HOME=/home/user \
@@ -18,10 +18,8 @@ ENV HOME=/home/user \
 WORKDIR $HOME/app
 COPY --chown=user . $HOME/app
-# --- DÜZELTİLEN KISIM BURASI ---
-# Eski 'import whisper' yerine 'faster_whisper' kullanıyoruz.
-# Modeli önbelleğe indiriyoruz ki her açılışta tekrar indirmesin.
-RUN python3 -c "from faster_whisper import WhisperModel; WhisperModel('large-v2', device='cpu', compute_type='int8')"
-# Uygulamayı başlat
 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

 WORKDIR /code
+# FFmpeg kurulumu (Ses işlemek için şart)
 RUN apt-get update && apt-get install -y ffmpeg
 # Kütüphaneleri yükle
 COPY ./requirements.txt /code/requirements.txt
 RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+# Kullanıcı ayarları
 RUN useradd -m -u 1000 user
 USER user
 ENV HOME=/home/user \
 WORKDIR $HOME/app
 COPY --chown=user . $HOME/app
+# --- ÖNEMLİ ---
+# Hem 'small' (Uygulama için) hem 'large-v2' (Karşılaştırma için) modellerini indiriyoruz.
+RUN python3 -c "from faster_whisper import WhisperModel; WhisperModel('small', device='cpu', compute_type='int8'); WhisperModel('large-v2', device='cpu', compute_type='int8')"
 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

main.py CHANGED Viewed

@@ -1,135 +1,89 @@
-from fastapi import FastAPI, UploadFile, File, Form, HTTPException
 from faster_whisper import WhisperModel
 from phonology_engine import FonolojikVaryasyonMotoru
-import difflib
-import os
 import shutil
 import uuid
-app = FastAPI(title="MnemAI Ses Analiz API")
-# --- MODEL AYARLARI ---
-# Hugging Face CPU'su için 'int8' en iyisidir.
-MODEL_SIZE = "large-v2"
-DEVICE = "cpu"
-COMPUTE_TYPE = "int8"
-print("⏳ Whisper modeli ve Varyasyon Motoru yükleniyor...")
-# Modeli global olarak bir kez yüklüyoruz
-model = WhisperModel(MODEL_SIZE, device=DEVICE, compute_type=COMPUTE_TYPE)
-motor = FonolojikVaryasyonMotoru()
-print("✅ Sistem hazır!")
-def kelime_analizi_yap(hedef: str, gelen: str):
-    """
-    Hedef kelime ile gelen kelimeyi karşılaştırır ve hataları raporlar.
-    """
-    hedef = hedef.lower().replace("İ", "i").strip()
-    gelen = gelen.lower().replace("İ", "i").strip()
-    # 1. Tam Eşleşme
-    if hedef == gelen:
-        return {
-            "durum": "basarili",
-            "skor": 100,
-            "mesaj": "Harika! Tamamen doğru söyledin.",
-            "hatalar": []
-        }
-    # 2. Hata Analizi (Difflib)
-    matcher = difflib.SequenceMatcher(None, hedef, gelen)
-    hatalar = []
-    # Opcodes: 'replace', 'delete', 'insert', 'equal'
-    for tag, i1, i2, j1, j2 in matcher.get_opcodes():
-        if tag == 'replace':
-            beklenen = hedef[i1:i2]
-            soylenen = gelen[j1:j2]
-            hatalar.append(f"'{beklenen.upper()}' yerine '{soylenen.upper()}' dedin.")
-        elif tag == 'delete':
-            beklenen = hedef[i1:i2]
-            hatalar.append(f"'{beklenen.upper()}' sesini yuttun.")
-        elif tag == 'insert':
-            fazla = gelen[j1:j2]
-            hatalar.append(f"Fazladan '{fazla.upper()}' sesi çıkardın.")
     skor = int(matcher.ratio() * 100)
-    return {
-        "durum": "hatali",
-        "skor": skor,
-        "mesaj": "Bazı sesleri düzeltmemiz gerekiyor.",
-        "hatalar": hatalar,
-        "detayli_fark": {
-            "beklenen": hedef,
-            "algilanan": gelen
-        }
-    }
 @app.post("/analiz")
-async def ses_analiz(
     file: UploadFile = File(...),
     hedef_kelime: str = Form(...)
 ):
-    """
-    Endpoint: Ses dosyasını ve hedeflenen kelimeyi alır, analiz sonucunu döner.
-    """
-    # 1. Dosyayı Geçici Kaydet
-    if not file.filename.lower().endswith(('.wav', '.mp3', '.m4a', '.ogg')):
-         raise HTTPException(status_code=400, detail="Geçersiz dosya formatı.")
     temp_filename = f"temp_{uuid.uuid4()}.wav"
     try:
-        with open(temp_filename, "wb") as buffer:
-            shutil.copyfileobj(file.file, buffer)
-        # 2. Fonolojik Prompt Üret (Whisper'ı yönlendirmek için)
-        prompt_metni = motor.varyasyonlari_uret(hedef_kelime)
-        # 3. Whisper Transkripsiyon
-        # initial_prompt: Whisper'a bu kelimenin varyasyonlu olabileceğini söylüyoruz.
-        segments, _ = model.transcribe(
             temp_filename,
             language="tr",
-            initial_prompt=f"Bu çocuk şu kelimeleri söyleyebilir: {prompt_metni}",
-            # --- YENİ EKLENEN AYARLAR ---
-            beam_size=5,                # Daha fazla olasılığı değerlendir
-            vad_filter=False,           # Sessizlik filtresini KAPAT (Çok önemli)
-            word_timestamps=False,      # Tek kelime için gereksiz, hız kazandırır
-            # Whisper'ın "Emin değilim" deyip susmasını engellemek için filtreleri kapatıyoruz:
-            no_speech_threshold=0.95,   # Sessizlik eşiğini yükselt
-            log_prob_threshold=None,    # Düşük olasılıklı tahminleri de kabul et (Silme)
-            compression_ratio_threshold=None, # Tekrar eden bozuk sesleri de al
-            temperature=0               # Yaratıcılığı kapat, en net duyduğunu ver
         )
-        # Generator'dan metni al
-        algilanan_metin = " ".join([s.text for s in segments]).strip()
-        # Noktalama temizliği
-        algilanan_metin = algilanan_metin.replace(".", "").replace("?", "").replace("!", "")
-        # 4. Karşılaştırma ve Raporlama
-        sonuc = kelime_analizi_yap(hedef_kelime, algilanan_metin)
         return {
             "hedef_kelime": hedef_kelime,
-            "algilanan_metin": algilanan_metin,
-            "analiz_sonucu": sonuc
         }
     except Exception as e:
-        return {"hata": str(e)}
     finally:
-        # Geçici dosyayı temizle
         if os.path.exists(temp_filename):
-            os.remove(temp_filename)
-@app.get("/")
-def root():
-    return {"durum": "MnemAI Sunucusu Calisiyor"}

+from fastapi import FastAPI, UploadFile, File, Form
 from faster_whisper import WhisperModel
 from phonology_engine import FonolojikVaryasyonMotoru
 import shutil
+import os
 import uuid
+import difflib
+app = FastAPI()
+# --- MODELLERİ YÜKLEME ---
+print("⏳ Modeller yükleniyor (Lütfen bekleyin)...")
+# 1. Uygulama Modeli (Small - Hızlı ve Manipüle Edilmiş)
+model_small = WhisperModel("small", device="cpu", compute_type="int8")
+# 2. Kontrol Modeli (Large v2 - Yavaş ve Saf)
+model_large = WhisperModel("large-v2", device="cpu", compute_type="int8")
+motor = FonolojikVaryasyonMotoru()
+print("✅ İki model de RAM'e yüklendi ve hazır!")
+# --- YARDIMCI FONKSİYON ---
+def kelime_analizi_yap(hedef, gelen):
+    matcher = difflib.SequenceMatcher(None, hedef.lower(), gelen.lower())
     skor = int(matcher.ratio() * 100)
+    durum = "basarili" if skor >= 80 else "hatali"
+    return {"skor": skor, "durum": durum}
+# --- API ENDPOINT ---
 @app.post("/analiz")
+async def analiz(
     file: UploadFile = File(...),
     hedef_kelime: str = Form(...)
 ):
+    # Geçici dosya ismi
     temp_filename = f"temp_{uuid.uuid4()}.wav"
+    # Dosyayı diske kaydet
+    with open(temp_filename, "wb") as buffer:
+        shutil.copyfileobj(file.file, buffer)
     try:
+        # --- ADIM 1: SMALL MODEL (PROMPTLU) ---
+        # Hedef kelimeye göre varyasyonları üret
+        varyasyonlar = motor.varyasyonlari_uret(hedef_kelime)
+        prompt_metni = f"Şu kelimelerden birini seç: {', '.join(varyasyonlar)}"
+        segments_small, _ = model_small.transcribe(
             temp_filename,
             language="tr",
+            initial_prompt=prompt_metni, # <-- Müdahale var
+            beam_size=1, # Hızlı olsun
+            best_of=1,
+            vad_filter=False
         )
+        small_sonuc = " ".join([s.text for s in segments_small]).strip()
+        # --- ADIM 2: LARGE MODEL (SAF/PROMPTSUZ) ---
+        # Burada modele hiçbir ipucu vermiyoruz.
+        segments_large, _ = model_large.transcribe(
+            temp_filename,
+            language="tr",
+            beam_size=5, # Kaliteli olsun (Biraz yavaşlar)
+            vad_filter=False
+        )
+        large_sonuc = " ".join([s.text for s in segments_large]).strip()
+        # --- ADIM 3: SONUÇLARI KARŞILAŞTIR ---
+        analiz_sonucu = kelime_analizi_yap(hedef_kelime, small_sonuc)
+        # JSON DÖNÜŞÜ
         return {
             "hedef_kelime": hedef_kelime,
+            "analiz": analiz_sonucu,
+            "modeller": {
+                "small_model_tahmini": small_sonuc,   # Uygulamanın kullandığı
+                "large_model_tahmini": large_sonuc,   # Gerçekte duyulan (Saf)
+                "varyasyonlar_prompt": varyasyonlar   # Modele verdiğimiz ipuçları
+            }
         }
     except Exception as e:
+        return {"error": str(e)}
     finally:
+        # İşlem bitince dosyayı sil
         if os.path.exists(temp_filename):
+            os.remove(temp_filename)

phonology_engine.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import itertools
 class FonolojikVaryasyonMotoru:
@@ -25,7 +26,9 @@ class FonolojikVaryasyonMotoru:
             'ğ': ['ğ', 'y', ''],
             'h': ['h', '']
         }
     def varyasyonlari_uret(self, hedef_kelime, max_limit=150):
         """
         Hedef kelimenin olası yanlış telaffuz varyasyonlarını üretir.

+from functools import lru_cache
 import itertools
 class FonolojikVaryasyonMotoru:
             'ğ': ['ğ', 'y', ''],
             'h': ['h', '']
         }
+    # Son 100 kelimenin varyasyonlarını hafızada tut
+    @lru_cache(maxsize=100)
     def varyasyonlari_uret(self, hedef_kelime, max_limit=150):
         """
         Hedef kelimenin olası yanlış telaffuz varyasyonlarını üretir.