Spaces:

Somalitts
/

STT_Api

Sleeping

App Files Files Community

Somalitts commited on Aug 9

Commit

f9ea638

verified ·

1 Parent(s): 9e59401

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -74

app.py CHANGED Viewed

@@ -1,93 +1,47 @@
 import os
-import io
-import torch
-import torchaudio
 from fastapi import FastAPI, UploadFile, File
 from fastapi.middleware.cors import CORSMiddleware
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
-# --- Dejinta App-ka FastAPI ---
 app = FastAPI()
-# U oggolow dhammaan isku xidhka (CORS) si aad uga isticmaasho meelo kale sida Flutter
 app.add_middleware(
     CORSMiddleware,
-    allow_origins=["*"],  # Waxa aad ku beddeli kartaa domain-kaaga gaarka ah mustaqbalka
     allow_methods=["*"],
     allow_headers=["*"],
 )
-# --- Soo Dejinta Moodeelka (Model Loading) ---
-# Kani hadda waxa uu isticmaali doonaa jidka keydka (cache path) ee lagu dejiyay Dockerfile-ka
-# oo ah /app/hf-cache, kaas oo leh ruqsadaha saxda ah.
-# Faylkan waxa la isticmaalayaa oo kaliya inta lagu jiro dhismaha Docker
-# si loo soo dejiyo moodeelka loogana fogaado khaladaadka ruqsadaha ee runtime-ka
-from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
-import os
-MODEL_ID = "Mustafaa4a/ASR-Somali"
-print(f"Waxaa la bilaabayaa soo dejinta moodeelka: {MODEL_ID}")
-print(f"Lagu keydin doonaa galka: {os.environ.get('HF_HOME')}")
-# Labadan sadar ayaa kicin doona soo dejinta
-processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
-model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
-print("Soo dejinta moodeelka waa la dhammeystiray.")
-# --- API Endpoints ---
 @app.get("/")
 async def root():
-    """
-    Endpoint-ka asaasiga ah ee lagu hubinayo in API-gu shaqaynayo.
-    """
-    return {"message": "Somali Speech-to-Text API wuu shaqaynayaa."}
 @app.post("/transcribe")
 async def transcribe(file: UploadFile = File(...)):
-    """
-    Endpoint-ka qaabilaya faylka codka ah oo u beddelaya qoraal.
-    """
-    if not model or not processor:
-        return {"error": "Moodeelka lama soo rarin, fadlan eeg log-yada server-ka si aad u ogaato khaladaadka."}
-    try:
-        # 1. Akhrinta codka la soo galiyay
-        audio_bytes = await file.read()
-        audio_stream = io.BytesIO(audio_bytes)
-        # 2. Isticmaalka torchaudio si loogu beddelo waveform
-        waveform, sample_rate = torchaudio.load(audio_stream)
-        # --- HAGAAYNTA TAYADA CODKA ---
-        # Tallaabooyinkani waa muhiim si loo helo natiijooyinka ugu fiican
-        # 2a. U beddel sample rate-ka 16kHz (oo ah ka uu moodeelku u baahan yahay)
-        if sample_rate != 16000:
-            resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
-            waveform = resampler(waveform)
-        # 2b. U beddel hal kanaal (mono) adigoo isku celcelinaya haddii uu yahay stereo
-        if waveform.shape[0] > 1:
-            waveform = torch.mean(waveform, dim=0, keepdim=True)
-        # --- DHAMAADKA HAGAAYNTA CODKA ---
-        # 3. Farsamaynta waveform-ka si uu moodeelku u fahmo
-        inputs = processor(waveform.squeeze(), sampling_rate=16000, return_tensors="pt")
-        # 4. Isticmaalka moodeelka si codka loogu beddelo qoraal
-        with torch.no_grad():
-            logits = model(**inputs).logits
-        # 5. Soo saarista qoraalka ugu macquulsan
-        predicted_ids = torch.argmax(logits, dim=-1)
-        transcription = processor.decode(predicted_ids[0])
-        # 6. Soo celinta natiijada
-        return {"transcription": transcription.lower()}
-    except Exception as e:
-        # Haddii khalad dhaco inta lagu jiro farsamaynta, soo celi fariin khalad ah
-        return {"error": f"Khalad ayaa dhacay intii lagu jiray qoraal-u-beddelidda: {str(e)}"}

 import os
+os.environ["TRANSFORMERS_CACHE"] = "/tmp/hf-cache"  # Important for Docker
 from fastapi import FastAPI, UploadFile, File
 from fastapi.middleware.cors import CORSMiddleware
+import torchaudio
+import torch
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+import io
 app = FastAPI()
+# Allow all origins (for Flutter)
 app.add_middleware(
     CORSMiddleware,
+    allow_origins=["*"],
     allow_methods=["*"],
     allow_headers=["*"],
 )
+# Load model
+processor = Wav2Vec2Processor.from_pretrained("Mustafaa4a/ASR-Somali")
+model = Wav2Vec2ForCTC.from_pretrained("Mustafaa4a/ASR-Somali")
 @app.get("/")
 async def root():
+    return {"message": "Somali Speech-to-Text API is running."}
 @app.post("/transcribe")
 async def transcribe(file: UploadFile = File(...)):
+    audio_bytes = await file.read()
+    audio_stream = io.BytesIO(audio_bytes)
+    waveform, sample_rate = torchaudio.load(audio_stream)
+    if sample_rate != 16000:
+        resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
+        waveform = resampler(waveform)
+    inputs = processor(waveform.squeeze(), sampling_rate=16000, return_tensors="pt")
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.decode(predicted_ids[0])
+    return {"transcription": transcription}