Spaces:

BinKhoaLe1812
/

Interview_AI

Sleeping

App Files Files Community

LiamKhoaLe commited on Apr 22, 2025

Commit

4cb647e

1 Parent(s): 5942210

Upd build

Browse files

Files changed (2) hide show

app.py +34 -16
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -1,16 +1,19 @@
 # Access site: https://binkhoale1812-interview-ai.hf.space/
 import os
 import tempfile
-import psutil
 from pathlib import Path
 from typing import Dict
 from fastapi import FastAPI, File, UploadFile, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse, FileResponse
 from fastapi.staticfiles import StaticFiles
-from transformers import pipeline, AutoProcessor, AutoModelForSpeechSeq2Seq
 from google import genai
 from google.genai import types
@@ -45,22 +48,17 @@ app.mount("/statics", StaticFiles(directory="statics"), name="statics")
 # ── Global objects (lazy‑loaded) ──────────
 ############################################
-asr_pipeline = None  # Speech‑to‑text
-llm = None          # Gemini model
 @app.on_event("startup")
 async def load_models():
-    """Load Whisper."""
-    global asr_pipeline, llm
-    # Whisper tiny – seq2seq pipeline
-    asr_pipeline = pipeline(
-        "automatic-speech-recognition",
-        model=ASR_MODEL_ID,
-        chunk_length_s=30,
-        torch_dtype="auto",
-        device="cpu",
-    )
 ############################################
@@ -79,6 +77,23 @@ def build_prompt(question: str) -> str:
 def memory_usage_mb() -> float:
     return psutil.Process().memory_info().rss / 1_048_576  # bytes→MiB
 ############################################
 # ── Routes ────────────────────────────────
 ############################################
@@ -100,8 +115,11 @@ async def voice_transcribe(file: UploadFile = File(...)):  # noqa: B008
         tmp_path = tmp.name
     try:
         # ── 1. Transcribe
-        transcript: Dict = asr_pipeline(tmp_path, generate_kwargs={"language": ASR_LANGUAGE})
-        question = transcript["text"].strip()
         if not question:
             raise ValueError("Empty transcription")
         # ── 2. LLM answer

 # Access site: https://binkhoale1812-interview-ai.hf.space/
 import os
 import tempfile
 from pathlib import Path
 from typing import Dict
+# Server
 from fastapi import FastAPI, File, UploadFile, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse, FileResponse
 from fastapi.staticfiles import StaticFiles
+# AI + LLM
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+import torch
+import soundfile as sf
 from google import genai
 from google.genai import types
 # ── Global objects (lazy‑loaded) ──────────
 ############################################
+# Globals
+processor = None
+model = None
 @app.on_event("startup")
 async def load_models():
+    global processor, model
+    processor = WhisperProcessor.from_pretrained(ASR_MODEL_ID)
+    model = WhisperForConditionalGeneration.from_pretrained(ASR_MODEL_ID)
+    model.to("cpu")
 ############################################
 def memory_usage_mb() -> float:
     return psutil.Process().memory_info().rss / 1_048_576  # bytes→MiB
+# Monitor Resources Before Startup
+import psutil
+def check_system_resources():
+    memory = psutil.virtual_memory()
+    cpu = psutil.cpu_percent(interval=1)
+    disk = psutil.disk_usage("/")
+    # Defines log info messages
+    logger.info(f"🔍 System Resources - RAM: {memory.percent}%, CPU: {cpu}%, Disk: {disk.percent}%")
+    if memory.percent > 85:
+        logger.warning("⚠️ High RAM usage detected!")
+    if cpu > 90:
+        logger.warning("⚠️ High CPU usage detected!")
+    if disk.percent > 90:
+        logger.warning("⚠️ High Disk usage detected!")
+check_system_resources()
 ############################################
 # ── Routes ────────────────────────────────
 ############################################
         tmp_path = tmp.name
     try:
         # ── 1. Transcribe
+        speech, sample_rate = sf.read(tmp_path)
+        inputs = processor(speech, sampling_rate=sample_rate, return_tensors="pt")
+        input_ids = inputs.input_features.to("cpu")  # adjust if using GPU
+        generated_ids = model.generate(input_ids)
+        question = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
         if not question:
             raise ValueError("Empty transcription")
         # ── 2. LLM answer

requirements.txt CHANGED Viewed

@@ -5,7 +5,8 @@ aiofiles               # Static file serving
 python-multipart       # File uploads
 # Voice‑to‑text (Whisper via 🤗 Transformers)
-transformers>=4.40
 torch
 huggingface_hub

 python-multipart       # File uploads
 # Voice‑to‑text (Whisper via 🤗 Transformers)
+soundfile
+transformers==4.38.2  # ensure recent enough
 torch
 huggingface_hub