wav2vec2-api

Build error

App Files Files Community

KuyaToto commited on Aug 16, 2025

Commit

fa83439

verified ·

1 Parent(s): daa79d8

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -43

app.py CHANGED Viewed

@@ -10,13 +10,11 @@ import orjson
 import string
 import eng_to_ipa as ipa
 import numpy as np
-from functools import lru_cache
-from collections import defaultdict
-# Device setup
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-# WordMap
 WORD_MAP = {
     'A': {'word': 'Apple', 'phonetic': 'ˈæpəl'},
     'B': {'word': 'Ball', 'phonetic': 'bɔːl'},
@@ -46,32 +44,15 @@ WORD_MAP = {
     'Z': {'word': 'Zebra', 'phonetic': 'ˈziːbrə'}
 }
-# Model configuration
-MODELS = {
-    "English": {
-        "processor_path": "facebook/wav2vec2-base-960h",
-        "model_path": "facebook/wav2vec2-base-960h",
-        "epitran": lambda: epitran.Epitran("eng-Latn"),
-        "processor": None,
-        "model": None,
-        "epitran_instance": None
-    }
-}
-@lru_cache(maxsize=1)
-def load_model(language):
-    if language not in MODELS:
-        raise ValueError(f"Unsupported language: {language}")
-    if MODELS[language]["processor"] is None:
-        MODELS[language]["processor"] = Wav2Vec2Processor.from_pretrained(MODELS[language]["processor_path"])
-        MODELS[language]["model"] = Wav2Vec2ForCTC.from_pretrained(MODELS[language]["model_path"]).to(device).eval()
-        MODELS[language]["epitran_instance"] = MODELS[language]["epitran"]()
-@lru_cache(maxsize=1000)
 def clean_phonemes(ipa_text):
     return re.sub(r'[^\w\s]', '', ipa_text)
-@lru_cache(maxsize=1000)
 def transliterate_english(word):
     try:
         word = word.lower().translate(str.maketrans('', '', string.punctuation))
@@ -92,22 +73,16 @@ def find_closest_word(transcription, reference_word):
     similarity = round((1 - distances[closest_word] / max(1, max_len)) * 100, 2)
     return closest_word, similarity
 def analyze_phonemes(language, reference_text, audio_input):
     try:
-        load_model(language)
-        lang_models = MODELS[language]
-        processor = lang_models["processor"]
-        model = lang_models["model"]
-        # Handle audio input (numpy array from browser recording)
-        if isinstance(audio_input, tuple) or isinstance(audio_input, list):
             audio, sr = audio_input[0], audio_input[1]
-        else:  # fallback to file path
             audio, sr = librosa.load(audio_input, sr=16000, mono=True)
-        max_amp = np.max(np.abs(audio))
-        if max_amp > 0:
-            audio = audio / max_amp
         trimmed_audio, _ = librosa.effects.trim(audio, top_db=25)
         if len(trimmed_audio) < 2400:
@@ -119,9 +94,9 @@ def analyze_phonemes(language, reference_text, audio_input):
                 "metrics": {"message": "Audio too short or silent."}
             }).decode()
-        trimmed_audio = trimmed_audio[:12000]  # 0.75s cap
         input_values = processor(trimmed_audio, sampling_rate=16000, return_tensors="pt", padding=True).input_values.to(device)
         with torch.no_grad():
             logits = model(input_values).logits
             pred_ids = torch.argmax(logits, dim=-1)
@@ -202,11 +177,10 @@ def analyze_phonemes(language, reference_text, audio_input):
             "metrics": {"message": f"Error: {str(e)}"}
         }).decode()
 def get_default_text(language):
     return "A" if language == "English" else ""
 with gr.Blocks() as demo:
     gr.Markdown("# Multilingual Phoneme Alignment Analysis")
     gr.Markdown("Compare audio pronunciation with reference text at phoneme level.")
@@ -214,7 +188,7 @@ with gr.Blocks() as demo:
     with gr.Row():
         language = gr.Dropdown(["English"], label="Language", value="English")
     reference_text = gr.Textbox(label="Reference Text", value="A")
-    audio_input = gr.Audio(label="Record Audio", type="numpy")  # <-- change here
     submit_btn = gr.Button("Analyze")
     output = gr.JSON(label="Phoneme Alignment Results")

 import string
 import eng_to_ipa as ipa
 import numpy as np
+# --- Device setup ---
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# --- WordMap ---
 WORD_MAP = {
     'A': {'word': 'Apple', 'phonetic': 'ˈæpəl'},
     'B': {'word': 'Ball', 'phonetic': 'bɔːl'},
     'Z': {'word': 'Zebra', 'phonetic': 'ˈziːbrə'}
 }
+# --- Load model once at startup ---
+processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
+model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h").to(device).eval()
+epi = epitran.Epitran("eng-Latn")
+# --- Helper functions ---
 def clean_phonemes(ipa_text):
     return re.sub(r'[^\w\s]', '', ipa_text)
 def transliterate_english(word):
     try:
         word = word.lower().translate(str.maketrans('', '', string.punctuation))
     similarity = round((1 - distances[closest_word] / max(1, max_len)) * 100, 2)
     return closest_word, similarity
+# --- Main analysis function ---
 def analyze_phonemes(language, reference_text, audio_input):
     try:
+        # Handle audio input
+        if isinstance(audio_input, (tuple, list)):
             audio, sr = audio_input[0], audio_input[1]
+        else:
             audio, sr = librosa.load(audio_input, sr=16000, mono=True)
+        audio = audio.astype(np.float32)
+        audio = audio / max(1e-9, np.max(np.abs(audio)))
         trimmed_audio, _ = librosa.effects.trim(audio, top_db=25)
         if len(trimmed_audio) < 2400:
                 "metrics": {"message": "Audio too short or silent."}
             }).decode()
+        trimmed_audio = trimmed_audio[:48000]  # up to 3 seconds
         input_values = processor(trimmed_audio, sampling_rate=16000, return_tensors="pt", padding=True).input_values.to(device)
         with torch.no_grad():
             logits = model(input_values).logits
             pred_ids = torch.argmax(logits, dim=-1)
             "metrics": {"message": f"Error: {str(e)}"}
         }).decode()
+# --- Gradio UI ---
 def get_default_text(language):
     return "A" if language == "English" else ""
 with gr.Blocks() as demo:
     gr.Markdown("# Multilingual Phoneme Alignment Analysis")
     gr.Markdown("Compare audio pronunciation with reference text at phoneme level.")
     with gr.Row():
         language = gr.Dropdown(["English"], label="Language", value="English")
     reference_text = gr.Textbox(label="Reference Text", value="A")
+    audio_input = gr.Audio(label="Record Audio", type="numpy")
     submit_btn = gr.Button("Analyze")
     output = gr.JSON(label="Phoneme Alignment Results")