Spaces:

VTechAI
/

SM4T

Runtime error

App Files Files Community

Duy-NM commited on Oct 19, 2023

Commit

6fcb961

1 Parent(s): 70ea763

add api

Browse files

Files changed (1) hide show

app.py +33 -62

app.py CHANGED Viewed

@@ -8,10 +8,12 @@ from __future__ import annotations
 import gradio as gr
 import numpy as np
-import torch
-import torchaudio
-from huggingface_hub import hf_hub_download
-from seamless_communication.models.inference.translator import Translator
 DESCRIPTION = """
@@ -290,78 +292,47 @@ T2TT_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES
 # Download sample input audio files
 filenames = ["assets/sample_input.mp3", "assets/sample_input_2.mp3"]
-for filename in filenames:
-    hf_hub_download(
-        repo_id="facebook/seamless_m4t",
-        repo_type="space",
-        filename=filename,
-        local_dir=".",
-    )
 AUDIO_SAMPLE_RATE = 16000.0
 MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
 DEFAULT_TARGET_LANGUAGE = "French"
-device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-translator = Translator(
-    model_name_or_card="seamlessM4T_large",
-    vocoder_name_or_card="vocoder_36langs",
-    device=device,
-    dtype=torch.float16 if "cuda" in device.type else torch.float32,
-)
-def predict(
     task_name: str,
     audio_source: str,
     input_audio_mic: str | None,
     input_audio_file: str | None,
     input_text: str | None,
     source_language: str | None,
-    target_language: str,
-) -> tuple[tuple[int, np.ndarray] | None, str]:
-    task_name = task_name.split()[0]
-    source_language_code = (
-        LANGUAGE_NAME_TO_CODE[source_language] if source_language else None
-    )
-    target_language_code = LANGUAGE_NAME_TO_CODE[target_language]
-    if task_name in ["S2ST", "S2TT", "ASR"]:
-        if audio_source == "microphone":
-            input_data = input_audio_mic
-        else:
-            input_data = input_audio_file
-        arr, org_sr = torchaudio.load(input_data)
-        new_arr = torchaudio.functional.resample(
-            arr, orig_freq=org_sr, new_freq=AUDIO_SAMPLE_RATE
-        )
-        max_length = int(MAX_INPUT_AUDIO_LENGTH * AUDIO_SAMPLE_RATE)
-        if new_arr.shape[1] > max_length:
-            new_arr = new_arr[:, :max_length]
-            gr.Warning(
-                f"Input audio is too long. Only the first {MAX_INPUT_AUDIO_LENGTH} seconds is used."
-            )
-        torchaudio.save(input_data, new_arr, sample_rate=int(AUDIO_SAMPLE_RATE))
-    else:
-        input_data = input_text
-    text_out, wav, sr = translator.predict(
-        input=input_data,
-        task_str=task_name,
-        tgt_lang=target_language_code,
-        src_lang=source_language_code,
-        ngram_filtering=True,
-    )
-    if task_name in ["S2ST", "T2ST"]:
-        return (sr, wav.cpu().detach().numpy()), text_out
-    else:
-        return None, text_out
 def process_s2st_example(
     input_audio_file: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
-    return predict(
         task_name="S2ST",
         audio_source="file",
         input_audio_mic=None,
@@ -375,7 +346,7 @@ def process_s2st_example(
 def process_s2tt_example(
     input_audio_file: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
-    return predict(
         task_name="S2TT",
         audio_source="file",
         input_audio_mic=None,
@@ -389,7 +360,7 @@ def process_s2tt_example(
 def process_t2st_example(
     input_text: str, source_language: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
-    return predict(
         task_name="T2ST",
         audio_source="",
         input_audio_mic=None,
@@ -403,7 +374,7 @@ def process_t2st_example(
 def process_t2tt_example(
     input_text: str, source_language: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
-    return predict(
         task_name="T2TT",
         audio_source="",
         input_audio_mic=None,
@@ -417,7 +388,7 @@ def process_t2tt_example(
 def process_asr_example(
     input_audio_file: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
-    return predict(
         task_name="ASR",
         audio_source="file",
         input_audio_mic=None,
@@ -705,7 +676,7 @@ with gr.Blocks(css=css) as demo:
     )
     btn.click(
-        fn=predict,
         inputs=[
             task_name,
             audio_source,

 import gradio as gr
 import numpy as np
+# import torch
+from gradio_client import Client
+client = Client("https://facebook-seamless-m4t.hf.space/")
 DESCRIPTION = """
 # Download sample input audio files
 filenames = ["assets/sample_input.mp3", "assets/sample_input_2.mp3"]
+# for filename in filenames:
+#     hf_hub_download(
+#         repo_id="facebook/seamless_m4t",
+#         repo_type="space",
+#         filename=filename,
+#         local_dir=".",
+#     )
 AUDIO_SAMPLE_RATE = 16000.0
 MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
 DEFAULT_TARGET_LANGUAGE = "French"
+# device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+def api_predict(
     task_name: str,
     audio_source: str,
     input_audio_mic: str | None,
     input_audio_file: str | None,
     input_text: str | None,
     source_language: str | None,
+    target_language: str,):
+    audio_out, text_out = client.predict(task_name,
+                                        audio_source,
+                                        input_audio_mic,
+                                        input_audio_file,
+                                        input_text,
+                                        source_language,
+                                        target_language,
+                                        api_name="/run")
+    return audio_out, text_out
 def process_s2st_example(
     input_audio_file: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return api_predict(
         task_name="S2ST",
         audio_source="file",
         input_audio_mic=None,
 def process_s2tt_example(
     input_audio_file: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return api_predict(
         task_name="S2TT",
         audio_source="file",
         input_audio_mic=None,
 def process_t2st_example(
     input_text: str, source_language: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return api_predict(
         task_name="T2ST",
         audio_source="",
         input_audio_mic=None,
 def process_t2tt_example(
     input_text: str, source_language: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return api_predict(
         task_name="T2TT",
         audio_source="",
         input_audio_mic=None,
 def process_asr_example(
     input_audio_file: str, target_language: str
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return api_predict(
         task_name="ASR",
         audio_source="file",
         input_audio_mic=None,
     )
     btn.click(
+        fn=api_predict,
         inputs=[
             task_name,
             audio_source,