Spaces:

rmayormartins
/

speech-accent-pt-br-classifier

Running

rmayormartins commited on Jun 23, 2024

Commit

0f1a690

1 Parent(s): 82203f6

Subindo arquivos33

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import torch
 import numpy as np
 from transformers import Wav2Vec2Processor, Wav2Vec2ForSequenceClassification
-# modelo e o processador salvos
 model_name = "results"
 processor = Wav2Vec2Processor.from_pretrained(model_name)
 model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
@@ -15,12 +15,12 @@ def classify_accent(audio):
     # entrada
     print(f"Tipo de entrada de áudio: {type(audio)}")
-    # O áudio formato
     print(f"Received audio input: {audio}")
     try:
-        audio_array = audio[1]  # O áudio da tupla
-        sample_rate = audio[0]  # A taxa de amostragem da tupla
         print(f"Shape do áudio: {audio_array.shape}, Taxa de amostragem: {sample_rate}")
@@ -38,20 +38,20 @@ def classify_accent(audio):
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1).item()
-        # ids accent
-        labels = ["Brazilian", "Outro"]
         return labels[predicted_ids]
     except Exception as e:
         return f"Erro ao processar o áudio: {str(e)}"
-# Interface do Gradio
 description_html = """
 <p>Test with recording or uploading an audio file. To test, I recommend short sentences.</p>
 <p>Ramon Mayor Martins: <a href="https://rmayormartins.github.io/" target="_blank">Website</a> | <a href="https://huggingface.co/rmayormartins" target="_blank">Spaces</a></p>
 """
-# Interface do Gradio
 interface = gr.Interface(
     fn=classify_accent,
     inputs=gr.Audio(type="numpy"),

 import numpy as np
 from transformers import Wav2Vec2Processor, Wav2Vec2ForSequenceClassification
+# modelo e o processador
 model_name = "results"
 processor = Wav2Vec2Processor.from_pretrained(model_name)
 model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
     # entrada
     print(f"Tipo de entrada de áudio: {type(audio)}")
+    # áudio
     print(f"Received audio input: {audio}")
     try:
+        audio_array = audio[1]  # O áudio no segundo da tupla
+        sample_rate = audio[0]  # A taxa de amostragem no primeiro da tupla
         print(f"Shape do áudio: {audio_array.shape}, Taxa de amostragem: {sample_rate}")
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1).item()
+        # Mapeamento
+        labels = ["Brazilian", "Other"]
         return labels[predicted_ids]
     except Exception as e:
         return f"Erro ao processar o áudio: {str(e)}"
+#
 description_html = """
 <p>Test with recording or uploading an audio file. To test, I recommend short sentences.</p>
 <p>Ramon Mayor Martins: <a href="https://rmayormartins.github.io/" target="_blank">Website</a> | <a href="https://huggingface.co/rmayormartins" target="_blank">Spaces</a></p>
 """
+#
 interface = gr.Interface(
     fn=classify_accent,
     inputs=gr.Audio(type="numpy"),