Spaces:

imansarraf
/

Azari_ASR

Sleeping

App Files Files Community

imansarraf commited on Jul 30, 2025

Commit

c0b9248

verified ·

1 Parent(s): f4c2fda

Upload 2 files

Browse files

Files changed (2) hide show

app.py +70 -0
requirements.txt +35 -0

app.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import gradio as gr
+from iman.sad_tfpy10 import *
+from autosub import SpeechRecognizer
+from autosub import GOOGLE_SPEECH_API_KEY
+import soundfile as sf
+import io
+css = """
+ textarea { direction: rtl; text-align: right; font-family: Calibri, sans-serif; font-size: 16px;}
+"""
+recognizer = SpeechRecognizer(language="az", rate=16000,api_key=GOOGLE_SPEECH_API_KEY, proxies=None)
+seg = Segmenter(ffmpeg_path="ffmpeg",model_path="keras_speech_music_noise_cnn.hdf5" , device="cpu",vad_type="vad")
+def process_segment(args):
+ segment, wav = args
+ start, stop = segment
+ # pp = converter((start, stop))
+ pp = pcm_to_flac(wav[int(start*16000) : int(stop*16000)])
+ tr_beamsearch_lm = recognizer(pp)
+ return start, stop, tr_beamsearch_lm
+def pcm_to_flac(pcm_data, sample_rate=16000):
+ buffer = io.BytesIO()
+ sf.write(buffer, pcm_data, sample_rate, format='FLAC')
+ flac_data = buffer.getvalue()
+ return flac_data
+def transcribe_audio(audio_file):
+    text=""
+    isig,wav =  seg(audio_file)
+    isig = filter_output(isig , max_silence=0.5 ,ignore_small_speech_segments=0.1 , max_speech_len=15 ,split_speech_bigger_than=20)
+    isig = [(a,b) for x,a,b,_,_ in isig]
+    print(isig)
+    results=[]
+    for segment in isig:
+         results.append (process_segment((segment, wav)))
+    for start, stop, tr_beamsearch_lm in results:
+          try:
+              text += ' ' + tr_beamsearch_lm + '\r\n'
+              print(start)
+              print(stop)
+              print(text)
+          except:
+               pass
+    return text
+# Define the Gradio interface
+interface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(type="filepath"),
+    outputs=gr.Textbox(label="Transcription", elem_id="output-text",interactive=True),
+    title="Azari Audio Transcription",
+    description="Upload an audio file or record audio to get the transcription.",
+    css=css
+)
+# Launch the Gradio app
+interface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,35 @@

+tensorflow
+iman==1.0.24
+scikit-image
+imageio
+pytextgrid
+soundfile
+numpy==1.24.0
+cachetools==4.2.4
+certifi==2021.10.8
+chardet==4.0.0
+charset-normalizer==2.0.6
+google-api-core==2.1.0
+google-api-python-client==2.24.0
+google-auth==2.3.0
+google-auth-httplib2==0.1.0
+google-auth-oauthlib==0.4.6
+googleapis-common-protos==1.53.0
+httplib2==0.20.1
+idna==3.2
+oauthlib==3.1.1
+progressbar==2.5
+protobuf==3.18.1
+pyasn1==0.4.8
+pyasn1-modules==0.2.8
+pyparsing==2.4.7
+pysrt==1.1.2
+requests==2.26.0
+requests-oauthlib==1.3.0
+rsa==4.7.2
+six==1.16.0
+uritemplate==3.0.1
+urllib3==1.26.7
+Nuitka
+orderedset
+zstandard