Spaces:

codewithdark
/

WhisperLivesubs

Sleeping

App Files Files Community

codewithdark commited on Sep 6, 2024

Commit

f12e846

verified ·

1 Parent(s): f74f938

Upload 4 files

Browse files

Files changed (4) hide show

demo.py +67 -0
poetry.lock +0 -0
pyproject.toml +22 -0
requirements.txt +6 -0

demo.py ADDED Viewed

	@@ -0,0 +1,67 @@

+import streamlit as st
+import sounddevice as sd
+import numpy as np
+import torch
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+import soundfile as sf  # Using soundfile for audio file handling
+import librosa
+# Load model
+@st.cache_resource
+def load_model():
+    processor = AutoProcessor.from_pretrained("codewithdark/WhisperLiveSubs")
+    model = AutoModelForSpeechSeq2Seq.from_pretrained("codewithdark/WhisperLiveSubs")
+    return processor, model
+try:
+    processor, model = load_model()
+except ConnectionError as e:
+    st.error(f"Error loading model: Check your Internet Connection")
+except Exception as e:
+    st.error(f"Error loading model: Please try again")
+# Function to transcribe audio
+def transcribe_audio(audio, sample_rate):
+    # Ensure audio is in the expected format
+    audio = np.array(audio)  # Convert to numpy array if needed
+    input_features = processor(audio, sampling_rate=sample_rate, return_tensors="pt").input_features
+    predicted_ids = model.generate(input_features)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription[0]
+# Streamlit app
+st.title("Speech-to-Text Transcription")
+# File upload
+uploaded_file = st.file_uploader("Choose an audio file", type=["wav", "mp3"])
+if uploaded_file is not None:
+    try:
+        # Read the audio file
+        audio_data, sample_rate = sf.read(uploaded_file)
+        # Resample if necessary
+        target_sample_rate = 16000
+        if sample_rate != target_sample_rate:
+            audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=target_sample_rate)
+        # Ensure audio_data is 1D
+        if audio_data.ndim > 1:
+            audio_data = audio_data.mean(axis=1)
+        st.audio(uploaded_file, format="audio/wav")
+        transcription = transcribe_audio(audio_data, target_sample_rate)
+        st.write("Transcription:", transcription)
+    except Exception as e:
+        st.error(f"Error processing the file: {e}")
+# Real-time voice input
+if st.button("Start Recording"):
+    duration = 15  # Record for 15 seconds
+    sample_rate = 16000
+    st.write("Recording...")
+    recording = sd.rec(int(duration * sample_rate), samplerate=sample_rate, channels=1)
+    sd.wait()
+    st.write("Recording finished!")
+    audio_data = recording.flatten()
+    transcription = transcribe_audio(audio_data, sample_rate)
+    st.write("Transcription:", transcription)

poetry.lock ADDED Viewed

The diff for this file is too large to render. See raw diff

pyproject.toml ADDED Viewed

	@@ -0,0 +1,22 @@

+[tool.poetry]
+name = "WhisperLiveSubs"
+version = "0.1.0"
+description = ""
+authors = ["Dark Coder <codewithdark90@gmail.com>"]
+license = "MIT"
+readme = "README.md"
+[tool.poetry.dependencies]
+python = "^3.10"
+streamlit = "^1.38.0"
+sounddevice = "^0.5.0"
+numpy = "^2.1.1"
+scipy = "^1.14.1"
+torch = "^2.4.1"
+transformers = "^4.44.2"
+soundfile = "^0.12.1"
+[build-system]
+requires = ["poetry-core"]
+build-backend = "poetry.core.masonry.api"

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+streamlit==1.38.0
+sounddevice==0.4.7
+numpy==1.25.2
+torch==2.0.1
+transformers==4.31.0
+scipy==1.12.0