harpertoken
/

harpertokenASR

@@ -22,12 +22,10 @@ tags:
 # Speech Recognition AI: Fine-Tuned Whisper and Wav2Vec2 for Real-Time Audio
-![Hugging Face](https://huggingface.co/front/assets/huggingface_logo-noborder.svg)
 This project fine-tunes OpenAI's Whisper (`whisper-small`) and Facebook's Wav2Vec2 (`wav2vec2-base-960h`) models for real-time speech recognition using live audio recordings. It’s designed for dynamic environments where low-latency transcription is key, such as live conversations or streaming audio.
 ## Model Description
-This is a fine-tuned version of [OpenAI's Whisper small model](https://huggingface.co/openai/whisper-small) and [Facebook's Wav2Vec2 base model](https://huggingface.co/facebook/wav2vec2-base-960h), optimized for real-time speech-to-text transcription. The models were trained on live 16kHz mono audio recordings, improving transcription accuracy over their base versions for continuous input scenarios.
 ## Features
 - **Real-time audio recording**: Captures live 16kHz mono audio via microphone input.
@@ -36,21 +34,6 @@ This is a fine-tuned version of [OpenAI's Whisper small model](https://huggingfa
 - **Model saving/loading**: Automatically saves fine-tuned models with timestamps.
 - **Dual model support**: Choose between Whisper and Wav2Vec2 architectures.
-*Note*: Currently supports English-only transcription.
-## Installation
-Clone the repository and install the dependencies:
-```bash
-git clone https://github.com/bniladridas/speech-model.git
-cd speech-model
-pip install -r requirements.txt
-```
-Optional: Install system dependencies for Sounddevice (e.g., libsoundio on Linux):
-```bash
-sudo apt-get install libsndfile1
-```
 ## Usage
 ### Start Fine-Tuning
@@ -112,8 +95,8 @@ A GPU is recommended for faster fine-tuning. See `requirements.txt` for the full
 To load the models from Hugging Face:
 ```python
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
-model = WhisperForConditionalGeneration.from_pretrained("bniladridas/speech-recognition-ai-fine-tune")
-processor = WhisperProcessor.from_pretrained("bniladridas/speech-recognition-ai-fine-tune")
 ```
 ## Repository Structure
@@ -132,7 +115,7 @@ speech-model/
 The models are fine-tuned on live audio recordings collected during runtime. No pre-existing dataset is required—users generate their own data via microphone input.
 ## Evaluation Results
-Placeholder: Future updates will include WER (Word Error Rate) metrics compared to base models.
 ## License
-Licensed under the MIT License. See the LICENSE file for details.

 # Speech Recognition AI: Fine-Tuned Whisper and Wav2Vec2 for Real-Time Audio
 This project fine-tunes OpenAI's Whisper (`whisper-small`) and Facebook's Wav2Vec2 (`wav2vec2-base-960h`) models for real-time speech recognition using live audio recordings. It’s designed for dynamic environments where low-latency transcription is key, such as live conversations or streaming audio.
 ## Model Description
+Fine-tuned Whisper and Wav2Vec2 models for real-time speech recognition on live audio.
 ## Features
 - **Real-time audio recording**: Captures live 16kHz mono audio via microphone input.
 - **Model saving/loading**: Automatically saves fine-tuned models with timestamps.
 - **Dual model support**: Choose between Whisper and Wav2Vec2 architectures.
 ## Usage
 ### Start Fine-Tuning
 To load the models from Hugging Face:
 ```python
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
+model = WhisperForConditionalGeneration.from_pretrained("harpertoken/harpertokenASR")
+processor = WhisperProcessor.from_pretrained("harpertoken/harpertokenASR")
 ```
 ## Repository Structure
 The models are fine-tuned on live audio recordings collected during runtime. No pre-existing dataset is required—users generate their own data via microphone input.
 ## Evaluation Results
+Future updates will include WER (Word Error Rate) metrics compared to base models.
 ## License
+Licensed under the MIT License.