Lance VOX – Speech Recognition Evolved 🎤

🚀 Lance VOX is a custom-built speech recognition model, designed to transcribe spoken audio into text efficiently. Lance VOX is optimized for local and cloud inference with transformers and PyTorch.

🌟 Key Features

✅ Custom transformer-based ASR architecture
✅ Supports Hugging Face’s transformers library
✅ Lightweight and optimized for fast transcription
✅ Fully trainable on custom datasets
✅ Designed to evolve with larger datasets and enhanced features

📥 Installation & Setup

You can load Lance VOX using transformers:

from transformers import AutoTokenizer, AutoFeatureExtractor, AutoModelForSeq2SeqLM import librosa

model_name = "NeuraCraft/LanceVox" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) feature_extractor = AutoFeatureExtractor.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForSeq2SeqLM.from_pretrained(model_name, trust_remote_code=True)

audio_path = "your_audio_file.wav" speech_array, sr = librosa.load(audio_path, sr=16000) input_features = feature_extractor(speech_array, sampling_rate=sr, return_tensors="pt").input_features

generated_ids = model.generate(input_features) transcription = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(transcription)

🛠 How to Use Lance VOX

1️⃣ Direct Audio Transcription

audio_path = "sample.wav" speech_array, sr = librosa.load(audio_path, sr=16000) inputs = feature_extractor(speech_array, sampling_rate=sr, return_tensors="pt").input_features output_ids = model.generate(inputs) transcription = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0] print(transcription)

2️⃣ Fine-tuning for Custom Datasets

from transformers import Seq2SeqTrainer, Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments( output_dir="./lance_vox_finetuned", per_device_train_batch_size=8, per_device_eval_batch_size=8, num_train_epochs=3, save_steps=500, )

trainer = Seq2SeqTrainer( model=model, args=training_args, train_dataset=your_dataset, eval_dataset=your_eval_dataset, tokenizer=tokenizer, )

trainer.train()

📊 Performance & Evaluation

Lance VOX is in active development. Early evaluations focus on:

🔹 Word Error Rate (WER) – Measures transcription accuracy

🔹 Real-time transcription latency

🔹 Token prediction accuracy from audio

✅ Planned Enhancements

🔹 Support for multi-language transcription

🔹 Integration with real-time audio streams

🔹 Larger, more diverse training datasets

🔹 Multimodal input with text & speech

🚀 Future Roadmap

Lance VOX is designed to evolve alongside Lance AI:

Planned Features:

🔜 Real-time transcription with minimal latency

🔜 Continuous learning from user corrections

🔜 Multilingual support

🔜 Advanced integration with Lance AI for speech-to-text and command execution

🏗 Development & Contributions

Lance VOX is developed by NeuraCraft. Contributions, dataset suggestions, and feedback are welcome!

Contact & Updates: Developer: NeuraCraft Project Status: 🚧 In Development

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support