Update GitHub link to canonical github.com/mudler/italian-asr

d9226df verified 6 days ago

2.35 kB

language: it
license: mit
tags:
  - whisper
  - automatic-speech-recognition
  - italian
  - localai
datasets:
  - mozilla-foundation/common_voice_25_0
  - facebook/multilingual_librispeech
  - facebook/voxpopuli
base_model: openai/whisper-large-v3
pipeline_tag: automatic-speech-recognition

whisper-large-v3-it-multi

Fine-tuned openai/whisper-large-v3 (1.55B params) for Italian ASR on multiple datasets.

Author: Ettore Di Giacinto

Brought to you by the LocalAI team. This model can be used directly with LocalAI.

Usage with LocalAI

This model is ready to use with LocalAI via the whisperx backend.

Save the following as whisperx-large-v3-it-multi.yaml in your LocalAI models directory:

name: whisperx-large-v3-it-multi
backend: whisperx
known_usecases:
  - transcript
parameters:
  model: LocalAI-io/whisper-large-v3-it-multi-ct2-int8
  language: it

Then transcribe audio via the OpenAI-compatible endpoint:

curl http://localhost:8080/v1/audio/transcriptions \
  -H "Content-Type: multipart/form-data" \
  -F file="@audio.mp3" \
  -F model="whisperx-large-v3-it-multi"

Training Details

Base model: openai/whisper-large-v3 (1.55B parameters)
Datasets: Common Voice 25.0 Italian (173k) + MLS Italian (60k) + VoxPopuli Italian (23k) = 255k train samples
Steps: 10,000
Precision: bf16 on NVIDIA GB10
Note: trained with --no-eval; final WER to be measured separately

Usage

Transformers

from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="LocalAI-io/whisper-large-v3-it-multi")
result = pipe("audio.mp3", generate_kwargs={"language": "it", "task": "transcribe"})
print(result["text"])

CTranslate2 / faster-whisper

For optimized CPU inference: LocalAI-io/whisper-large-v3-it-multi-ct2-int8

LocalAI-io
/

whisper-large-v3-it-multi