Moonshine-MN: Mongolian ASR

Fine-tuned UsefulSensors/moonshine-base on Mongolian (Cyrillic) speech from Mozilla Common Voice.

Performance

Checkpoint	WER
final (step 15000)	11.88%

Quickstart

from transformers import MoonshineForConditionalGeneration, AutoFeatureExtractor
from huggingface_hub import hf_hub_download
from moonshine_ft.mn_tokenizer import MnBPETokenizer
import torch

model = MoonshineForConditionalGeneration.from_pretrained("orgilj/moonshine-mn")
fe    = AutoFeatureExtractor.from_pretrained("orgilj/moonshine-mn")
bpe   = hf_hub_download("orgilj/moonshine-mn", "mn_bpe.model")
tok   = MnBPETokenizer(vocab_file=bpe)

def transcribe(wav_float32_16k):
    inp = fe(wav_float32_16k, sampling_rate=16000, return_tensors="pt")
    with torch.no_grad():
        ids = model.generate(inp.input_values, max_new_tokens=100)
    return tok.decode_ids(ids[0].tolist())

Live streaming

# From finetune-moonshine-asr repo:
python scripts/stream_mn.py --model orgilj/moonshine-mn --live

Training details

Base: moonshine-base (hidden_size=416, 8-layer enc+dec)
Tokenizer: custom Mongolian SentencePiece BPE (vocab 2003)
Data: Mozilla Common Voice Mongolian
LR: 1e-4 cosine, warmup 500 steps, 15000 total steps, fp16, batch 64

Downloads last month: 45

Safetensors

Model size

48.7M params

Tensor type

F32

Model tree for orgilj/moonshine-mn

Base model

UsefulSensors/moonshine-base

Finetuned

(6)

this model