Instructions to use syvai/plapre-turbo with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use syvai/plapre-turbo with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="syvai/plapre-turbo",
	filename="gguf/plapre-turbo.f16.gguf",
)

output = llm(
	"Once upon a time,",
	max_tokens=512,
	echo=True
)
print(output)

Notebooks
Google Colab
Kaggle
Local Apps Settings

llama.cpp

How to use syvai/plapre-turbo with llama.cpp:

Install (macOS, Linux)

curl -LsSf https://llama.app/install.sh | sh
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf syvai/plapre-turbo:Q4_K_M
# Run inference directly in the terminal:
llama cli -hf syvai/plapre-turbo:Q4_K_M

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf syvai/plapre-turbo:Q4_K_M
# Run inference directly in the terminal:
llama cli -hf syvai/plapre-turbo:Q4_K_M

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf syvai/plapre-turbo:Q4_K_M
# Run inference directly in the terminal:
./llama-cli -hf syvai/plapre-turbo:Q4_K_M

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf syvai/plapre-turbo:Q4_K_M
# Run inference directly in the terminal:
./build/bin/llama-cli -hf syvai/plapre-turbo:Q4_K_M

Use Docker

docker model run hf.co/syvai/plapre-turbo:Q4_K_M

LM Studio
Jan
Ollama
How to use syvai/plapre-turbo with Ollama:
```
ollama run hf.co/syvai/plapre-turbo:Q4_K_M
```

Unsloth Studio

How to use syvai/plapre-turbo with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for syvai/plapre-turbo to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for syvai/plapre-turbo to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for syvai/plapre-turbo to start chatting

Atomic Chat new
Docker Model Runner
How to use syvai/plapre-turbo with Docker Model Runner:
```
docker model run hf.co/syvai/plapre-turbo:Q4_K_M
```

Lemonade

How to use syvai/plapre-turbo with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull syvai/plapre-turbo:Q4_K_M

Run and chat with the model

lemonade run user.plapre-turbo-Q4_K_M

List all available models

lemonade list

Plapre Turbo - Dansk Tekst-til-Tale

Dansk TTS-model med talerkonditionering og stemmekloningssupport. Genererer 24kHz lyd fra dansk tekst ved hjælp af autoregressiv lydtoken-prædiktion.

Modeldetaljer


Arkitektur	SmolLM2-360M (LLaMA-baseret, 32 lag, hidden_size=960)
Parametre	~327M (base) + 123K (talerprojektion)
Vocab-størrelse	20.884 (8000 BPE + 78 fonem + 12.800 lyd + separatorer)
Lydtokenizer	Kanade (25 tokens/sek, 12.800 codebook)
Fonemisering	espeak-ng (dansk IPA)
Samplerate	24kHz
Præcision	bfloat16

Sådan virker det

Modellen tager dansk tekst, konverterer den til BPE-tokens og IPA-fonemer, og genererer autoregressivt Kanade-lydtokens, som afkodes til en lydbølge.

Sekvensformat:

[speaker_embedding] <text> BPE tokens </text> <phonemes> phone tokens </phonemes> <audio> audio tokens </audio> <eos>

Talerkonditionering: En indlært lineær projektion (nn.Linear(128, 960)) mapper en 128-dimensionel Kanade-talerembedding til modellens skjulte dimension. Denne indsættes som det første token i sekvensen, så modellen kan konditionere på taleridentitet via attention. Til stemmekloning udtrækkes talerembeddingen fra et referenceaudioklip via Kanade-encoderen.

Installation

Kræver Python 3.12+ og espeak-ng.

# Installér espeak-ng
# macOS
brew install espeak-ng
# Ubuntu/Debian
sudo apt install espeak-ng

# Installér plapre
uv add git+https://github.com/syv-ai/plapre.git

Ydeevne (RTX 4090)

Kun token-generering (ekskl. vocoder og filskrivning):

Tilstand	Tokens/sek	Realtidsfaktor	Gennemløb
Enkelt (q8_0)	383	0,065	15,3x realtid
Enkelt (q4_k_m)	412	0,061	16,5x realtid
Batch=4 (q8_0)	869	0,029	34,8x realtid
Batch=16 (q8_0)	1.334	0,019	53,3x realtid
Batch=16 (q4_k_m)	1.507	0,017	60,3x realtid

Inferens

from plapre import Plapre

tts = Plapre("syvai/plapre-turbo")
tts.speak("Hej, hvordan har du det?", output="output.wav")

Kvantisering

GGUF-modeller downloades automatisk. Tilgængelige kvantiseringer: f16, q8_0 (standard), q6_k, q4_k_m, q4_0.

tts = Plapre("syvai/plapre-turbo", quant="q4_k_m")

Eller brug en lokal GGUF-fil:

tts = Plapre("syvai/plapre-turbo", model_path="/sti/til/model.gguf")

Vælg en taler

Indbyggede talere indlæses fra pakken. Den første taler bruges som standard.

tts.speak("Hej med dig.", output="output.wav", speaker="nic")

Stemmekloning

tts.speak("Hej med dig.", output="cloned.wav", speaker_wav="reference.wav")

Lange tekster med sætningsopdeling

Sætninger genereres parallelt i en batch for højere gennemløb:

tts.speak(
    "Første sætning. Anden sætning. Tredje sætning!",
    output="long.wav",
    split_sentences=True,
)

Genereringsparametre

tts.speak(
    "Hej verden.",
    output="output.wav",
    temperature=0.8,     # sampling-temperatur (standard: 0.8)
    top_p=0.95,          # nucleus sampling (standard: 0.95)
    top_k=50,            # top-k sampling (standard: 50)
    max_tokens=500,      # maks lydtokens at generere (standard: 500)
)

Udtræk en talerembedding

Udtræk en 128-dim talerembedding fra en wav-fil og genbrug den på tværs af flere genereringer:

speaker_emb = tts.extract_speaker("reference.wav")
tts.speak("Hej.", output="a.wav", speaker_emb=speaker_emb)
tts.speak("Farvel.", output="b.wav", speaker_emb=speaker_emb)

Udskift taler (stemmekonvertering)

Udskift taleren i en eksisterende lydfil og behold indholdet:

tts.replace_speaker("kilde.wav", output="konverteret.wav", speaker="nic")

# Eller brug en referencefil som målstemme
tts.replace_speaker("kilde.wav", output="konverteret.wav", speaker_wav="målstemme.wav")

Returværdi

speak() returnerer lyden som et numpy-array (24 kHz, float32) ud over at gemme filen:

audio = tts.speak("Hej.", output="output.wav")
print(f"Varighed: {len(audio) / 24000:.2f}s")

Downloads last month: 63

Safetensors

Model size

0.3B params

Tensor type

BF16