Slide 16_9 - 1 (3)

🎙️ Razo — Voz Piper TTS (pt-BR)

A voz masculina mais natural em português brasileiro para modelos leves.
Roda em tempo real em qualquer CPU — sem GPU, sem nuvem.


Visão Geral

Razo é uma voz fine-tuned para o Piper TTS em português brasileiro (pt-BR), com foco em fala conversacional natural no domínio de tecnologia e computação.

Entrega timbre agradável, articulação clara de termos técnicos e síntese em tempo real em qualquer CPU — pensado para desenvolvedores que precisam de uma voz brasileira on-device, funcional em qualquer máquina, do Raspberry Pi ao notebook corporativo.


Características

Propriedade Valor
Idioma Português Brasileiro (pt-BR)
Arquitetura VITS (TTS fim a fim)
Engine de Inferência Piper TTS
Formato ONNX + JSON de mapeamento fonético
Taxa de Amostragem 22.050 Hz
Parâmetros 15,6M
Tipo de Locutor Single-speaker (masculino)
Real-Time Factor < 0,1 (latência sub-zero)

Slide 16_9 - 2 (1)


Desempenho

Razo foi projetado para preencher uma lacuna real no ecossistema de TTS em português brasileiro: vozes agradáveis para uso em agentes de IA, assistentes locais e aplicações on-device simplesmente não existem nesse idioma. As opções que entregam qualidade sonora satisfatória — como modelos acima de 600M de parâmetros — exigem hardware dedicado e inviabilizam qualquer uso embarcado ou em CPU. Razo muda esse cenário.

  • Timbre agradável — qualidade de voz mais suave e agradável que modelos como o Kokoro para uso contínuo, mesmo dentro das limitações prosódicas esperadas de modelos leves
  • Vocabulário técnico — articulação clara de siglas, termos em inglês e jargão de tecnologia que costumam soar mecânicos em outros modelos leves
  • Velocidade — uma CPU comum gera 1 segundo de áudio em menos de 100ms, viabilizando aplicações verdadeiramente em tempo real

Sem GPU. Sem nuvem. Sem picos de latência.
Razo roda inteiramente na CPU e se encaixa confortavelmente em dispositivos embarcados, assistentes locais e pipelines de inferência na borda.


Amostras de Voz

# Texto Áudio
1 Claro! Para quem usa fones de ouvido, o áudio limpo sem ruído de ventilador melhora muito a experiência.
2 Você usa alguma ferramenta de inteligência artificial no seu trabalho?
3 Se tiver qualquer problema, não hesite em nos procurar.

Fonemizador

Razo utiliza o espeak-ng (pt-BR) para conversão grafema-fonema, o mesmo fonemizador utilizado em todo o ecossistema Piper. Isso garante compatibilidade total com todas as ferramentas e pipelines Piper padrão.


Como Usar

Com Piper (CLI)

echo "Olá! Como posso te ajudar hoje?" | \
  piper --model razo.onnx --output_file saida.wav

Com Piper (Python)

import wave
from piper import PiperVoice

voice = PiperVoice.load("razo.onnx", config_path="razo.onnx.json")

with wave.open("saida.wav", "w") as wav_file:
    voice.synthesize("Claro! Aqui está seu resumo.", wav_file)

Requisitos do Sistema

  • CPU: Qualquer processador x86-64 ou ARM64
  • RAM: ~150 MB em tempo de execução
  • SO: Linux, macOS, Windows
  • Dependências: Piper TTS runtime, espeak-ng

Casos de Uso

Razo foi desenvolvido para:

  • Assistentes de IA conversacionais — especialmente agentes que respondem perguntas sobre tecnologia e hardware
  • Pipelines de TTS na borda — inferência local em Raspberry Pi, NUCs e dispositivos Linux embarcados
  • Ferramentas de acessibilidade — leitores de tela e interfaces de áudio em português brasileiro
  • Ferramentas para desenvolvedores — CLIs, integrações em IDEs, narradores de documentação
  • Aplicações em tempo real — qualquer sistema onde latência é uma restrição crítica

Limitações

  • Locutor único — Razo representa um perfil de voz masculina; não suporta síntese multi-locutor
  • Viés de domínio — o corpus é fortemente voltado para vocabulário de tecnologia e computação; desempenho em domínios muito especializados (jurídico, médico, literário) pode ser inferior
  • Taxa de amostragem fixa — 22.050 Hz; upsampling pode introduzir artefatos em pipelines que exigem 44.100 Hz ou superior

Licença

Distribuído sob a Licença MIT.
Consulte LICENSE para mais detalhes.


Construído com Piper TTS · Exportado para ONNX

Downloads last month
95
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Lucasllfs/Razo-piper-voice

Quantized
(23)
this model