Resultados e dúvidas.

by Bubarino - opened Jan 29, 2025

Jan 29, 2025

Olá, boa noite. Eu tenho algumas dúvidas como: o modelo tem problema de pular palavra? Funciona com vozes mais expressivas como a do Bob esponja?

firstpixel

Owner Jan 29, 2025

Ola, boa noite. Não fiz esse teste, mas acredito que não.

Bubarino

Jan 29, 2025

Ola, boa noite. Não fiz esse teste, mas acredito que não.

Se refere a primeira ou segunda pergunta?

firstpixel

Owner Jan 29, 2025

Foi referente a segunda pergunta do cartoon.
Quanto a primeira, nos testes que fiz ele não pula palavras, pode ver nos exemplos de audio disponíveis, foram gerados no gradio do original, se não me engano limitam a 15s, o contexto é curto então recomendo utilizar a classe que gera por linhas, e caso coma palavras, pode quebrar em duas linhas, no final ele junta todos audios em um só, a classe está junto AgentF5TTSChunk.
Quanto a voz de cartoon, caso queira pode treinar a partir desse ponto, o tokenizer é o orginal, e os arquivos pt, possuem checkpoint, a inferência não está perfeita, precisa de mais variações de audios, para esse tipo de voz, precisa de treinamento.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment