Spaces:

RafaG
/

ViralCutterPRO

Sleeping

Aprimoramento de prompt para LLM: melhorias no prompt para permitir que o modelo de linguagem compreenda melhor o contexto do conteúdo.
Aprimoramento na detecção facial: melhorias na identificação de rostos quando várias pessoas estão falando simultaneamente.
Seleção de Qualidade de Vídeo: agora é possível escolher a qualidade desejada para download de vídeos (Melhor, 1080p, 720p, 480p) diretamente pela WebUI ou CLI, permitindo otimizar entre velocidade e uso de armazenamento.
Controle de Legendas do YouTube: adicionada a opção de ignorar o download de legendas oficiais do YouTube, permitindo forçar uma nova transcrição via Whisper, se desejado.
Suporte a VTT: o script de transcrição foi aprimorado para oferecer suporte a arquivos de legenda .vtt para alinhamento, garantindo maior compatibilidade.
Tradução de legendas em JSON com destaque palavra por palavra: adicionada a tradução de legendas no formato JSON, permitindo highlight e sincronização word-by-word em outro idioma durante a exibição.

yt-dlp mais robusto: corrigidos problemas em que downloads de vídeo estavam sendo salvos como “Unknown_Video” e exibiam progresso incorreto. Também foram adicionados logs de progresso mais precisos e suporte aprimorado ao download de legendas.
Otimização de Legendas do YouTube: quando legendas do YouTube estão disponíveis, o sistema agora faz o download automático e as utiliza apenas para alinhamento, pulando o processo pesado e demorado de transcrição. Isso acelera significativamente o processamento de vídeos que já possuem legendas.

Active Speaker & Face Controls

Filtros de Face: Controle granular para ignorar rostos pequenos, definir limite de confiança minimiza falsos positivos e "Zona Morta" para estabilizar a câmera.
Experimental: Active Speaker: Novo modo experimental que tenta focar na pessoa que está falando (detecção de boca aberta e movimento), em vez de sempre dividir a tela.
Legendas: Opção para remover pontuação automaticamente.

Editor de Legendas: Adicionado um editor de legendas simples, dentro das limitações do Gradio, para corrigir erros de ortografia ocorridos durante o uso do WhisperX.

OpusClip Inspired: Nova interface gráfica construída com Gradio, inspirada no design do OpusClip, oferecendo uma experiência de usuário moderna e intuitiva.
Funcionalidades da UI: Ajustes completos para garantir que todas as funcionalidades da ferramenta estejam acessíveis e operantes através da nova interface.

Instalação via UV: Criação de script .bat para instalação otimizada de dependências utilizando o uv, acelerando o processo de setup.
Fixes Gerais: Correções em diversos componentes que estavam quebrados ou instáveis, garantindo maior estabilidade na execução via UI.

Dark & Modern UI: Interface completamente redesenhada com tema escuro e layout em grid responsivo (estilo Opus.pro) para a galeria de vídeos.
Dynamic Configuration: Componentes da interface agora reagem dinamicamente à escolha do Backend de IA, atualizando automaticamente a lista de modelos disponíveis e o tamanho sugerido de chunk.
Improved Controls: Controle granular sobre Face Detect Interval, Skip Prompts, e Chunk Size diretamente na interface web.
Refactoring: Código da WebUI refatorado e modularizado (library.py separado do app.py) para melhor manutenção.

Arguments Expansion: main_improved.py agora aceita argumentos de linha de comando para --chunk-size e --ai-model-name, permitindo override total da configuração.
Script Update: create_viral_segments.py atualizado para respeitar os parâmetros passados via CLI, priorizando-os sobre o arquivo de configuração.

Consistência Visual (2 Faces): Implementada lógica para "travar" a identidade dos rostos nas posições superior e inferior, impedindo que os participantes troquem de lugar durante o vídeo.
Lógica de Fallback Inteligente: Caso o rosto não seja detectado no frame atual, o sistema agora tenta recuperar a posição baseada no frame anterior, posterior ou na última coordenada válida conhecida.
Intervalo de Detecção Personalizável: Adicionada configuração para o usuário escolher a frequência da varredura facial, permitindo otimizar o tempo de renderização.

Correção de Sobreposição: Resolvido bug onde legendas apareciam sobrepostas em momentos de fala rápida.
Refinamento de Centralização (2 Faces): Ajustes adicionais no cálculo de posição para garantir que a legenda fique perfeitamente centralizada no modo dividido.

Refatoração do Script Principal: Criação e aprimoramento do main_improved.py para melhorar a estrutura e manutenibilidade do pipeline de processamento.
Padronização de Código (Inglês): Tradução completa de nomes de variáveis, funções e comentários internos para inglês, visando compatibilidade com padrões internacionais e colaboração open-source, mantendo logs de saída com suporte a i18n (en_US/pt_BR).
Ajuste de Diretórios: Reorganização da estrutura de pastas e caminhos de saída para maior organização dos arquivos gerados.

Integração Multi-LLM: Implementação de suporte ao g4f (GPT-4 Free) e Google Gemini.
API Config: Centralização das chaves e seleção de modelos no novo arquivo api_config.json, permitindo troca rápida de provedor de IA sem alterar o código.
Gerenciamento de Prompts: Criação do arquivo prompt.txt para edição fácil do prompt do sistema.

Correções no Whisper: Solução robusta para erros de unpickling, conflitos de DLLs (libprotobuf, torchaudio) e detecção de GPU.
Otimização do Fluxo (Slicing): O vídeo original é transcrito apenas uma vez. Os cortes reutilizam o JSON original, eliminando a re-transcrição e acelerando o processo.
Posicionamento de Legendas: Correção da lógica de alinhamento para centralização no modo "2-face".

Novo Motor: InsightFace: Adição da biblioteca InsightFace como motor de detecção facial de alta precisão.
MediaPipe: Manutenção e correção de erros no fallback para o MediaPipe.
Limpeza de Logs: Redução da verbosidade dos logs do FFmpeg no console.