NoteMaker
Краткое описание
Проект представляет собой систему, которая принимает на вход изображение с английским текстом и последовательно выполняет три шага:
- распознавание текста,
- анализ тональности текста,
- составление сжатого конспекта,
- озвучивание полученного конспекта.
Архитектура системы
Использованные модели
Распознавание текста выполняется EasyOCR.
Распознанный текст подаётся в модель distilbert-base-uncased-finetuned-sst-2-english для определения тональности.
Для сжатия текста до конспекта используется модель sshleifer/distilbart-cnn-12-6.
Полученный конспект передаётся в модель facebook/mms-tts-eng (VITS), которая генерирует аудио в формате WAV.