NoteMaker / README.md
ASureevaA
edit
09aa316
|
raw
history blame
1.21 kB

NoteMaker

Краткое описание

Проект представляет собой систему, которая принимает на вход изображение с английским текстом и последовательно выполняет три шага:

  • распознавание текста,
  • анализ тональности текста,
  • составление сжатого конспекта,
  • озвучивание полученного конспекта.

Архитектура системы

Архитектура

Использованные модели

Распознавание текста выполняется EasyOCR.

Распознанный текст подаётся в модель distilbert-base-uncased-finetuned-sst-2-english для определения тональности.

Для сжатия текста до конспекта используется модель sshleifer/distilbart-cnn-12-6.

Полученный конспект передаётся в модель facebook/mms-tts-eng (VITS), которая генерирует аудио в формате WAV.