Spaces:

lsdf
/

ai-seo-analyzer

Sleeping

App Files Files Community

ai-seo-analyzer / docs /ARCHITECTURE.md

lsdf

Initial commit: SEO AI Editor MVP with BERT, BM25 and N-gram analysis

e0ad138 3 months ago

preview code

raw

history blame contribute delete

12.1 kB

Архитектура проекта

Обзор

SEO AI Editor построен на архитектуре клиент-сервер с использованием FastAPI для backend и простого HTML/JavaScript для frontend.

Структура проекта

seo_ai_editor/
├── main.py              # Точка входа, FastAPI приложение
├── logic.py             # Бизнес-логика и алгоритмы анализа
├── models.py            # Pydantic модели данных
├── requirements.txt     # Python зависимости
├── templates/
│   └── index.html       # Frontend интерфейс
├── docs/                # Документация
│   ├── API.md
│   ├── ARCHITECTURE.md
│   └── DEVELOPMENT.md
└── README.md            # Основная документация

Компоненты системы

1. Backend (FastAPI)

`main.py` - Веб-сервер

Ответственность:

Инициализация FastAPI приложения
Роутинг HTTP запросов
Предзагрузка моделей при старте
Обработка запросов и формирование ответов

Ключевые функции:

startup_event() - загрузка моделей при старте
read_root() - отдача главной страницы
analyze_text() - обработка запроса на анализ

`logic.py` - Бизнес-логика

Разделен на три модуля:

A. SPACY (Лингвистический анализ)

Модели:

Глобальный словарь LoadedModels для кэширования загруженных spaCy моделей
Поддержка 5 языков: en, ru, de, es, it

Функции:

load_model_if_missing(lang) - ленивая загрузка моделей
load_models() - предзагрузка всех моделей
get_doc(text, lang) - получение spaCy документа
is_valid_token(t) - фильтрация токенов (удаление мусора)
get_lemmas_flat(text, lang) - получение списка лемм
generate_ngrams_safe(text, lang, n) - генерация N-грамм с умной фильтрацией

Особенности:

Сохранение стоп-слов внутри фраз для читаемости
Фильтрация N-грамм, состоящих только из стоп-слов
Обработка больших текстов (max_length = 2,000,000)

B. ANALYTICS (N-граммы и BM25)

Функции:

calculate_ngram_stats() - статистика по N-граммам (1-4)
parse_keywords() - парсинг ключевых фраз
calculate_bm25_recommendations() - многоуровневый BM25 анализ

Алгоритм BM25 (с полной декомпозицией фраз):

Декомпозиция ключевых фраз: Для каждой ключевой фразы генерируются все возможные под-н-граммы длиной от 1 до 3 слов
- Пример: фраза "chicken road casino" разбивается на:
  - Униграммы: "chicken", "road", "casino"
  - Биграммы: "chicken road", "road casino"
  - Триграммы: "chicken road casino"
- Используется скользящее окно по токенам фразы
- Дубликаты отслеживаются через set для оптимизации
Генерация N-грамм для целевого текста и конкурентов (униграммы, биграммы, триграммы)
Обучение BM25 модели на корпусе N-грамм для каждого уровня (1, 2, 3)
Расчет BM25 скоров для каждой декомпозированной фразы
Сравнение скоров целевого текста со средним скором конкурентов
Генерация рекомендаций (add/remove/ok) на основе пороговых значений
Сортировка результатов: сначала проблемные (add/remove), затем по длине фразы, затем алфавитно

Пороги:

Униграммы: 0.5
Биграммы: 0.25
Триграммы: 0.15

Особенности:

Полная декомпозиция позволяет анализировать не только целые фразы, но и их части
Это особенно полезно для длинных ключевых фраз, которые могут встречаться в тексте частично
Автоматическое удаление дубликатов при декомпозиции

C. BERT / VECTOR ANALYSIS

Модель:

Глобальная переменная BertModel для кэширования
Модель: paraphrase-multilingual-MiniLM-L12-v2
Автоматическое определение устройства (CPU/GPU)

Функции:

get_bert_model() - загрузка BERT модели
perform_bert_analysis() - семантический анализ

Алгоритм BERT анализа:

Разбиение текстов на предложения (chunks)
Генерация эмбеддингов для всех chunks и ключевых фраз
Расчет косинусного сходства между ключевыми фразами и chunks
Global Score: средний максимальный score по всем ключам
Detailed Analysis: топ-5 наиболее релевантных chunks для каждой фразы

`models.py` - Модели данных

Pydantic модели:

AnalysisRequest - входные данные для анализа
AnalysisResponse - структура ответа API

2. Frontend

`templates/index.html`

Технологии:

Bootstrap 5 для UI
Vanilla JavaScript (без фреймворков)
AJAX для взаимодействия с API

Компоненты:

Форма ввода данных
Табы для отображения результатов
Динамическое добавление полей конкурентов
Визуализация результатов анализа

Поток данных

1. Пользователь вводит данные в форму
   ↓
2. JavaScript собирает данные и отправляет POST /analyze
   ↓
3. FastAPI получает запрос, валидирует через Pydantic
   ↓
4. main.py вызывает функции из logic.py:
   - calculate_ngram_stats()
   - parse_keywords()
   - calculate_bm25_recommendations()
   - perform_bert_analysis()
   ↓
5. Каждая функция использует:
   - spaCy для лингвистики
   - BM25 для частотного анализа
   - BERT для семантики
   ↓
6. Результаты собираются в AnalysisResponse
   ↓
7. JSON ответ отправляется клиенту
   ↓
8. JavaScript рендерит результаты в UI

Управление состоянием

Backend

Глобальные переменные:

LoadedModels - кэш загруженных spaCy моделей
BertModel - кэш BERT модели

Стратегия:

Модели загружаются один раз при первом использовании
Предзагрузка spaCy моделей при старте (опционально)
BERT модель загружается лениво при первом запросе

Frontend

Состояние:

currentData - последние результаты анализа
DOM состояние для табов и форм

Производительность

Оптимизации

Кэширование моделей:
- spaCy модели загружаются один раз
- BERT модель загружается один раз
Ленивая загрузка:
- spaCy модели загружаются только для используемых языков
- BERT модель загружается при первом запросе
GPU ускорение:
- Автоматическое использование CUDA для BERT
- Значительное ускорение на GPU
Ограничения:
- N-граммы ограничены 150 элементами на тип
- Топ-5 chunks для BERT анализа

Ограничения

Максимальная длина текста для spaCy: 2,000,000 символов
Память: зависит от размера моделей и длины текстов
Время обработки: зависит от длины текстов и наличия GPU

Масштабируемость

Текущие ограничения

Однопоточная обработка запросов
Модели загружаются в память
Нет кэширования результатов

Возможные улучшения

Асинхронность:
- Использование async/await для I/O операций
- Параллельная обработка конкурентов
Кэширование:
- Redis для кэширования результатов
- Кэширование эмбеддингов
Микросервисы:
- Отдельный сервис для BERT
- Отдельный сервис для spaCy
База данных:
- Сохранение истории анализов
- Статистика использования

Безопасность

Текущее состояние

Нет аутентификации
Нет ограничений на размер запросов
Нет валидации входных данных (кроме Pydantic)

Зависимости

Критические

fastapi - веб-фреймворк
spacy - NLP библиотека
sentence-transformers - BERT модели
rank-bm25 - BM25 алгоритм
torch - глубокое обучение

Вспомогательные

uvicorn - ASGI сервер
pydantic - валидация данных
jinja2 - шаблонизация
numpy - численные вычисления

Расширяемость

Добавление нового языка

Установить spaCy модель для языка
Добавить в MODEL_NAMES в logic.py
Добавить опцию в UI (templates/index.html)

Добавление новой модели BERT

Изменить модель в get_bert_model()
Убедиться в совместимости с sentence-transformers

Добавление нового типа анализа

Создать функцию в logic.py
Добавить вызов в analyze_text() в main.py
Добавить поле в AnalysisResponse
Обновить UI для отображения результатов

Архитектура проекта

Обзор

Структура проекта

Компоненты системы

1. Backend (FastAPI)

main.py - Веб-сервер

logic.py - Бизнес-логика

A. SPACY (Лингвистический анализ)

B. ANALYTICS (N-граммы и BM25)

C. BERT / VECTOR ANALYSIS

models.py - Модели данных

2. Frontend

templates/index.html

Поток данных

Управление состоянием

Backend

Frontend

Производительность

Оптимизации

Ограничения

Масштабируемость

Текущие ограничения

Возможные улучшения

Безопасность

Текущее состояние

Рекомендации

Зависимости

Критические

Вспомогательные

Расширяемость

Добавление нового языка

Добавление новой модели BERT

Добавление нового типа анализа

`main.py` - Веб-сервер

`logic.py` - Бизнес-логика

`models.py` - Модели данных

`templates/index.html`