Spaces:

Niko-NN
/

store-dialogs-qa

Sleeping

Niko-NN commited on 30 days ago

Commit

a0c305f

1 Parent(s): 7b455ca

update plan: add domain dictionaries integration strategy

Add dictionary section with planned usage: initial_prompt for Whisper,
post-processing corrections, WER normalization. Update TODO list and
workflow to reflect dictionary integration as high-priority task.

Made-with: Cursor

Files changed (1) hide show

PLAN.md +50 -16

PLAN.md CHANGED Viewed

@@ -54,6 +54,29 @@ Upload через UI   ──┘                      ┘    GigaAM          ┘
   - Спикеры: Продавец, Покупатель
   - Служебные метки: «Начало диалога», «Конец диалога» (фильтруются при расчёте DER)
 ## Модели
 ### Транскрипция (7 моделей)
@@ -158,32 +181,41 @@ onnxruntime>=1.17
 ## Рекомендованный workflow
 ```
-1. Экспорт gold из Label Studio (JSON)
-2. Tab 4 (Бенчмарк) — грубый отбор (3-5 моделей × 2 стратегии × 2-3 файла)
-3. Tab 4 (Бенчмарк) — уточнение (топ-2 модели × все файлы)
-4. Tab 5 (Grid Search) — тонкая настройка параметров лучшей модели
-5. Tab 1 + Tab 3 — финальная проверка на отдельных файлах
 ```
-## Нерешённые проблемы
-1. **Dev Mode не подхватывает git push автоматически** — нужен Factory Reboot
-   после каждого пуша, или ручной `git pull` в терминале Space.
-2. **transformers-whisper бэкенд** (3 русские fine-tuned модели) использует
-   старый `_align_speakers` (сегмент-уровневый) вместо word-level alignment.
-   Нужно добавить `return_timestamps="word"` и `_words_to_speaker_segments`.
-3. **Бенчмарк и Grid Search** не тестировались после исправлений:
    - Удаление двойных пост-фильтров
    - VAD fallback
-   - Word-level alignment
    - Корректная фильтрация служебных меток в evaluation.py
-4. **Pyannote diarization** на тестовом файле присваивает всю речь
    одному спикеру (SPEAKER_01), второй (SPEAKER_00) — только шумовые сегмент��.
    Возможные причины: плохое аудио, параметры `min_speakers`.
 ## История изменений
 1. Базовый пайплайн: pyannote 3.1 + Whisper large-v3 (faster-whisper) + GigaAM
@@ -194,4 +226,6 @@ onnxruntime>=1.17
 6. Переход с ZeroGPU на Nvidia T4 small, фикс Python 3.10, numpy<2
 7. Удаление избыточных пост-фильтров no_speech_prob/avg_logprob
 8. VAD fallback (vad_filter=False при < 3 слов)
-9. **Текущий**: Word-level speaker alignment (word_timestamps=True + midpoint matching)

   - Спикеры: Продавец, Покупатель
   - Служебные метки: «Начало диалога», «Конец диалога» (фильтруются при расчёте DER)
+### Словари домена
+Два справочника для повышения качества транскрипции:
+- **`dictionary/baza_cvetov_24_domain_dictionary_clean.md`** — терминология цветочного магазина:
+  названия цветов, растений, упаковки, инструментов, размеры, цвета и т.д.
+- **`dictionary/baza_cvetov_24_sales_phrases_dictionary.md`** — типовые фразы продавца
+  и покупателя: приветствия, вопросы, предложения, расчёт, прощание.
+**Планируемое использование:**
+1. **`initial_prompt` для Whisper** — подсказка модели о домене и лексике.
+   faster-whisper и transformers поддерживают параметр `initial_prompt`,
+   который задаёт контекст и смещает распознавание к нужной терминологии.
+   Пример: *"Разговор в цветочном магазине. Гвоздики, розы, хризантемы, лилии,
+   герберы, упаковка, лента, букет."*
+2. **Пост-обработка текста** — автозамена частых ошибок распознавания
+   на основе словаря (напр. "воздичек" → "гвоздичек").
+3. **Нормализация для WER** — приведение gold и predicted текста к единому виду
+   перед расчётом метрик (числа, сокращения, регистр).
 ## Модели
 ### Транскрипция (7 моделей)
 ## Рекомендованный workflow
 ```
+1. Factory Reboot Space (подхватить весь новый код)
+2. Загрузить словари домена в датасет (dictionary/)
+3. Экспорт gold из Label Studio (JSON)
+4. Tab 4 (Бенчмарк) — грубый отбор (3-5 моделей × 2 стратегии × 2-3 файла)
+5. Tab 4 (Бенчмарк) — уточнение (топ-2 модели × все файлы)
+6. Добавить initial_prompt из словаря → повторить бенчмарк
+7. Tab 5 (Grid Search) — тонкая настройка параметров лучшей модели
+8. Добавить пост-обработку ошибок из словаря → финальный замер
+9. Tab 1 + Tab 3 — финальная проверка на отдельных файлах
 ```
+## Нерешённые проблемы / TODO
+1. **Factory Reboot Space** — Dev Mode не подхватывает git push автоматически.
+   Нужен ручной Factory Reboot для применения накопленных изменений.
+2. **Бенчмарк и Grid Search** не тестировались после исправлений:
    - Удаление двойных пост-фильтров
    - VAD fallback
+   - Word-level alignment (faster-whisper + transformers-whisper)
    - Корректная фильтрация служебных меток в evaluation.py
+3. **Pyannote diarization** на тестовом файле присваивает всю речь
    одному спикеру (SPEAKER_01), второй (SPEAKER_00) — только шумовые сегмент��.
    Возможные причины: плохое аудио, параметры `min_speakers`.
+4. **Интеграция словарей домена** (приоритет — высокий):
+   - [ ] Загрузить словари в `Niko-NN/gold-store-dialogs/dictionary/`
+   - [ ] Сформировать `initial_prompt` из ключевых терминов словаря
+   - [ ] Передавать `initial_prompt` в faster-whisper (`model.transcribe(initial_prompt=...)`)
+     и transformers (`generate_kwargs={"prompt_ids": ...}`)
+   - [ ] Добавить `initial_prompt` как параметр Grid Search
+   - [ ] Реализовать пост-обработку с автозаменой частых ошибок
+   - [ ] Добавить нормализацию текста перед расчётом WER/CER
 ## История изменений
 1. Базовый пайплайн: pyannote 3.1 + Whisper large-v3 (faster-whisper) + GigaAM
 6. Переход с ZeroGPU на Nvidia T4 small, фикс Python 3.10, numpy<2
 7. Удаление избыточных пост-фильтров no_speech_prob/avg_logprob
 8. VAD fallback (vad_filter=False при < 3 слов)
+9. Word-level speaker alignment (word_timestamps=True + midpoint matching)
+10. Word-level alignment для transformers-whisper (return_timestamps="word")
+11. **Текущий**: Планирование интеграции словарей домена (initial_prompt, пост-обработка)