Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
|
@@ -247,16 +247,39 @@ def process(image, manual_text):
|
|
| 247 |
|
| 248 |
|
| 249 |
# ========= UI =========
|
| 250 |
-
with gr.Blocks(title="
|
| 251 |
gr.Markdown(
|
| 252 |
"""
|
| 253 |
-
#
|
| 254 |
-
|
| 255 |
-
|
| 256 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 257 |
"""
|
| 258 |
)
|
| 259 |
|
|
|
|
| 260 |
with gr.Row():
|
| 261 |
with gr.Column():
|
| 262 |
img = gr.Image(label="Изображение с дореформенным текстом", type="pil")
|
|
|
|
| 247 |
|
| 248 |
|
| 249 |
# ========= UI =========
|
| 250 |
+
with gr.Blocks(title="Новояз — преобразование дореформенной орфографии") as demo:
|
| 251 |
gr.Markdown(
|
| 252 |
"""
|
| 253 |
+
# Новояз — преобразование дореформенной орфографии в современную
|
| 254 |
+
|
| 255 |
+

|
| 256 |
+
|
| 257 |
+
Загрузите изображение со старой русской орфографией (дореформенной) **или** вставьте такой текст вручную — получите результат в **современной орфографии**. Без лишних комментариев, с сохранением смысла и пунктуации.
|
| 258 |
+
|
| 259 |
+
## Техническая информация
|
| 260 |
+
Внутри используются две открытые модели:
|
| 261 |
+
- **OCR для извлечения текста**: [ChatDOC/OCRFlux-3B](https://huggingface.co/ChatDOC/OCRFlux-3B) — извлекает **буквальный** текст из изображения, включая дореформенные символы.
|
| 262 |
+
- **Преобразование орфографии**: базовая LLM [openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b) + ваша LoRA-надстройка [ZennyKenny/oss-20b-prereform-to-modern-ru-merged](https://huggingface.co/ZennyKenny/oss-20b-prereform-to-modern-ru-merged), применяемая при генерации.
|
| 263 |
+
|
| 264 |
+
Запросы исполняются на **ZeroGPU** (GPU выделяется только на время операции).
|
| 265 |
+
Все модели — **с открытым исходным кодом** и публично доступны на Hugging Face.
|
| 266 |
+
|
| 267 |
+
## Инструкция по использованию
|
| 268 |
+
1. **Если у вас изображение** (фото/скан, PNG/JPG): загрузите файл в блок «Изображение с дореформенным текстом».
|
| 269 |
+
Модель OCR извлечёт текст и покажет его в разделе «Промежуточный текст из OCR».
|
| 270 |
+
2. **Если у вас уже есть текст**: вставьте дореформенный текст в поле «Вставьте дореформенный текст вручную».
|
| 271 |
+
3. Можно **совместить**: и загрузить изображение, и добавить свой текст — они будут объединены перед преобразованием.
|
| 272 |
+
4. Нажмите **«Распознать и преобразовать»** — результат в современной орфографии появится справа.
|
| 273 |
+
5. При необходимости проверьте блок «Промежуточный текст из OCR» и используйте его для сверки.
|
| 274 |
+
|
| 275 |
+
**Подсказки:**
|
| 276 |
+
• Пространство настроено для **длинных документов** (~6 000 токенов на шаг).
|
| 277 |
+
• Если файл очень большой или с множеством страниц, разделите его на части.
|
| 278 |
+
• Сессия ZeroGPU длится до **5 минут**; для особо объёмных материалов запускайте по разделам.
|
| 279 |
"""
|
| 280 |
)
|
| 281 |
|
| 282 |
+
|
| 283 |
with gr.Row():
|
| 284 |
with gr.Column():
|
| 285 |
img = gr.Image(label="Изображение с дореформенным текстом", type="pil")
|