Spaces:

ZennyKenny
/

Novoyaz

Sleeping

App Files Files Community

ZennyKenny commited on Sep 28

Commit

1b72204

verified ·

1 Parent(s): 5c250cc

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -5

app.py CHANGED Viewed

@@ -247,16 +247,39 @@ def process(image, manual_text):
 # ========= UI =========
-with gr.Blocks(title="Pre-reform → Modern Russian (OCR + ZeroGPU)") as demo:
     gr.Markdown(
         """
-        # Преобразование дореформенной → современной орфографии (с OCR)
-        1) Загрузите изображение с дореформенным текстом (фотография/скан), **или** вставьте текст вручную.
-        2) Модель **OCRFlux-3B** извлечёт текст, затем **OSS-20B + LoRA** преобразует его в современную орфографию.
-        **Параметры генерации скрыты и настроены для длинных документов (≈ 6 000 токенов).**
         """
     )
     with gr.Row():
         with gr.Column():
             img = gr.Image(label="Изображение с дореформенным текстом", type="pil")

 # ========= UI =========
+with gr.Blocks(title="Новояз — преобразование дореформенной орфографии") as demo:
     gr.Markdown(
         """
+        # Новояз — преобразование дореформенной орфографии в современную
+        ![Новояз Логотип](https://i.ibb.co/JWWws0SK/image.png)
+        Загрузите изображение со старой русской орфографией (дореформенной) **или** вставьте такой текст вручную — получите результат в **современной орфографии**. Без лишних комментариев, с сохранением смысла и пунктуации.
+        ## Техническая информация
+        Внутри используются две открытые модели:
+        - **OCR для извлечения текста**: [ChatDOC/OCRFlux-3B](https://huggingface.co/ChatDOC/OCRFlux-3B) — извлекает **буквальный** текст из изображения, включая дореформенные символы.
+        - **Преобразование орфографии**: базовая LLM [openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b) + ваша LoRA-надстройка [ZennyKenny/oss-20b-prereform-to-modern-ru-merged](https://huggingface.co/ZennyKenny/oss-20b-prereform-to-modern-ru-merged), применяемая при генерации.
+        Запросы исполняются на **ZeroGPU** (GPU выделяется только на время операции).
+        Все модели — **с открытым исходным кодом** и публично доступны на Hugging Face.
+        ## Инструкция по использованию
+        1. **Если у вас изображение** (фото/скан, PNG/JPG): загрузите файл в блок «Изображение с дореформенным текстом».
+           Модель OCR извлечёт текст и покажет его в разделе «Промежуточный текст из OCR».
+        2. **Если у вас уже есть текст**: вставьте дореформенный текст в поле «Вставьте дореформенный текст вручную».
+        3. Можно **совместить**: и загрузить изображение, и добавить свой текст — они будут объединены перед преобразованием.
+        4. Нажмите **«Распознать и преобразовать»** — результат в современной орфографии появится справа.
+        5. При необходимости проверьте блок «Промежуточный текст из OCR» и используйте его для сверки.
+        **Подсказки:**
+        • Пространство настроено для **длинных документов** (~6 000 токенов на шаг).
+        • Если файл очень большой или с множеством страниц, разделите его на части.
+        • Сессия ZeroGPU длится до **5 минут**; для особо объёмных материалов запускайте по разделам.
         """
     )
     with gr.Row():
         with gr.Column():
             img = gr.Image(label="Изображение с дореформенным текстом", type="pil")