ZennyKenny commited on
Commit
1b72204
·
verified ·
1 Parent(s): 5c250cc

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +28 -5
app.py CHANGED
@@ -247,16 +247,39 @@ def process(image, manual_text):
247
 
248
 
249
  # ========= UI =========
250
- with gr.Blocks(title="Pre-reform Modern Russian (OCR + ZeroGPU)") as demo:
251
  gr.Markdown(
252
  """
253
- # Преобразование дореформенной современной орфографии OCR)
254
- 1) Загрузите изображение с дореформенным текстом (фотография/скан), **или** вставьте текст вручную.
255
- 2) Модель **OCRFlux-3B** извлечёт текст, затем **OSS-20B + LoRA** преобразует его в современную орфографию.
256
- **Параметры генерации скрыты и настроены для длинных документов (≈ 6 000 токенов).**
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
257
  """
258
  )
259
 
 
260
  with gr.Row():
261
  with gr.Column():
262
  img = gr.Image(label="Изображение с дореформенным текстом", type="pil")
 
247
 
248
 
249
  # ========= UI =========
250
+ with gr.Blocks(title="Новояз преобразование дореформенной орфографии") as demo:
251
  gr.Markdown(
252
  """
253
+ # Новояз преобразование дореформенной орфографии в современную
254
+
255
+ ![Новояз Логотип](https://i.ibb.co/JWWws0SK/image.png)
256
+
257
+ Загрузите изображение со старой русской орфографией (дореформенной) **или** вставьте такой текст вручную — получите результат в **современной орфографии**. Без лишних комментариев, с сохранением смысла и пунктуации.
258
+
259
+ ## Техническая информация
260
+ Внутри используются две открытые модели:
261
+ - **OCR для извлечения текста**: [ChatDOC/OCRFlux-3B](https://huggingface.co/ChatDOC/OCRFlux-3B) — извлекает **буквальный** текст из изображения, включая дореформенные символы.
262
+ - **Преобразование орфографии**: базовая LLM [openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b) + ваша LoRA-надстройка [ZennyKenny/oss-20b-prereform-to-modern-ru-merged](https://huggingface.co/ZennyKenny/oss-20b-prereform-to-modern-ru-merged), применяемая при генерации.
263
+
264
+ Запросы исполняются на **ZeroGPU** (GPU выделяется только на время операции).
265
+ Все модели — **с открытым исходным кодом** и публично доступны на Hugging Face.
266
+
267
+ ## Инструкция по использованию
268
+ 1. **Если у вас изображение** (фото/скан, PNG/JPG): загрузите файл в блок «Изображение с дореформенным текстом».
269
+ Модель OCR извлечёт текст и покажет его в разделе «Промежуточный текст из OCR».
270
+ 2. **Если у вас уже есть текст**: вставьте дореформенный текст в поле «Вставьте дореформенный текст вручную».
271
+ 3. Можно **совместить**: и загрузить изображение, и добавить свой текст — они будут объединены перед преобразованием.
272
+ 4. Нажмите **«Распознать и преобразовать»** — результат в современной орфографии появится справа.
273
+ 5. При необходимости проверьте блок «Промежуточный текст из OCR» и используйте его для сверки.
274
+
275
+ **Подсказки:**
276
+ • Пространство настроено для **длинных документов** (~6 000 токенов на шаг).
277
+ • Если файл очень большой или с множеством страниц, разделите его на части.
278
+ • Сессия ZeroGPU длится до **5 минут**; для особо объёмных материалов запускайте по разделам.
279
  """
280
  )
281
 
282
+
283
  with gr.Row():
284
  with gr.Column():
285
  img = gr.Image(label="Изображение с дореформенным текстом", type="pil")