Spaces:

itemaz
/

litrix

Sleeping

App Files Files Community

itemaz commited on Mar 26

Commit

9095d2c

verified ·

1 Parent(s): ec9b12f

Update summary/views.py

Browse files

Files changed (1) hide show

summary/views.py +40 -33

summary/views.py CHANGED Viewed

@@ -13,6 +13,7 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import torch
 from deep_translator import GoogleTranslator
 # --- НАСТРОЙКИ ОКРУЖЕНИЯ ---
 os.environ['TRANSFORMERS_CACHE'] = '/tmp/.cache'
 os.environ['HF_HOME'] = '/tmp/.cache'
@@ -21,13 +22,16 @@ os.environ['FLAGS_enable_pir_api'] = '0'
 # Отключаем проверку обновлений для Paddle, чтобы он не висел
 os.environ['PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK'] = 'True'
 logger = logging.getLogger(__name__)
 # Глобальные переменные (ОБЯЗАТЕЛЬНО ВСЕ ТРИ)
 _summarizer_model = None
 _summarizer_tokenizer = None
 _ocr_model = None
-_tool = None  # Теперь точно объявлена
 def get_summarizer():
     global _summarizer_model, _summarizer_tokenizer
@@ -39,6 +43,7 @@ def get_summarizer():
         print("✅ Модель Bart загружена")
     return _summarizer_model, _summarizer_tokenizer
 def get_tool():
     global _tool
     if _tool is None:
@@ -46,16 +51,13 @@ def get_tool():
         _tool = language_tool_python.LanguageTool('ru-RU')
     return _tool
 def get_ocr():
     global _ocr_model
     if _ocr_model is None:
         from paddleocr import PaddleOCR
-        # Убрали use_gpu (автоопределение) и заменили устаревший use_angle_cls
-        _ocr_model = PaddleOCR(
-            use_textline_orientation=True,
-            lang='ru',
-            show_log=False
-        )
     return _ocr_model
@@ -69,6 +71,7 @@ def get_text_diff(old_text, new_text):
             result.append(f'<span style="background:#ffcccb; color:#b31d28; border-radius:3px; padding:0 2px;">{old_text[i1:i2]}</span>')
     return "".join(result)
 def limit_image_size(image, max_width=1920, max_height=1080):
     h, w = image.shape[:2]
     if h > max_height or w > max_width:
@@ -76,27 +79,30 @@ def limit_image_size(image, max_width=1920, max_height=1080):
         return cv2.resize(image, (int(w * scale), int(h * scale)), interpolation=cv2.INTER_LANCZOS4)
     return image
 def index(request):
     return render(request, 'index.html')
 @csrf_exempt
 @require_POST
 def summarize(request):
     text = request.POST.get('text', '')
-    if not text.strip(): return JsonResponse({'error': 'Текст пуст'})
     try:
         model, tokenizer = get_summarizer()
         orig_words_count = len(text.split())
         is_russian = any('\u0400' <= c <= '\u04FF' for c in text)
         text_for_ai = GoogleTranslator(source='auto', target='en').translate(text[:2000]) if is_russian else text[:2000]
         inputs = tokenizer(text_for_ai, return_tensors="pt", max_length=1024, truncation=True)
         summary_ids = model.generate(inputs["input_ids"], max_length=150, min_length=40, length_penalty=2.0, num_beams=4, early_stopping=True)
-        summary_txt = tokenizer.decode(summary_ids[0], skip_special_tokens=True) # Добавил [0]
         final = GoogleTranslator(source='en', target='ru').translate(summary_txt) if is_russian else summary_txt
         return JsonResponse({
             'summary': final,
             'orig_words': orig_words_count,
@@ -105,23 +111,27 @@ def summarize(request):
     except Exception as e:
         return JsonResponse({'error': f"Ошибка суммаризации: {str(e)}"})
 @csrf_exempt
 @require_POST
 def translate(request):
     text = request.POST.get('text', '')
     to_lang = request.POST.get('to', 'en')
-    if not text.strip(): return JsonResponse({'error': 'Текст пуст'})
     try:
         res = GoogleTranslator(source='auto', target=to_lang).translate(text[:5000])
         return JsonResponse({'translation': res})
     except Exception as e:
         return JsonResponse({'error': str(e)})
 @csrf_exempt
 @require_POST
 def spellcheck(request):
     text = request.POST.get('text', '')
-    if not text.strip(): return JsonResponse({'error': 'Введите текст'})
     try:
         from pyaspeller import YandexSpeller
         speller = YandexSpeller()
@@ -129,40 +139,37 @@ def spellcheck(request):
         tool_instance = get_tool()
         if tool_instance:
             matches = tool_instance.check(fixed_text)
-            if matches: fixed_text = tool_instance.correct(fixed_text)
         diff_html = get_text_diff(text, fixed_text)
         return JsonResponse({'spelled_text': fixed_text, 'diff_html': diff_html, 'is_perfect': text == fixed_text})
     except Exception as e:
         return JsonResponse({'error': str(e)})
 @csrf_exempt
 def ocr_process(request):
-    if request.method != 'POST': return JsonResponse({'error': 'Метод не поддерживается'})
     image_file = request.FILES.get('image')
-    if not image_file: return JsonResponse({'error': 'Файл не найден'})
     try:
-        # --- MISSING PART: Decode the image file into a CV2 matrix ---
-        file_bytes = np.frombuffer(image_file.read(), np.uint8)
-        img = cv2.imdecode(file_bytes, cv2.IMREAD_COLOR)
-        if img is None:
-            return JsonResponse({'error': 'Не удалось прочитать изображение'})
-        # --- OCR EXECUTION ---
         ocr = get_ocr()
         result = ocr.ocr(img)
-        # --- EXTRACT TEXT (PaddleOCR returns nested lists) ---
-        extracted_text = []
         if result and result[0]:
             for line in result[0]:
-                text_val = line[1][0] # Index 1 is the (text, score) tuple, Index 0 is the text
-                extracted_text.append(text_val)
-        clean_text = " ".join(extracted_text)
         return JsonResponse({'text': clean_text})
     except Exception as e:
         return JsonResponse({'error': f'Ошибка OCR: {str(e)}'})

 import torch
 from deep_translator import GoogleTranslator
 # --- НАСТРОЙКИ ОКРУЖЕНИЯ ---
 os.environ['TRANSFORMERS_CACHE'] = '/tmp/.cache'
 os.environ['HF_HOME'] = '/tmp/.cache'
 # Отключаем проверку обновлений для Paddle, чтобы он не висел
 os.environ['PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK'] = 'True'
 logger = logging.getLogger(__name__)
 # Глобальные переменные (ОБЯЗАТЕЛЬНО ВСЕ ТРИ)
 _summarizer_model = None
 _summarizer_tokenizer = None
 _ocr_model = None
+_tool = None # Теперь точно объявлена
 def get_summarizer():
     global _summarizer_model, _summarizer_tokenizer
         print("✅ Модель Bart загружена")
     return _summarizer_model, _summarizer_tokenizer
 def get_tool():
     global _tool
     if _tool is None:
         _tool = language_tool_python.LanguageTool('ru-RU')
     return _tool
 def get_ocr():
     global _ocr_model
     if _ocr_model is None:
+        print("🚀 Загрузка PaddleOCR...")
         from paddleocr import PaddleOCR
+        _ocr_model = PaddleOCR(use_angle_cls=True, lang='ru', enable_mkldnn=False)
     return _ocr_model
             result.append(f'<span style="background:#ffcccb; color:#b31d28; border-radius:3px; padding:0 2px;">{old_text[i1:i2]}</span>')
     return "".join(result)
 def limit_image_size(image, max_width=1920, max_height=1080):
     h, w = image.shape[:2]
     if h > max_height or w > max_width:
         return cv2.resize(image, (int(w * scale), int(h * scale)), interpolation=cv2.INTER_LANCZOS4)
     return image
 def index(request):
     return render(request, 'index.html')
 @csrf_exempt
 @require_POST
 def summarize(request):
     text = request.POST.get('text', '')
+    if not text.strip():
+        return JsonResponse({'error': 'Текст пуст'})
     try:
         model, tokenizer = get_summarizer()
         orig_words_count = len(text.split())
         is_russian = any('\u0400' <= c <= '\u04FF' for c in text)
         text_for_ai = GoogleTranslator(source='auto', target='en').translate(text[:2000]) if is_russian else text[:2000]
         inputs = tokenizer(text_for_ai, return_tensors="pt", max_length=1024, truncation=True)
         summary_ids = model.generate(inputs["input_ids"], max_length=150, min_length=40, length_penalty=2.0, num_beams=4, early_stopping=True)
+        summary_txt = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
         final = GoogleTranslator(source='en', target='ru').translate(summary_txt) if is_russian else summary_txt
         return JsonResponse({
             'summary': final,
             'orig_words': orig_words_count,
     except Exception as e:
         return JsonResponse({'error': f"Ошибка суммаризации: {str(e)}"})
 @csrf_exempt
 @require_POST
 def translate(request):
     text = request.POST.get('text', '')
     to_lang = request.POST.get('to', 'en')
+    if not text.strip():
+        return JsonResponse({'error': 'Текст пуст'})
     try:
         res = GoogleTranslator(source='auto', target=to_lang).translate(text[:5000])
         return JsonResponse({'translation': res})
     except Exception as e:
         return JsonResponse({'error': str(e)})
 @csrf_exempt
 @require_POST
 def spellcheck(request):
     text = request.POST.get('text', '')
+    if not text.strip():
+        return JsonResponse({'error': 'Введите текст'})
     try:
         from pyaspeller import YandexSpeller
         speller = YandexSpeller()
         tool_instance = get_tool()
         if tool_instance:
             matches = tool_instance.check(fixed_text)
+            if matches:
+                fixed_text = tool_instance.correct(fixed_text)
         diff_html = get_text_diff(text, fixed_text)
         return JsonResponse({'spelled_text': fixed_text, 'diff_html': diff_html, 'is_perfect': text == fixed_text})
     except Exception as e:
         return JsonResponse({'error': str(e)})
 @csrf_exempt
 def ocr_process(request):
+    if request.method != 'POST':
+        return JsonResponse({'error': 'Метод не поддерживается'})
     image_file = request.FILES.get('image')
+    if not image_file:
+        return JsonResponse({'error': 'Файл не найден'})
     try:
+        file_bytes = image_file.read()
+        nparr = np.frombuffer(file_bytes, np.uint8)
+        img = cv2.imdecode(nparr, cv2.IMREAD_COLOR)
+        img = limit_image_size(img)
         ocr = get_ocr()
         result = ocr.ocr(img)
+        final_text_blocks = []
         if result and result[0]:
             for line in result[0]:
+                final_text_blocks.append(line[1][0])
+        import re
+        clean_text = re.sub(r'\s+([,.!?;:])', r'\1', " ".join(final_text_blocks))
         return JsonResponse({'text': clean_text})
     except Exception as e:
         return JsonResponse({'error': f'Ошибка OCR: {str(e)}'})