Spaces:

opex792
/

checkege-captchasolver

Sleeping

App Files Files Community

opex792 commited on Jun 24, 2025

Commit

1b85de9

verified ·

1 Parent(s): 8ce64d7

Upload app.py

Browse files

Files changed (1) hide show

app.py +15 -1

app.py CHANGED Viewed

@@ -35,11 +35,25 @@ def fetch_and_solve_captcha():
         nparr = np.frombuffer(image_bytes, np.uint8)
         original_image = cv2.imdecode(nparr, cv2.IMREAD_COLOR)
         hsv = cv2.cvtColor(original_image, cv2.COLOR_BGR2HSV)
         lower_blue = np.array([90, 50, 50])
         upper_blue = np.array([130, 255, 255])
         mask = cv2.inRange(hsv, lower_blue, upper_blue)
-        processed_image = cv2.bitwise_not(mask)
         tesseract_config = r'--oem 3 --psm 7 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
         text = pytesseract.image_to_string(processed_image, config=tesseract_config)

         nparr = np.frombuffer(image_bytes, np.uint8)
         original_image = cv2.imdecode(nparr, cv2.IMREAD_COLOR)
+        # --- Этап 1: Фильтрация по цвету ---
         hsv = cv2.cvtColor(original_image, cv2.COLOR_BGR2HSV)
         lower_blue = np.array([90, 50, 50])
         upper_blue = np.array([130, 255, 255])
         mask = cv2.inRange(hsv, lower_blue, upper_blue)
+        # --- ЭТАП 2: УЛУЧШЕННАЯ ОЧИСТКА (НОВЫЙ ШАГ) ---
+        # Создаем "ядро" - небольшую матрицу для морфологических операций.
+        # Размер 2x2 хорошо подходит для удаления мелких артефактов.
+        kernel = np.ones((2, 2), np.uint8)
+        # Применяем операцию "Открытие" (Opening).
+        # Это эрозия, за которой следует расширение. Она удаляет мелкий шум (ошмётки).
+        logging.info("Применение морфологического открытия для удаления шума...")
+        cleaned_mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel, iterations=1)
+        # --- Этап 3: Инверсия и распознавание ---
+        # Инвертируем очищенную маску для Tesseract (черный текст на белом фоне)
+        processed_image = cv2.bitwise_not(cleaned_mask)
         tesseract_config = r'--oem 3 --psm 7 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
         text = pytesseract.image_to_string(processed_image, config=tesseract_config)