Spaces:

Loren
/

Streamlit_OCR_comparator

Running

App Files Files Community

Update app_pages/ocr_comparator.py

by Loren - opened Dec 23, 2023

base: refs/heads/main

←

from: refs/pr/3

Discussion Files changed

+25

-23

Files changed (1) hide show

app_pages/ocr_comparator.py +25 -23

app_pages/ocr_comparator.py CHANGED Viewed

@@ -1,13 +1,14 @@
 """This Streamlit app allows you to compare, from a given image, the results of different solutions:
    EasyOcr, PaddleOCR, MMOCR, Tesseract
 """
 import mim
 mim.install(['mmengine>=0.7.1,<1.1.0'])
 mim.install(['mmcv>=2.0.0rc4,<2.1.0'])
 mim.install(['mmdet>=3.0.rc5,<3.2.0'])
 mim.install(['mmocr'])
 import streamlit as st
 import plotly.express as px
@@ -21,7 +22,7 @@ from PIL import Image, ImageColor
 import PIL
 import easyocr
 from paddleocr import PaddleOCR
-from mmocr.utils.ocr import MMOCR
 import pytesseract
 from pytesseract import Output
 import os
@@ -80,9 +81,10 @@ def app():
             plotly figure   : confidence color scale figure
         """
         # the readers considered
-        out_reader_type_list = ['EasyOCR', 'PPOCR', 'MMOCR', 'Tesseract']
-        out_reader_type_dict = {'EasyOCR': 0, 'PPOCR': 1, 'MMOCR': 2, 'Tesseract': 3}
         # Columns for recognition details results
         out_cols_size = [2] + [2,1]*(len(out_reader_type_list)-1) # Except Tesseract
@@ -123,7 +125,7 @@ def app():
         'Tagalog': 'tl', 'Tamil': 'ta', 'Telugu': 'te', 'Turkish': 'tr', 'Ukranian': 'uk', \
         'Urdu': 'ur', 'Uyghur': 'ug', 'Uzbek': 'uz', 'Vietnamese': 'vi', 'Welsh': 'cy'}
-        out_dict_lang_mmocr = {'English & Chinese': 'en'}
         out_dict_lang_tesseract = {'Afrikaans': 'afr','Albanian': 'sqi','Amharic': 'amh', \
         'Arabic': 'ara', 'Armenian': 'hye','Assamese': 'asm','Azerbaijani - Cyrilic': 'aze_cyrl', \
@@ -156,7 +158,8 @@ def app():
         'Uzbek - Cyrilic': 'uzb_cyrl','Uzbek': 'uzb','Vietnamese': 'vie','Welsh': 'cym', \
         'Western Frisian': 'fry','Yiddish': 'yid','Yoruba': 'yor'}
-        out_list_dict_lang = [out_dict_lang_easyocr, out_dict_lang_ppocr, out_dict_lang_mmocr, \
                             out_dict_lang_tesseract]
         # Initialization of detection form
@@ -221,19 +224,18 @@ def app():
         return out_ocr
     ###
-    @st.experimental_memo(show_spinner=False)
-    def init_mmocr(in_params):
-        """Initialization of MMOCR reader
-        Args:
-            in_params (dict): dict with parameters
-        Returns:
-            mmocr reader: the ppocr reader instance
-        """
-        out_ocr = MMOCR(recog=None, **in_params[1])
-        return out_ocr
     ###
     def init_readers(in_list_params):
         """Initialization of the readers, and return them as list
@@ -255,10 +257,10 @@ def app():
             reader_ppocr = init_ppocr(in_list_params[1])
         # - MMOCR
-        with st.spinner("MMOCR reader initialization in progress ..."):
-            reader_mmocr = init_mmocr(in_list_params[2])
-        out_list_readers = [reader_easyocr, reader_ppocr, reader_mmocr]
         return out_list_readers

 """This Streamlit app allows you to compare, from a given image, the results of different solutions:
    EasyOcr, PaddleOCR, MMOCR, Tesseract
 """
+"""
 import mim
 mim.install(['mmengine>=0.7.1,<1.1.0'])
 mim.install(['mmcv>=2.0.0rc4,<2.1.0'])
 mim.install(['mmdet>=3.0.rc5,<3.2.0'])
 mim.install(['mmocr'])
+"""
 import streamlit as st
 import plotly.express as px
 import PIL
 import easyocr
 from paddleocr import PaddleOCR
+#from mmocr.utils.ocr import MMOCR
 import pytesseract
 from pytesseract import Output
 import os
             plotly figure   : confidence color scale figure
         """
         # the readers considered
+        #out_reader_type_list = ['EasyOCR', 'PPOCR', 'MMOCR', 'Tesseract']
+        #out_reader_type_dict = {'EasyOCR': 0, 'PPOCR': 1, 'MMOCR': 2, 'Tesseract': 3}
+        out_reader_type_list = ['EasyOCR', 'PPOCR', 'Tesseract']
+        out_reader_type_dict = {'EasyOCR': 0, 'PPOCR': 1, 'Tesseract': 2}
         # Columns for recognition details results
         out_cols_size = [2] + [2,1]*(len(out_reader_type_list)-1) # Except Tesseract
         'Tagalog': 'tl', 'Tamil': 'ta', 'Telugu': 'te', 'Turkish': 'tr', 'Ukranian': 'uk', \
         'Urdu': 'ur', 'Uyghur': 'ug', 'Uzbek': 'uz', 'Vietnamese': 'vi', 'Welsh': 'cy'}
+        #out_dict_lang_mmocr = {'English & Chinese': 'en'}
         out_dict_lang_tesseract = {'Afrikaans': 'afr','Albanian': 'sqi','Amharic': 'amh', \
         'Arabic': 'ara', 'Armenian': 'hye','Assamese': 'asm','Azerbaijani - Cyrilic': 'aze_cyrl', \
         'Uzbek - Cyrilic': 'uzb_cyrl','Uzbek': 'uzb','Vietnamese': 'vie','Welsh': 'cym', \
         'Western Frisian': 'fry','Yiddish': 'yid','Yoruba': 'yor'}
+        out_list_dict_lang = [out_dict_lang_easyocr, out_dict_lang_ppocr, \
+                              #out_dict_lang_mmocr, \
                             out_dict_lang_tesseract]
         # Initialization of detection form
         return out_ocr
     ###
+   #@st.experimental_memo(show_spinner=False)
+   #def init_mmocr(in_params):
+   #    """Initialization of MMOCR reader
+#
+   #    Args:
+   #        in_params (dict): dict with parameters
+#
+   #    Returns:
+   #        mmocr reader: the ppocr reader instance
+   #    """
+   #    out_ocr = MMOCR(recog=None, **in_params[1])
+   #    return out_ocr
     ###
     def init_readers(in_list_params):
         """Initialization of the readers, and return them as list
             reader_ppocr = init_ppocr(in_list_params[1])
         # - MMOCR
+        #with st.spinner("MMOCR reader initialization in progress ..."):
+        #    reader_mmocr = init_mmocr(in_list_params[2])
+        #out_list_readers = [reader_easyocr, reader_ppocr, reader_mmocr]
         return out_list_readers