Spaces:

BMukhtar
/

BookRecognitionKz

Sleeping

App Files Files Community

BMukhtar commited on Oct 4, 2024

Commit

e5df2fe

1 Parent(s): e3a55fa

found best model

Browse files

Files changed (6) hide show

.gitignore +2 -0
app.py +7 -6
models/__pycache__/best_norm_ED.cpython-310.pyc +0 -0
models/__pycache__/best_norm_ED.cpython-311.pyc +0 -0
models/best_norm_ED.pth +2 -2
models/best_norm_ED.yaml +15 -16

.gitignore CHANGED Viewed

	@@ -1 +1,3 @@
1	.idea/

 .idea/
+# pycache
+__pycache__/

app.py CHANGED Viewed

@@ -13,6 +13,8 @@ from io import BytesIO
 #import streamlit.components.v1 as components
 import base64
 #def downloadTxt():
 def generateTxtLink(result):
     result_txt = ""
@@ -64,7 +66,6 @@ def generateButtonGroup(result):
     return txtLink+"\n"+docLink
 def generateButtonGroupForPDF(pages_result):
-    #result = "\n\n".join(pages_result)
     txtLink = generateMultiPageTxtLink(pages_result)
     docLink = generateMultiPageDocLink(pages_result)
     return txtLink+"\n"+docLink
@@ -84,7 +85,7 @@ for d in dirs:
 font_path = models_dir + "/Ubuntu-Regular.ttf"
 reader = easyocr.Reader(
     ['en'],
-    gpu=True,
     recog_network='best_norm_ED',
     detect_network="craft",
     user_network_directory=models_dir,
@@ -146,7 +147,7 @@ def process_pdf(uploaded_file):
         result,time_elapsed = recognize_page_image(image)
         expander = col2.expander(f'{result[0][1][:100]} ... **:orange[{time_elapsed:.3f} секундта таңылды]**')
         expander.write(f'{result[0][1]}')
-        result_text = "\n\n".join([item[1] for item in result])
         pages_result.append(result_text)
         #col2.markdown(result_text)
         progress_bar.progress((count + 1) / min(total_pages,max_page),text=f'Жүктеліп жатыр {count+1}/{min(total_pages,max_page)}')
@@ -175,7 +176,7 @@ class TextBox:
         return f"TextBox(text={self.text}, group_id={self.group_id})"
-def get_paragraph(ocr_results, horizontal_threshold=0.5, vertical_threshold=0.0, reading_mode='ltr'):
     # Convert raw OCR results into TextBox objects
     text_boxes = [TextBox(box[1], box[0]) for box in ocr_results]
@@ -262,9 +263,9 @@ if uploaded_file is not None:
             image = Image.open(uploaded_file)
             #with open(os.path.join("tempDir",image_file))
             col1.image(image)
-            result = reader.readtext(np.array(image), batch_size=64, paragraph=False, y_ths=0, width_ths = 0, text_threshold=0.3)
             result = get_paragraph(result)
-            result_text = "\n\n".join([item[1] for item in result])
             button_group_html = generateButtonGroup(result)
             col2.write(button_group_html, unsafe_allow_html=True)
             col2.markdown(result_text)

 #import streamlit.components.v1 as components
 import base64
+line_separator = "\n\n"
 #def downloadTxt():
 def generateTxtLink(result):
     result_txt = ""
     return txtLink+"\n"+docLink
 def generateButtonGroupForPDF(pages_result):
     txtLink = generateMultiPageTxtLink(pages_result)
     docLink = generateMultiPageDocLink(pages_result)
     return txtLink+"\n"+docLink
 font_path = models_dir + "/Ubuntu-Regular.ttf"
 reader = easyocr.Reader(
     ['en'],
+    gpu=False,
     recog_network='best_norm_ED',
     detect_network="craft",
     user_network_directory=models_dir,
         result,time_elapsed = recognize_page_image(image)
         expander = col2.expander(f'{result[0][1][:100]} ... **:orange[{time_elapsed:.3f} секундта таңылды]**')
         expander.write(f'{result[0][1]}')
+        result_text = line_separator.join([item[1] for item in result])
         pages_result.append(result_text)
         #col2.markdown(result_text)
         progress_bar.progress((count + 1) / min(total_pages,max_page),text=f'Жүктеліп жатыр {count+1}/{min(total_pages,max_page)}')
         return f"TextBox(text={self.text}, group_id={self.group_id})"
+def get_paragraph(ocr_results, horizontal_threshold=1, vertical_threshold=0.0, reading_mode='ltr'):
     # Convert raw OCR results into TextBox objects
     text_boxes = [TextBox(box[1], box[0]) for box in ocr_results]
             image = Image.open(uploaded_file)
             #with open(os.path.join("tempDir",image_file))
             col1.image(image)
+            result = reader.readtext(np.array(image), batch_size=64, paragraph=False, y_ths=0, width_ths = 0)
             result = get_paragraph(result)
+            result_text = line_separator.join([item[1] for item in result])
             button_group_html = generateButtonGroup(result)
             col2.write(button_group_html, unsafe_allow_html=True)
             col2.markdown(result_text)

models/__pycache__/best_norm_ED.cpython-310.pyc DELETED Viewed

Binary file (18.6 kB)

models/__pycache__/best_norm_ED.cpython-311.pyc DELETED Viewed

Binary file (40.8 kB)

models/best_norm_ED.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87583f4f46b6a5af3782992a4343c950e94967f0c2b0abe62c8f06ff1fefecd9
-size 15237611

 version https://git-lfs.github.com/spec/v1
+oid sha256:a93677c37a1bc9a268eb362df2772fbc9a5237b375740254e63063be2cebf6a4
+size 15217067

models/best_norm_ED.yaml CHANGED Viewed

@@ -1,30 +1,29 @@
-number: 0123456789
-symbol: $"!#%&'()*+,-./:;<=>?@[\]^_`{|}~«»…£€¥№° —
 lang_char: 'АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯЁабвгдежзийклмнопрстуфхцчшщъыьэюяёӘҒҚҢӨҰҮІҺәғқңөұүіһABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'
-experiment_name: 'gen_v11_continue'
-train_data: '../../synthtiger_kz/results/train_v12'
-valid_data: '../../synthtiger_kz/results/test_v12/dtgr_v5'
-wb: True
 manualSeed: 1111
 workers: 6
-batch_size: 128 #32
-num_iter: 200000
-valInterval: 4000
-saved_model: 'saved_models/gen_v11/best_norm_ED.pth'
 FT: False
 optim: False # default is Adadelta
-lr: 0.5
 beta1: 0.9
 rho: 0.95
 eps: 0.00000001
 grad_clip: 5
 #Data processing
-select_data: 'dtgr_v5' # this is dataset folder in train_data
 batch_ratio: '1'
 total_data_usage_ratio: 1.0
-batch_max_length: 40
-imgH: 48
-imgW: 450
 rgb: False
 sensitive: True
 PAD: True
@@ -50,4 +49,4 @@ network_params:
   hidden_size: 256
 lang_list:
   - 'en'
-character_list: 0123456789$"!#%&'()*+,-./:;<=>?@[\]^_`{|}~«»…£€¥№° —АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯЁабвгдежзийклмнопрстуфхцчшщъыьэюяёӘҒҚҢӨҰҮІҺәғқңөұүіһABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz

+number: '0123456789'
+symbol: "!?.,:;'#()<>+-/*=%$»« "
 lang_char: 'АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯЁабвгдежзийклмнопрстуфхцчшщъыьэюяёӘҒҚҢӨҰҮІҺәғқңөұүіһABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'
+experiment_name: 'kz_synthtiger_v8'
+train_data: '../../synthtiger_kz/results/train_v8'
+valid_data: '../../synthtiger_kz/results/test_v8'
 manualSeed: 1111
 workers: 6
+batch_size: 96 #32
+num_iter: 100000
+valInterval: 1000
+saved_model: 'saved_models/kz_synthtiger_v7_comma/best_norm_ED.pth'
 FT: False
 optim: False # default is Adadelta
+lr: 1.
 beta1: 0.9
 rho: 0.95
 eps: 0.00000001
 grad_clip: 5
 #Data processing
+select_data: 'images' # this is dataset folder in train_data
 batch_ratio: '1'
 total_data_usage_ratio: 1.0
+batch_max_length: 34
+imgH: 64
+imgW: 600
 rgb: False
 sensitive: True
 PAD: True
   hidden_size: 256
 lang_list:
   - 'en'
+character_list: 0123456789!?.,:;'#()<>+-/*=%$»« АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯЁабвгдежзийклмнопрстуфхцчшщъыьэюяёӘҒҚҢӨҰҮІҺәғқңөұүіһABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz