ocr

Runtime error

App Files Files Community

Toughen1 commited on Jul 13, 2025

Commit

d22018e

verified ·

1 Parent(s): cbfa32e

CPU

Browse files

Files changed (1) hide show

app.py +123 -70

app.py CHANGED Viewed

@@ -3,10 +3,11 @@ import functools
 import base64
 import io
 import re
 from queue import Queue
 from threading import Event, Thread
 import numpy as np
-from langdetect import detect
 from paddleocr import PaddleOCR, draw_ocr
 from PIL import Image
 import gradio as gr
@@ -21,14 +22,24 @@ LANG_CONFIG = {
     "japan": {"num_workers": 1},
 }
-# 语言检测映射
-LANG_DETECT_MAP = {
-    "zh": "ch",
-    "en": "en",
-    "fr": "fr",
-    "de": "german",
-    "ko": "korean",
-    "ja": "japan",
 }
 CONCURRENCY_LIMIT = 8
@@ -102,38 +113,64 @@ def close_model_managers():
 atexit.register(close_model_managers)
-def detect_language_from_text(text):
-    """根据文本内容自动检测语言"""
-    try:
-        detected = detect(text)
-        return LANG_DETECT_MAP.get(detected, "en")  # 默认返回英文
-    except:
-        return "en"  # 检测失败时默认返回英文
-def auto_detect_language(image):
-    """尝试从图像中检测语言"""
-    # 先用英文OCR提取一些文本
-    ocr = model_managers["en"]
-    try:
-        result = ocr.infer(image, cls=True)[0]
-        if not result:
-            return "en"  # 如果没有检测到文本，默认使用英文
-        # 将所有文本合并起来进行语言检测
-        all_text = " ".join([line[1][0] for line in result])
-        if not all_text.strip():
-            return "en"
-        # 检测语言
-        lang = detect_language_from_text(all_text)
-        return lang
-    except:
-        return "en"  # 出错时默认使用英文
-def process_base64_image(base64_string):
-    """处理Base64编码的图像"""
     try:
         # 移除可能的前缀
         if "base64," in base64_string:
@@ -141,49 +178,65 @@ def process_base64_image(base64_string):
         # 解码Base64
         image_data = base64.b64decode(base64_string)
-        image = Image.open(io.BytesIO(image_data))
-        # 将PIL图像转换为临时文件
-        temp_io = io.BytesIO()
-        image.save(temp_io, format='PNG')
-        temp_io.seek(0)
-        return temp_io, image
     except Exception as e:
         raise ValueError(f"处理Base64图像时出错: {str(e)}")
 def inference(img, return_text_only=True):
     """OCR推理函数，自动检测语言"""
-    # 处理输入图像
-    if isinstance(img, str) and img.startswith("data:") or re.match(r'^[A-Za-z0-9+/=]+$', img):
-        # 处理Base64输入
-        img_io, pil_img = process_base64_image(img)
-        img_path = img_io
-    else:
-        # 处理文件路径输入
-        img_path = img
-        pil_img = Image.open(img_path).convert("RGB")
-    # 自动检测语言
-    lang = auto_detect_language(img_path)
-    # 使用检测到的语言进行OCR
-    ocr = model_managers[lang]
-    result = ocr.infer(img_path, cls=True)[0]
-    # 提取文本和位置信息
-    boxes = [line[0] for line in result]
-    txts = [line[1][0] for line in result]
-    scores = [line[1][1] for line in result]
-    if return_text_only:
-        # 仅返回文本
-        return "\n".join(txts), lang
-    else:
-        # 返回带标注的图像
-        im_show = draw_ocr(pil_img, boxes, txts, scores, font_path="./simfang.ttf")
-        return im_show, "\n".join(txts), lang
 def inference_with_image(img):

 import base64
 import io
 import re
+import os
+import tempfile
 from queue import Queue
 from threading import Event, Thread
 import numpy as np
 from paddleocr import PaddleOCR, draw_ocr
 from PIL import Image
 import gradio as gr
     "japan": {"num_workers": 1},
 }
+# 语言检测映射 - 使用更可靠的方法
+LANG_MAP = {
+    "ch": "中文",
+    "en": "英文",
+    "fr": "法语",
+    "german": "德语",
+    "korean": "韩语",
+    "japan": "日语",
+}
+# 语言特征字符集
+LANG_FEATURES = {
+    "ch": set("的一是不了人我在有他这为之大来以个中上们到国说和地也子时道出而要于就下得可你年生自会那后能对着事其里所去行过家十用发天如然作方成者多日都三小军二公无同么经法当起与好看学进种将还分此心前面又定见只主没公从年可着同时至理化物现并提直题党性好它头应主实向当把几十用表已近万第调音真打太办现做感次带北林里无从化性相将应间手专这见民候深院查表化何南器声点今建月正机北装分十注位被反革力量门反象并果更系求把治取入总些形度持制管即及西做先将才结共接目路至城北口山战世强先产革律较本群决使见治及造百规热领即集什积六县接必照住治准革复每设始术精专向变团便石从按却代光命即保达干统持运复程究造何革命即系统计或设总色律象即物线划几领按更系院转些即总导度济深求传界拉干着真示制干提克度几管见导传命即总系具引势持使结构论完联常达设战表南究利世结构论完联常达设战表南究利世",),
+    "en": set("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"),
+    "fr": set("àâäæçéèêëîïôœùûüÿÀÂÄÆÇÉÈÊËÎÏÔŒÙÛÜŸ"),
+    "german": set("äöüßÄÖÜ"),
+    "korean": set(),  # 韩语字符集较复杂，使用其他方法检测
+    "japan": set("あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをんがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲンガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポ"),
 }
 CONCURRENCY_LIMIT = 8
 atexit.register(close_model_managers)
+def detect_language_by_features(text):
+    """基于特征字符集检测语言"""
+    if not text:
+        return "en"
+    # 计算每种语言的特征字符出现比例
+    lang_scores = {}
+    for lang, char_set in LANG_FEATURES.items():
+        if not char_set:  # 跳过空字符集
+            continue
+        # 计算文本中该语言特征字符的数量
+        count = sum(1 for char in text if char in char_set)
+        if count > 0:
+            lang_scores[lang] = count / len(text)
+    # 特殊处理韩语（通过Unicode范围检测）
+    korean_count = sum(1 for char in text if '\uac00' <= char <= '\ud7a3')
+    if korean_count > 0:
+        lang_scores["korean"] = korean_count / len(text)
+    # 如果没有检测到任何语言特征，默认为英语
+    if not lang_scores:
+        return "en"
+    # 返回特征比例最高的语言
+    return max(lang_scores.items(), key=lambda x: x[1])[0]
+def auto_detect_language(image_path):
+    """使用多模型投票的方式检测语言"""
+    languages_to_try = ["ch", "en"]  # 先用这两种常见语言尝试
+    results = {}
+    for lang in languages_to_try:
+        try:
+            ocr = model_managers[lang]
+            result = ocr.infer(image_path, cls=True)[0]
+            if result:
+                # 提取所有文本
+                all_text = " ".join([line[1][0] for line in result])
+                if all_text.strip():
+                    # 基于提取的文本检测语言
+                    detected = detect_language_by_features(all_text)
+                    results[detected] = results.get(detected, 0) + 1
+        except Exception:
+            continue
+    # 如果没有检测结果，默认使用英文
+    if not results:
+        return "en"
+    # 返回得票最多的语言
+    return max(results.items(), key=lambda x: x[1])[0]
+def save_base64_to_temp_file(base64_string):
+    """将Base64图像保存为临时文件"""
     try:
         # 移除可能的前缀
         if "base64," in base64_string:
         # 解码Base64
         image_data = base64.b64decode(base64_string)
+        # 创建临时文件
+        temp_file = tempfile.NamedTemporaryFile(delete=False, suffix='.png')
+        temp_file.write(image_data)
+        temp_file.close()
+        return temp_file.name
     except Exception as e:
         raise ValueError(f"处理Base64图像时出错: {str(e)}")
 def inference(img, return_text_only=True):
     """OCR推理函数，自动检测语言"""
+    temp_file = None
+    try:
+        # 处理输入图像
+        if isinstance(img, str):
+            if img.startswith("data:") or re.match(r'^[A-Za-z0-9+/=]+$', img):
+                # 处理Base64输入
+                temp_file = save_base64_to_temp_file(img)
+                img_path = temp_file
+            else:
+                # 处理文件路径输入
+                img_path = img
+        else:
+            # 处理其他类型输入
+            img_path = img
+        # 自动检测语言
+        lang = auto_detect_language(img_path)
+        # 使用检测到的语言进行OCR
+        ocr = model_managers[lang]
+        result = ocr.infer(img_path, cls=True)[0]
+        # 提取文本和位置信息
+        boxes = [line[0] for line in result]
+        txts = [line[1][0] for line in result]
+        scores = [line[1][1] for line in result]
+        # 读取图像用于绘制
+        pil_img = Image.open(img_path).convert("RGB")
+        if return_text_only:
+            # 仅返回文本
+            return "\n".join(txts), LANG_MAP.get(lang, lang)
+        else:
+            # 返回带标注的图像
+            im_show = draw_ocr(pil_img, boxes, txts, scores, font_path="./simfang.ttf")
+            return im_show, "\n".join(txts), LANG_MAP.get(lang, lang)
+    finally:
+        # 清理临时文件
+        if temp_file and os.path.exists(temp_file):
+            try:
+                os.unlink(temp_file)
+            except:
+                pass
 def inference_with_image(img):