Spaces:

asierfg794
/

tfg-api

Sleeping

App Files Files Community

asierfg794 commited on 17 days ago

Commit

affc051

1 Parent(s): 5fc502d

EasyOCR + NLLB optimizado

Browse files

Files changed (4) hide show

.gitignore +0 -3
Dockerfile +0 -70
app.py +45 -88
requirements.txt +1 -2

.gitignore CHANGED Viewed

@@ -1,9 +1,6 @@
 __pycache__/
 *.pyc
-# CTranslate2 bihurtutako NLLB modeloa (Docker build-ean sortzen da)
-nllb-200-distilled-600M-ct2-int8/
 # HuggingFace cachea (modeloak deskargatzean)
 .cache/
 huggingface/

 __pycache__/
 *.pyc
 # HuggingFace cachea (modeloak deskargatzean)
 .cache/
 huggingface/

Dockerfile CHANGED Viewed

@@ -14,53 +14,6 @@ WORKDIR /app
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
-# CTranslate2-ren .so-ari "executable stack" bandera kendu (kernel berriek errefusatzen dute).
-# Debian trixie-k ez du execstack paketea, beraz Python script batekin egiten dugu:
-# PT_GNU_STACK program-headerraren p_flags-eko PF_X bita (0x1) zerora ezarri.
-COPY <<'EOF' /tmp/fix_execstack.py
-import os, struct, sys
-base = '/usr/local/lib/python3.11/site-packages/ctranslate2'
-PT_GNU_STACK_LE = b'\x51\xe5\x74\x64'  # 0x6474e551 little-endian
-total = 0
-for root, _, files in os.walk(base):
-    for fname in files:
-        if not (fname.endswith('.so') or '.so.' in fname):
-            continue
-        path = os.path.join(root, fname)
-        with open(path, 'rb') as fp:
-            data = bytearray(fp.read())
-        changed = False
-        i = 0
-        while True:
-            i = data.find(PT_GNU_STACK_LE, i)
-            if i < 0:
-                break
-            # ELF64 program header: p_type(4) p_flags(4) ...
-            flags_off = i + 4
-            (flags,) = struct.unpack_from('<I', data, flags_off)
-            if flags & 0x1:
-                struct.pack_into('<I', data, flags_off, flags & ~0x1)
-                changed = True
-                total += 1
-                print(f'[fix_execstack] {path} offset {i} flags {flags:#x} -> {flags & ~0x1:#x}')
-            i += 4
-        if changed:
-            with open(path, 'wb') as fp:
-                fp.write(bytes(data))
-print(f'[fix_execstack] Aldaketak: {total}')
-EOF
-RUN python /tmp/fix_execstack.py && rm /tmp/fix_execstack.py
-# NLLB-200 CTranslate2 formatura bihurtu (INT8 kuantizazioa CPUrako)
-# Build-denboran egiten da: irudia handiagoa baina abiaraztea askoz azkarragoa
-RUN python -c "from transformers import AutoTokenizer; AutoTokenizer.from_pretrained('facebook/nllb-200-distilled-600M')" && \
-    ct2-transformers-converter \
-        --model facebook/nllb-200-distilled-600M \
-        --output_dir /app/nllb-200-distilled-600M-ct2-int8 \
-        --quantization int8 \
-        --force
 # Aplikazioaren kodea kopiatu
 COPY app.py .
@@ -69,26 +22,3 @@ EXPOSE 7860
 # Zerbitzaria abiarazi
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]
-#FROM python:3.11-slim
-#RUN apt-get update && apt-get install -y --no-install-recommends \
-#    libglib2.0-0 \
-#    libgl1 \
-#    libgomp1 \
-#    libgthread-2.0-0 \
-#    && rm -rf /var/lib/apt/lists/*
-#WORKDIR /app
-#COPY requirements.txt .
-#RUN pip install --no-cache-dir -r requirements.txt
-#COPY app.py .
-#EXPOSE 7860
-#CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
 # Aplikazioaren kodea kopiatu
 COPY app.py .
 # Zerbitzaria abiarazi
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ app.py  —  FastAPI + EasyOCR + Gemini + NLLB + HiTZ zerbitzaria
 OCR + postzuzenketa (Gemini 2.5 Flash) + itzulpena (NLLB-200 + HiTZ Marian).
 """
-import asyncio
 import io
 import logging
 import os
@@ -11,18 +10,22 @@ import re
 import time
 from contextlib import asynccontextmanager
-import ctranslate2
 import easyocr
 import httpx
 import numpy as np
-import torch  # HiTZ Marian-erako bakarrik (oraindik desaktibatuta)
 from deskew import determine_skew
 from fastapi import FastAPI, File, Form, HTTPException, UploadFile
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse
 from PIL import Image
 from skimage.transform import rotate
-from transformers import AutoTokenizer
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -74,13 +77,6 @@ Corrected text:"""
 readers: dict = {}
 NLLB_MODEL_NAME = "facebook/nllb-200-distilled-600M"
-# Modeloaren karpeta app.py-ren ondoan dago (lokalean zein Docker barruan)
-NLLB_CT2_DIR = os.path.join(
-    os.path.dirname(os.path.abspath(__file__)),
-    "nllb-200-distilled-600M-ct2-int8",
-)
-CT2_INTRA_THREADS = int(os.environ.get("CT2_INTRA_THREADS", "2"))
-CT2_INTER_THREADS = int(os.environ.get("CT2_INTER_THREADS", "1"))
 HITZ_PAIRS = {
     ("en", "eu"): "HiTZ/mt-hitz-en-eu",
@@ -144,7 +140,7 @@ ISO_TO_NLLB = {
     "zu": "zul_Latn",
 }
-nllb_translator: ctranslate2.Translator | None = None
 nllb_tokenizer = None
 hitz_models: dict = {}
@@ -309,23 +305,8 @@ def _adaptive_max_tokens(sentence: str) -> int:
     return min(512, max(32, int(approx_src_tokens * 1.8)))
-_TRANSLATION_CACHE: "dict[tuple[str, str, str], str]" = {}
-_TRANSLATION_CACHE_MAX = 1024
-def _cache_get(sentence: str, src: str, tgt: str) -> str | None:
-    return _TRANSLATION_CACHE.get((sentence, src, tgt))
-def _cache_put(sentence: str, src: str, tgt: str, value: str) -> None:
-    if len(_TRANSLATION_CACHE) >= _TRANSLATION_CACHE_MAX:
-        # FIFO sinplea: lehen sartutakoa kendu
-        _TRANSLATION_CACHE.pop(next(iter(_TRANSLATION_CACHE)))
-    _TRANSLATION_CACHE[(sentence, src, tgt)] = value
 def _nllb_translate(text: str, src_nllb: str, tgt_nllb: str) -> str:
-    """NLLB-200 ereduarekin itzuli CTranslate2 motorra erabiliz."""
     if not text.strip():
         return text
     blocks = _flatten_to_sentences(text)
@@ -333,51 +314,37 @@ def _nllb_translate(text: str, src_nllb: str, tgt_nllb: str) -> str:
     if not to_translate:
         return text
-    logger.info("[NLLB-CT2] %s -> %s | %d esaldi", src_nllb, tgt_nllb, len(to_translate))
     t0 = time.time()
     nllb_tokenizer.src_lang = src_nllb
-    translations: list[str] = [""] * len(to_translate)
-    # 1) Cache-tik bete daitezkeenak bete
-    pending: list[tuple[int, str]] = []
-    cache_hits = 0
-    for i, sentence in enumerate(to_translate):
-        cached = _cache_get(sentence, src_nllb, tgt_nllb)
-        if cached is not None:
-            translations[i] = cached
-            cache_hits += 1
-        else:
-            pending.append((i, sentence))
-    # 2) Falta direnak batch-ean itzuli CTranslate2-rekin
     BATCH = 8
-    for batch_start in range(0, len(pending), BATCH):
-        chunk = pending[batch_start:batch_start + BATCH]
-        chunk_sentences = [s for _, s in chunk]
-        source_tokens_batch = [
-            nllb_tokenizer.convert_ids_to_tokens(nllb_tokenizer.encode(s))
-            for s in chunk_sentences
-        ]
-        max_len = max(_adaptive_max_tokens(s) for s in chunk_sentences)
-        results = nllb_translator.translate_batch(
-            source_tokens_batch,
-            target_prefix=[[tgt_nllb]] * len(chunk_sentences),
-            beam_size=1,
-            max_decoding_length=max_len,
-            no_repeat_ngram_size=3,
         )
-        for (idx, src_s), res in zip(chunk, results):
-            target_ids = nllb_tokenizer.convert_tokens_to_ids(res.hypotheses[0][1:])
-            out_s = nllb_tokenizer.decode(target_ids, skip_special_tokens=True).strip()
-            translations[idx] = out_s
-            _cache_put(src_s, src_nllb, tgt_nllb, out_s)
-            logger.info("[NLLB-CT2]   %r -> %r", src_s[:60], out_s[:60])
-    logger.info("[NLLB-CT2] Egina %.1fs-tan (cache hits: %d/%d, tamaina: %d)",
-                time.time() - t0, cache_hits, len(to_translate),
-                len(_TRANSLATION_CACHE))
-    return _rebuild(blocks, translations)
 def _hitz_translate(text: str, src: str, tgt: str) -> str:
@@ -436,19 +403,14 @@ async def lifespan(app: FastAPI):
         logger.info("Reader kargatzen (quantize=True): %s %s", name, langs)
         readers[name] = easyocr.Reader(langs, gpu=False, quantize=True)
-    global nllb_translator, nllb_tokenizer
-    logger.info("[LOAD] NLLB tokenizer kargatzen: %s", NLLB_MODEL_NAME)
     nllb_tokenizer = AutoTokenizer.from_pretrained(NLLB_MODEL_NAME)
-    logger.info("[LOAD] NLLB CTranslate2 (INT8) kargatzen: %s", NLLB_CT2_DIR)
-    nllb_translator = ctranslate2.Translator(
-        NLLB_CT2_DIR,
-        device="cpu",
-        compute_type="int8",
-        intra_threads=CT2_INTRA_THREADS,
-        inter_threads=CT2_INTER_THREADS,
-    )
-    logger.info("[LOAD] NLLB-CT2 prest | intra=%d inter=%d",
-                CT2_INTRA_THREADS, CT2_INTER_THREADS)
     # HiTZ aldi baterako desaktibatuta (transformers bateragarritasun arazoak)
     logger.info("[LOAD] HiTZ karga saltatzen (NLLB soilik modua)")
@@ -462,7 +424,6 @@ async def lifespan(app: FastAPI):
     yield
     readers.clear()
     hitz_models.clear()
-    _TRANSLATION_CACHE.clear()
 app = FastAPI(title="OCR + Itzulpena API", version="16.0.0", lifespan=lifespan)
@@ -480,9 +441,8 @@ async def health_check():
         "status": "ok",
         "scripts": list(readers.keys()),
         "gemini": bool(GEMINI_API_KEY),
-        "nllb": nllb_translator is not None,
-        "nllb_backend": "ctranslate2-int8",
-        "translation_cache_size": len(_TRANSLATION_CACHE),
         "hitz_pairs": [f"{s}-{t}" for (s, t) in hitz_models.keys()],
     }
@@ -508,10 +468,7 @@ async def predict(
     img_array = np.array(pil_image)
     img_array = _deskew(img_array)
     reader = readers[script]
-    loop = asyncio.get_running_loop()
-    results = await loop.run_in_executor(
-        None, lambda: reader.readtext(img_array, detail=1, paragraph=False)
-    )
     raw_text = _group_into_lines(results)
     logger.info("[OCR] Egina %.1fs-tan, %d karaktere", time.time() - t0, len(raw_text))

 OCR + postzuzenketa (Gemini 2.5 Flash) + itzulpena (NLLB-200 + HiTZ Marian).
 """
 import io
 import logging
 import os
 import time
 from contextlib import asynccontextmanager
 import easyocr
 import httpx
 import numpy as np
+import torch
 from deskew import determine_skew
 from fastapi import FastAPI, File, Form, HTTPException, UploadFile
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse
 from PIL import Image
 from skimage.transform import rotate
+from transformers import (
+    AutoModelForSeq2SeqLM,
+    AutoTokenizer,
+    MarianMTModel,
+    MarianTokenizer,
+)
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 readers: dict = {}
 NLLB_MODEL_NAME = "facebook/nllb-200-distilled-600M"
 HITZ_PAIRS = {
     ("en", "eu"): "HiTZ/mt-hitz-en-eu",
     "zu": "zul_Latn",
 }
+nllb_model = None
 nllb_tokenizer = None
 hitz_models: dict = {}
     return min(512, max(32, int(approx_src_tokens * 1.8)))
 def _nllb_translate(text: str, src_nllb: str, tgt_nllb: str) -> str:
+    """NLLB-200 ereduarekin itzuli, esaldika eta batch-ean."""
     if not text.strip():
         return text
     blocks = _flatten_to_sentences(text)
     if not to_translate:
         return text
+    logger.info("[NLLB] %s -> %s | %d esaldi", src_nllb, tgt_nllb, len(to_translate))
     t0 = time.time()
     nllb_tokenizer.src_lang = src_nllb
+    forced_bos = nllb_tokenizer.convert_tokens_to_ids(tgt_nllb)
+    logger.info("[NLLB] forced_bos_token_id(%s) = %s", tgt_nllb, forced_bos)
+    translations = []
     BATCH = 8
+    for i in range(0, len(to_translate), BATCH):
+        chunk = to_translate[i:i + BATCH]
+        max_new = max(_adaptive_max_tokens(s) for s in chunk)
+        inputs = nllb_tokenizer(
+            chunk, return_tensors="pt", padding=True,
+            truncation=True, max_length=512,
         )
+        with torch.no_grad():
+            outputs = nllb_model.generate(
+                **inputs,
+                forced_bos_token_id=forced_bos,
+                max_new_tokens=max_new,
+                num_beams=2,
+                no_repeat_ngram_size=3,
+                early_stopping=True,
+            )
+        decoded = nllb_tokenizer.batch_decode(outputs, skip_special_tokens=True)
+        for src_s, out_s in zip(chunk, decoded):
+            logger.info("[NLLB]   %r -> %r", src_s[:60], out_s[:60])
+        translations.extend(decoded)
+    logger.info("[NLLB] Egina %.1fs-tan", time.time() - t0)
+    return _rebuild(blocks, [t.strip() for t in translations])
 def _hitz_translate(text: str, src: str, tgt: str) -> str:
         logger.info("Reader kargatzen (quantize=True): %s %s", name, langs)
         readers[name] = easyocr.Reader(langs, gpu=False, quantize=True)
+    global nllb_model, nllb_tokenizer
+    logger.info("[LOAD] NLLB eredua kargatzen: %s", NLLB_MODEL_NAME)
     nllb_tokenizer = AutoTokenizer.from_pretrained(NLLB_MODEL_NAME)
+    nllb_model = AutoModelForSeq2SeqLM.from_pretrained(NLLB_MODEL_NAME)
+    nllb_model.eval()
+    logger.info("[LOAD] NLLB mota: %s | tokenizer: %s",
+                nllb_model.__class__.__name__,
+                nllb_tokenizer.__class__.__name__)
     # HiTZ aldi baterako desaktibatuta (transformers bateragarritasun arazoak)
     logger.info("[LOAD] HiTZ karga saltatzen (NLLB soilik modua)")
     yield
     readers.clear()
     hitz_models.clear()
 app = FastAPI(title="OCR + Itzulpena API", version="16.0.0", lifespan=lifespan)
         "status": "ok",
         "scripts": list(readers.keys()),
         "gemini": bool(GEMINI_API_KEY),
+        "nllb": nllb_model is not None,
+        "nllb_class": nllb_model.__class__.__name__ if nllb_model else None,
         "hitz_pairs": [f"{s}-{t}" for (s, t) in hitz_models.keys()],
     }
     img_array = np.array(pil_image)
     img_array = _deskew(img_array)
     reader = readers[script]
+    results = reader.readtext(img_array, detail=1, paragraph=False)
     raw_text = _group_into_lines(results)
     logger.info("[OCR] Egina %.1fs-tan, %d karaktere", time.time() - t0, len(raw_text))

requirements.txt CHANGED Viewed

@@ -10,5 +10,4 @@ httpx==0.27.0
 transformers==4.37.0
 torch==2.2.2
 sentencepiece==0.2.0
-sacremoses==0.1.1
-ctranslate2==4.5.0

 transformers==4.37.0
 torch==2.2.2
 sentencepiece==0.2.0
+sacremoses==0.1.1