Spaces:

Rivalcoder
/

OCR

Runtime error

App Files Files Community

Rivalcoder commited on Sep 18, 2025

Commit

e4b7f54

1 Parent(s): 01b6cfc

Add files

Browse files

Files changed (3) hide show

Dockerfile +24 -0
app.py +46 -0
requirements.txt +6 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,24 @@

+FROM python:3.10-slim
+# System dependencies for pdf2image + poppler
+RUN apt-get update && apt-get install -y \
+    poppler-utils \
+    tesseract-ocr \
+    libglib2.0-0 \
+    libsm6 \
+    libxext6 \
+    libxrender-dev \
+    && rm -rf /var/lib/apt/lists/*
+WORKDIR /app
+# Install Python deps
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy app
+COPY app.py .
+EXPOSE 7860
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,46 @@

+import os
+import numpy as np
+import easyocr
+from fastapi import FastAPI, File, UploadFile
+from fastapi.responses import JSONResponse
+from pdf2image import convert_from_bytes
+from tempfile import NamedTemporaryFile
+import uvicorn
+app = FastAPI(title="OCR Backend API", description="Extract text from PDF or Images using EasyOCR")
+# Initialize EasyOCR Reader (English + Hindi, you can add more)
+reader = easyocr.Reader(['en', 'hi'])
+@app.post("/extract-text/")
+async def extract_text(file: UploadFile = File(...)):
+    try:
+        # Read uploaded file
+        contents = await file.read()
+        extracted_text = ""
+        if file.filename.lower().endswith(".pdf"):
+            # Convert PDF to images
+            images = convert_from_bytes(contents)
+            for i, image in enumerate(images):
+                image_np = np.array(image)
+                result = reader.readtext(image_np)
+                page_text = " ".join([text for _, text, _ in result])
+                extracted_text += f"--- Page {i+1} ---\n{page_text}\n\n"
+        else:
+            # Treat as image
+            with NamedTemporaryFile(delete=False, suffix=".jpg") as temp_file:
+                temp_file.write(contents)
+                temp_file.flush()
+                results = reader.readtext(temp_file.name)
+                extracted_text = " ".join([text for _, text, _ in results])
+        return JSONResponse({"extracted_text": extracted_text})
+    except Exception as e:
+        return JSONResponse({"error": str(e)}, status_code=500)
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=int(os.environ.get("PORT", 7860)))

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+fastapi
+uvicorn
+easyocr
+pdf2image
+numpy
+Pillow