Spaces:

Unlimitedlevel19
/

LSB_OCR

Sleeping

App Files Files Community

Unlimitedlevel19 commited on Mar 25, 2025

Commit

a9e3e43

verified ·

1 Parent(s): 8677d8e

Create app.py

Browse files

Files changed (1) hide show

app.py +177 -0

app.py ADDED Viewed

	@@ -0,0 +1,177 @@

+import os
+import io
+import base64
+import numpy as np
+from PIL import Image
+from fastapi import FastAPI, Request
+import json
+import uvicorn
+try:
+    import pytesseract
+    TESSERACT_AVAILABLE = True
+except ImportError:
+    TESSERACT_AVAILABLE = False
+    print("⚠️ Pytesseract tidak ditemukan. Menggunakan OCR fallback.")
+# Fungsi untuk memproses string base64 menjadi gambar
+def process_base64_image(base64_string):
+    try:
+        # Jika string dimulai dengan 'data:image', hapus header
+        if 'data:image' in base64_string:
+            base64_string = base64_string.split(',')[1]
+        # Decode base64 menjadi bytes
+        image_bytes = base64.b64decode(base64_string)
+        # Konversi bytes menjadi gambar PIL
+        image = Image.open(io.BytesIO(image_bytes))
+        return image
+    except Exception as e:
+        print(f"Error processing base64 image: {e}")
+        return None
+# Fungsi untuk parsing teks LSB menjadi struktur data
+def parse_lsb_form(text):
+    # Inisialisasi dictionary untuk menyimpan hasil
+    result = {}
+    # Parsing dasar dari teks OCR menjadi field-field
+    if "LAPORAN SUMBER BAHAYA" in text:
+        result["jenis_dokumen"] = "LAPORAN SUMBER BAHAYA"
+    # Pengolahan untuk mengekstrak informasi dari teks
+    lines = text.split('\n')
+    # Dictionary untuk menyimpan kunci pencarian dan nama field
+    field_mappings = {
+        "Tanggal": "tanggal",
+        "Lokasi": "lokasi",
+        "Nama Pelapor": "nama_pelapor",
+        "Unit/Dept": "unit_dept",
+        "Jenis Pengamatan": "jenis_pengamatan",
+        "Kondisi": "kondisi_bahaya",
+        "Tindakan": "tindakan_bahaya",
+        "Intervensi": "intervensi",
+        "Deskripsi": "deskripsi",
+        "Usulan": "usulan_perbaikan",
+        "Tindak Lanjut": "tindak_lanjut",
+    }
+    current_field = None
+    for line in lines:
+        line = line.strip()
+        if not line:
+            continue
+        # Cek apakah line mengandung salah satu field
+        found_field = False
+        for key, field_name in field_mappings.items():
+            if key in line and ":" in line:
+                # Ekstrak nilai setelah ":"
+                parts = line.split(":", 1)
+                if len(parts) > 1:
+                    value = parts[1].strip()
+                    result[field_name] = value
+                    current_field = field_name
+                    found_field = True
+                    break
+        # Jika tidak ada field baru, tambahkan ke field sebelumnya
+        if not found_field and current_field and line:
+            if current_field in result:
+                result[current_field] += " " + line
+            else:
+                result[current_field] = line
+    return result
+# Fungsi untuk API predict yang menerima JSON dengan base64 image
+def api_predict(json_input):
+    try:
+        # Parse input JSON
+        if isinstance(json_input, str):
+            import json
+            data = json.loads(json_input)
+        else:
+            data = json_input
+        # Cek struktur data
+        if not isinstance(data, dict) or "data" not in data or not isinstance(data["data"], list) or len(data["data"]) == 0:
+            return {"status": "error", "message": "Invalid input format. Expected {\"data\": [\"BASE64_IMAGE\"]}"}
+        # Ambil base64 image
+        base64_img = data["data"][0]
+        # Proses gambar
+        image = process_base64_image(base64_img)
+        if image is None:
+            return {"status": "error", "message": "Failed to decode base64 image"}
+        # Lakukan OCR
+        if TESSERACT_AVAILABLE:
+            text = pytesseract.image_to_string(image, lang='ind')
+        else:
+            text = "⚠️ OCR tidak dapat diproses karena Tesseract tidak tersedia di Space ini."
+        # Parse hasil
+        extracted_data = parse_lsb_form(text)
+        # Gabungkan hasil
+        result = {
+            "raw_text": text,
+            "status": "success"
+        }
+        result.update(extracted_data)
+        return result
+    except Exception as e:
+        import traceback
+        trace = traceback.format_exc()
+        return {"status": "error", "message": str(e), "trace": trace}
+# Create FastAPI app
+app = FastAPI(
+    title="LSB OCR API",
+    description="API for OCR of LSB documents",
+    version="1.0.0"
+)
+@app.get("/")
+async def read_main():
+    return {
+        "message": "Welcome to LSB OCR API",
+        "endpoints": {
+            "/api/predict": "POST - Analyze LSB images using OCR",
+            "/status": "GET - Check API status"
+        }
+    }
+@app.get("/status")
+async def status():
+    return {
+        "status": "running",
+        "tesseract_available": TESSERACT_AVAILABLE,
+        "version": "1.0.0"
+    }
+@app.post("/api/predict")
+async def predict_route(request: Request):
+    try:
+        # Get request body
+        body = await request.json()
+        # Process with api_predict function
+        result = api_predict(body)
+        # Return result
+        return result
+    except Exception as e:
+        return {"status": "error", "message": str(e)}
+# Run the FastAPI app
+if __name__ == "__main__":
+    # For local development
+    port = int(os.environ.get("PORT", 7860))
+    uvicorn.run(app, host="0.0.0.0", port=port)