Spaces:

Unlimitedlevel19
/

LSB

Sleeping

App Files Files Community

QMonitor Admin commited on Mar 25, 2025

Commit

d786fb0

1 Parent(s): 086b042

Update LSB OCR service with app.py, requirements.txt, and README.md

Browse files

Files changed (3) hide show

README.md +44 -13
app.py +221 -4
requirements.txt +5 -0

README.md CHANGED Viewed

@@ -1,13 +1,44 @@
----
-title: LSB
-emoji: 🦀
-colorFrom: blue
-colorTo: yellow
-sdk: gradio
-sdk_version: 5.23.0
-app_file: app.py
-pinned: false
-short_description: 'LSB '
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# LSB Digital OCR dengan Hugging Face
+Aplikasi ini menggunakan OCR (Optical Character Recognition) untuk mengekstrak data dari formulir Laporan Sumber Bahaya (LSB) fisik ke format digital.
+## Fitur
+- Deteksi dan ekstraksi teks dari gambar formulir LSB
+- Pengenalan checkbox dan status (dicentang/tidak dicentang)
+- Pre-processing gambar untuk meningkatkan akurasi OCR
+- API endpoint untuk integrasi dengan aplikasi mobile
+## Teknologi yang Digunakan
+- Pytesseract untuk OCR
+- OpenCV untuk pemrosesan gambar
+- Gradio untuk antarmuka web
+- Flask untuk endpoint API
+## Cara Menggunakan
+1. Upload gambar formulir LSB melalui interface web
+2. Klik tombol "Proses OCR"
+3. Hasil ekstraksi teks akan ditampilkan di sebelah kanan
+4. Bisa juga diakses via API dari aplikasi Flutter
+## Format Output
+Output dalam format JSON dengan struktur berikut:
+```json
+{
+  "nama_pelapor": "nama yang terdeteksi",
+  "posisi_jabatan": "posisi/jabatan terdeteksi",
+  "lokasi_kejadian": "lokasi terdeteksi",
+  "tanggal_waktu": "tanggal & waktu terdeteksi",
+  "jenis_pengamatan": "Unsafe Condition, Unsafe Action, Intervensi",
+  "uraian_pengamatan": "uraian terdeteksi",
+  "tindakan_intervensi": "tindakan terdeteksi"
+}
+```
+## Integrasi dengan Aplikasi Mobile
+Aplikasi ini terintegrasi dengan LSB Digital Mobile yang dikembangkan menggunakan Flutter. Form LSB dapat diisi secara manual atau dengan mengunggah gambar formulir fisik untuk diproses dengan OCR.

app.py CHANGED Viewed

@@ -1,7 +1,224 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-demo = gr.Interface(fn=greet, inputs="text", outputs="text")
-demo.launch()

 import gradio as gr
+import pytesseract
+from PIL import Image, ImageEnhance
+import cv2
+import numpy as np
+import tempfile
+import os
+import io
+# Fungsi untuk meningkatkan kualitas gambar
+def preprocess_image(image):
+    # Konversi ke array numpy
+    img = np.array(image)
+    # Konversi ke grayscale
+    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
+    # Thresholding adaptif
+    thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
+                                   cv2.THRESH_BINARY, 11, 2)
+    # Noise removal
+    kernel = np.ones((1, 1), np.uint8)
+    opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel)
+    return opening
+# Fungsi untuk mendeteksi tanda centang pada kotak
+def detect_checkboxes(image, orig_image):
+    # Deteksi kotak-kotak (checkbox)
+    img = np.array(image)
+    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
+    # Threshold gambar untuk mendapatkan area checkbox
+    _, thresh = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY_INV)
+    # Deteksi kontur
+    contours, _ = cv2.findContours(thresh, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
+    # Filter kontur yang mungkin merupakan checkbox
+    checkboxes = []
+    for cnt in contours:
+        x, y, w, h = cv2.boundingRect(cnt)
+        # Filter berdasarkan ukuran
+        if 10 < w < 50 and 10 < h < 50:
+            # Periksa apakah checkbox dicentang
+            roi = orig_image[y:y+h, x:x+w]
+            gray_roi = cv2.cvtColor(roi, cv2.COLOR_BGR2GRAY)
+            _, binary_roi = cv2.threshold(gray_roi, 150, 255, cv2.THRESH_BINARY_INV)
+            non_zero_pixels = cv2.countNonZero(binary_roi)
+            ratio = non_zero_pixels / (w * h)
+            # Jika rasio piksel non-zero cukup tinggi, kemungkinan dicentang
+            is_checked = ratio > 0.1
+            checkboxes.append((x, y, w, h, is_checked))
+    # Mendeteksi jenis pengamatan berdasarkan posisi checkbox
+    jenis_pengamatan = {
+        'Unsafe Condition': False,
+        'Unsafe Action': False,
+        'Intervensi': False
+    }
+    # Cari checkbox yang dicentang dan tentukan posisinya untuk jenis pengamatan
+    for (x, y, w, h, is_checked) in checkboxes:
+        # Atur kondisi berdasarkan posisi checkbox pada form standard LSB
+        if is_checked:
+            if x < img.shape[1] // 3:  # Checkbox di posisi pertama
+                jenis_pengamatan['Unsafe Condition'] = True
+            elif img.shape[1] // 3 < x < 2 * img.shape[1] // 3:  # Checkbox di posisi kedua
+                jenis_pengamatan['Unsafe Action'] = True
+            else:  # Checkbox di posisi ketiga
+                jenis_pengamatan['Intervensi'] = True
+    return jenis_pengamatan
+# Fungsi utama untuk OCR
+def perform_ocr(image):
+    # Simpan gambar ke file temporari
+    with tempfile.NamedTemporaryFile(delete=False, suffix='.jpg') as temp:
+        image_path = temp.name
+        img_pil = Image.fromarray(image)
+        img_pil.save(image_path)
+    # Preprocess gambar untuk OCR
+    preprocessed = preprocess_image(img_pil)
+    cv2.imwrite(image_path + '_processed.jpg', preprocessed)
+    # Lakukan OCR pada gambar yang telah diproses
+    text = pytesseract.image_to_string(Image.open(image_path + '_processed.jpg'), lang='ind')
+    # Hapus file temporari
+    os.unlink(image_path)
+    os.unlink(image_path + '_processed.jpg')
+    # Lakukan juga deteksi checkbox
+    jenis_pengamatan = detect_checkboxes(img_pil, image)
+    # Parse teks hasil OCR menjadi data terstruktur
+    data = parse_form_text(text)
+    # Tambahkan hasil deteksi checkbox ke data
+    data['jenis_pengamatan'] = []
+    for jenis, checked in jenis_pengamatan.items():
+        if checked:
+            data['jenis_pengamatan'].append(jenis)
+    # Gabungkan menjadi string
+    if data['jenis_pengamatan']:
+        data['jenis_pengamatan'] = ', '.join(data['jenis_pengamatan'])
+    else:
+        data['jenis_pengamatan'] = ''
+    return data
+# Fungsi untuk memparse teks dari form LSB
+def parse_form_text(text):
+    lines = text.split('\n')
+    data = {
+        'nama_pelapor': '',
+        'posisi_jabatan': '',
+        'lokasi_kejadian': '',
+        'tanggal_waktu': '',
+        'uraian_pengamatan': '',
+        'tindakan_intervensi': '',
+    }
+    # Cari setiap field dalam teks
+    current_field = None
+    for i, line in enumerate(lines):
+        # Deteksi field berdasarkan kata kunci
+        if 'NAMA PELAPOR' in line:
+            current_field = 'nama_pelapor'
+            if i+1 < len(lines) and lines[i+1].strip():
+                data[current_field] = lines[i+1].strip()
+        elif 'POSISI' in line or 'JABATAN' in line:
+            current_field = 'posisi_jabatan'
+            if i+1 < len(lines) and lines[i+1].strip():
+                data[current_field] = lines[i+1].strip()
+        elif 'LOKASI' in line:
+            current_field = 'lokasi_kejadian'
+            if i+1 < len(lines) and lines[i+1].strip():
+                data[current_field] = lines[i+1].strip()
+        elif 'TANGGAL' in line or 'WAKTU' in line:
+            current_field = 'tanggal_waktu'
+            if i+1 < len(lines) and lines[i+1].strip():
+                data[current_field] = lines[i+1].strip()
+        elif 'URAIAN' in line and 'PENGAMATAN' in line:
+            current_field = 'uraian_pengamatan'
+            # Ambil beberapa baris untuk uraian
+            for j in range(i+1, min(i+4, len(lines))):
+                if lines[j].strip() and not any(keyword in lines[j] for keyword in ['INTERVENSI', 'TINDAKAN', 'SARAN', 'PELAPOR']):
+                    data[current_field] += ' ' + lines[j].strip()
+        elif ('TINDAKAN' in line and 'INTERVENSI' in line) or 'PERBAIKAN' in line:
+            current_field = 'tindakan_intervensi'
+            # Ambil beberapa baris untuk tindakan
+            for j in range(i+1, min(i+4, len(lines))):
+                if lines[j].strip() and not any(keyword in lines[j] for keyword in ['PELAPOR', 'HSE', 'PENERIMA']):
+                    data[current_field] += ' ' + lines[j].strip()
+    # Bersihkan teks
+    for key in data:
+        data[key] = data[key].strip()
+    return data
+# API endpoint untuk prediksi
+def predict_api(image):
+    if image is None:
+        return {"error": "No image provided"}
+    # Konversi file gambar ke numpy array
+    img = np.array(Image.open(io.BytesIO(image.read())))
+    # Lakukan OCR
+    result = perform_ocr(img)
+    return {"output": result}
+# Interface web dengan Gradio
+with gr.Blocks() as demo:
+    gr.Markdown("# LSB Form OCR")
+    gr.Markdown("Upload gambar formulir LSB untuk ekstraksi data otomatis")
+    with gr.Row():
+        with gr.Column():
+            input_image = gr.Image(type="pil", label="Upload Gambar Formulir LSB")
+            submit_btn = gr.Button("Proses OCR")
+        with gr.Column():
+            nama_output = gr.Textbox(label="Nama Pelapor")
+            posisi_output = gr.Textbox(label="Posisi/Jabatan")
+            lokasi_output = gr.Textbox(label="Lokasi Kejadian")
+            tanggal_output = gr.Textbox(label="Tanggal/Waktu")
+            jenis_output = gr.Textbox(label="Jenis Pengamatan")
+            uraian_output = gr.Textbox(label="Uraian Pengamatan")
+            tindakan_output = gr.Textbox(label="Tindakan Intervensi")
+    def process_image(img):
+        if img is None:
+            return ["No image uploaded"] * 7
+        result = perform_ocr(np.array(img))
+        return [
+            result['nama_pelapor'],
+            result['posisi_jabatan'],
+            result['lokasi_kejadian'],
+            result['tanggal_waktu'],
+            result['jenis_pengamatan'],
+            result['uraian_pengamatan'],
+            result['tindakan_intervensi']
+        ]
+    submit_btn.click(
+        process_image,
+        inputs=[input_image],
+        outputs=[nama_output, posisi_output, lokasi_output, tanggal_output,
+                jenis_output, uraian_output, tindakan_output]
+    )
+# Konfigurasi API
+demo.queue()
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio==4.19.2
+pytesseract==0.3.10
+opencv-python==4.8.1.78
+numpy==1.24.3
+Pillow==10.1.0