Spaces:

Maulidaaa
/

skincare

Sleeping

App Files Files Community

Maulidaaa commited on Apr 20, 2025

Commit

8788edb

verified ·

1 Parent(s): 9dbee02

Update app/utils/ocr.py

Browse files

Files changed (1) hide show

app/utils/ocr.py +22 -26

app/utils/ocr.py CHANGED Viewed

@@ -5,44 +5,40 @@ import re
 import logging
 import easyocr
 ocr_reader = easyocr.Reader(['en'], gpu=False)
-# Fungsi untuk preprocessing gambar agar lebih jelas
 def preprocess_image(image):
-    # Mengubah ke grayscale
-    image = image.convert("L")
-    # Meningkatkan kontras
-    enhancer = ImageEnhance.Contrast(image)
-    image = enhancer.enhance(2)
-    # Menggunakan filter untuk mengurangi noise
-    image = image.filter(ImageFilter.MedianFilter(3))
     return image
 def extract_text_from_image(image_file):
     try:
-        # Membaca gambar dan preprocessing
         image = Image.open(BytesIO(image_file.read())).convert("RGB")
         image = preprocess_image(image)
         image_np = np.array(image)
-        # Membaca teks menggunakan OCR
         results = ocr_reader.readtext(image_np)
         text = " ".join([res[1] for res in results])
-        # Menyaring kata yang tidak relevan dengan regex yang lebih ketat
-        text = re.sub(r'\b(Ingredients|Komposisi|Composition|Bahan|Daftar Bahan)\b', '', text, flags=re.IGNORECASE)
-        text = re.sub(r'[^A-Za-z0-9,.\s-]', '', text).strip()  # Menyaring karakter yang tidak relevan
-        # Menambahkan filter untuk hanya mengambil teks relevan (misalnya hanya angka dan huruf)
-        relevant_keywords = ['Aqua', 'Water', 'Glycerin', 'Niacinamide']  # Daftar kata kunci yang relevan
-        filtered_text = ' '.join([word for word in text.split() if word in relevant_keywords or word.isalpha()])
-        return filtered_text
     except Exception as e:
         logging.error(f"OCR error: {e}")
         return ""

 import logging
 import easyocr
+# Inisialisasi reader
 ocr_reader = easyocr.Reader(['en'], gpu=False)
+# Fungsi preprocessing gambar
 def preprocess_image(image):
+    image = image.convert("L")  # Grayscale
+    image = ImageEnhance.Contrast(image).enhance(2)  # Kontras
+    image = image.filter(ImageFilter.MedianFilter(3))  # Filter noise
     return image
+# Fungsi utama ekstraksi teks dari gambar
 def extract_text_from_image(image_file):
     try:
+        # Buka dan preprocess gambar
         image = Image.open(BytesIO(image_file.read())).convert("RGB")
         image = preprocess_image(image)
         image_np = np.array(image)
+        # OCR
         results = ocr_reader.readtext(image_np)
         text = " ".join([res[1] for res in results])
+        logging.info(f"OCR Raw Text: {text}")
+        # Hapus label pembuka seperti 'Ingredients:', 'Komposisi:', dsb.
+        text = re.sub(r'\b(Ingredients|Komposisi|Composition|Bahan|Daftar Bahan)\s*[:\-]?\s*', '', text, flags=re.IGNORECASE)
+        # Hapus karakter tidak relevan (non-alfanumerik selain titik, koma, spasi, dan dash)
+        text = re.sub(r'[^A-Za-z0-9,\.\s\-]', '', text)
+        # (Opsional) Kamu bisa hapus kata-kata yang bukan ingredient umum (jika perlu)
+        # Tapi lebih baik ini dilakukan di tahap `extract_ingredients`, bukan di sini
+        return text.strip()
     except Exception as e:
         logging.error(f"OCR error: {e}")
         return ""