Spaces:

TuttiQuantis
/

PPWR_APP

Sleeping

App Files Files Community

martinofumagalli commited on Nov 10, 2025

Commit

97d6f99

verified ·

1 Parent(s): 7e449bd

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -32

app.py CHANGED Viewed

@@ -85,47 +85,48 @@ def material_from(text: str) -> str:
     m = re.search(r"(SERIOPLAST.*?RESIN)", text, re.I)
     return m.group(1).strip() if m else ""
-# --- (AGGIUNTA) WEIGHT PARSER ----------------------------------------------
-WEIGHT_TOL_RE = re.compile(
-    r"\bWeight\b[^\n\r]{0,15}?([0-9]+(?:[.,][0-9]+)?)\s*(?:±|\+/?-|\+-)\s*([0-9]+(?:[.,][0-9]+)?)\s*(mg|g|kg)?",
-    re.I,
-)
-WEIGHT_SIMPLE_RE = re.compile(
-    r"\bWeight\b[^\n\r]{0,15}?([0-9]+(?:[.,][0-9]+)?)\s*(mg|g|kg)\b",
-    re.I,
-)
-WEIGHT_INLINE_RE = re.compile(
-    r"\b([0-9]+(?:[.,][0-9]+)?)\s*(?:±|\+/?-|\+-)\s*([0-9]+(?:[.,][0-9]+)?)\s*(mg|g|kg)\b",
-    re.I,
 )
-def _norm_num(s: str) -> str:
-    return (s or "").replace(",", ".").strip().rstrip(".")
 def weight_from(text: str) -> str:
-    # 1) match con tolleranza
-    m = WEIGHT_TOL_RE.search(text or "")
-    if m:
-        val = _norm_num(m.group(1))
-        tol = _norm_num(m.group(2))
-        unit = (m.group(3) or "g").lower()
-        return f"{val} ± {tol} {unit}"
-    # 2) match semplice con unità
-    m = WEIGHT_SIMPLE_RE.search(text or "")
     if m:
-        val = _norm_num(m.group(1))
-        unit = (m.group(2) or "g").lower()
-        return f"{val} {unit}"
-    # 3) riga per riga per casi OCR
     for line in (text or "").splitlines():
         if "weight" in line.lower():
-            m2 = WEIGHT_INLINE_RE.search(line)
             if m2:
-                val = _norm_num(m2.group(1))
-                tol = _norm_num(m2.group(2))
-                unit = (m2.group(3) or "g").lower()
-                return f"{val} ± {tol} {unit}"
     return ""
 # ---------------------------------------------------------------------------
 # ---------------------  AGGIUNTA RICHIESTA: PIECE da "Packaging Component Type"  ---------------------
@@ -339,6 +340,13 @@ for up in files:
         if ocr_fallback and not any((p or "").strip() for p in pages):
             pages = run_ocr(raw, lang=lang, dpi=int(ocr_dpi), tesseract_cmd=tess_cmd)
         rec = parse_record(pages, up.name)
         rows.append(rec)
     except Exception as e:
         errors.append((up.name, str(e)))

     m = re.search(r"(SERIOPLAST.*?RESIN)", text, re.I)
     return m.group(1).strip() if m else ""
+# --- WEIGHT PARSER → restituisce solo il valore, es. "94±3g" -------------
+WEIGHT_VALUE_RE = re.compile(
+    r"""(?ix)
+    \bweight\b
+    [^\n\r]{0,80}?                 # pochi caratteri sulla stessa riga
+    (
+        (?:\d+(?:[.,]\d+)?\s*      # valore principale (94 o 94,5)
+           (?:±|\+/?-|\+-)\s*      # simbolo tolleranza (±, +/- o +-)
+           \d+(?:[.,]\d+)?\s*      # tolleranza (3 o 3,0)
+           (?:mg|g|kg))            # unità
+        |
+        (?:\d+(?:[.,]\d+)?\s*(?:mg|g|kg))  # fallback: solo "94 g"
+    )
+    """,
 )
+def _normalize_weight(s: str) -> str:
+    # compatta spazi, uniforma simboli/virgole → "94±3g"
+    s = (s or "").strip()
+    s = s.replace(" ", "")
+    s = s.replace("+/-", "±").replace("+-", "±")
+    s = s.replace(",", ".")
+    return s
 def weight_from(text: str) -> str:
+    if not text:
+        return ""
+    # 1) match diretto nel testo complessivo
+    m = WEIGHT_VALUE_RE.search(text)
     if m:
+        return _normalize_weight(m.group(1))
+    # 2) fallback riga-per-riga per OCR “sporco”
     for line in (text or "").splitlines():
         if "weight" in line.lower():
+            m2 = re.search(
+                r"(?ix)\bweight\b[^\n\r]*?((?:\d+(?:[.,]\d+)?\s*(?:±|\+/?-|\+-)\s*\d+(?:[.,]\d+)?\s*(?:mg|g|kg))|(?:\d+(?:[.,]\d+)?\s*(?:mg|g|kg)))",
+                line,
+            )
             if m2:
+                return _normalize_weight(m2.group(1))
     return ""
 # ---------------------------------------------------------------------------
 # ---------------------  AGGIUNTA RICHIESTA: PIECE da "Packaging Component Type"  ---------------------
         if ocr_fallback and not any((p or "").strip() for p in pages):
             pages = run_ocr(raw, lang=lang, dpi=int(ocr_dpi), tesseract_cmd=tess_cmd)
         rec = parse_record(pages, up.name)
+        # Se Weight è vuoto, prova un pass OCR dedicato solo per il peso
+        if (not rec.get("Weight") or rec["Weight"] == "–") and ocr_fallback:
+            ocr_pages = run_ocr(raw, lang=lang, dpi=int(ocr_dpi), tesseract_cmd=tess_cmd)
+            w_ocr = weight_from("\n".join(ocr_pages))
+            if w_ocr:
+                rec["Weight"] = w_ocr
         rows.append(rec)
     except Exception as e:
         errors.append((up.name, str(e)))