Spaces:

TuttiQuantis
/

PPWR_APP

Sleeping

App Files Files Community

martinofumagalli commited on Nov 10, 2025

Commit

74b4e91

verified ·

1 Parent(s): 36cf4fd

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -23

app.py CHANGED Viewed

@@ -102,46 +102,53 @@ def material_from(text: str) -> str:
     m = re.search(r"(SERIOPLAST.*?RESIN)", text, re.I)
     return m.group(1).strip() if m else ""
-# --- WEIGHT PARSER → restituisce solo il valore, es. "94±3g"
 WEIGHT_VALUE_RE = re.compile(
-    r"""(?ix)
-    \bweight\b
-    [^\n\r]{0,80}?                 # pochi caratteri sulla stessa riga
-    (
-        (?:\d+(?:[.,]\d+)?\s*      # valore principale (94 o 94,5)
-           (?:±|\+/?-|\+-)\s*      # simbolo tolleranza (±, +/- o +-)
-           \d+(?:[.,]\d+)?\s*      # tolleranza (3 o 3,0)
-           (?:mg|g|kg))            # unità
-        |
-        (?:\d+(?:[.,]\d+)?\s*(?:mg|g|kg))  # fallback: solo "94 g"
-    )
-    """,
 )
 def _normalize_weight(s: str) -> str:
-    # compatta spazi, uniforma simboli/virgole → "94±3g"
     s = (s or "").strip()
-    s = s.replace(" ", "")
-    s = s.replace("+/-", "±").replace("+-", "±")
     s = s.replace(",", ".")
     return s
 def weight_from(text: str) -> str:
     if not text:
         return ""
-    # 1) match diretto nel testo complessivo
     m = WEIGHT_VALUE_RE.search(text)
     if m:
         return _normalize_weight(m.group(1))
-    # 2) fallback riga-per-riga per OCR “sporco”
     for line in (text or "").splitlines():
         if "weight" in line.lower():
-            m2 = re.search(
-                r"(?ix)\bweight\b[^\n\r]*?((?:\d+(?:[.,]\d+)?\s*(?:±|\+/?-|\+-)\s*\d+(?:[.,]\d+)?\s*(?:mg|g|kg))|(?:\d+(?:[.,]\d+)?\s*(?:mg|g|kg)))",
-                line,
-            )
             if m2:
                 return _normalize_weight(m2.group(1))
     return ""
 # ---------------------  PIECE da "Packaging Component Type"  ---------------------
@@ -214,7 +221,6 @@ def piece_from(text: str, cls: str) -> str:
             return "LABEL - BACK"  # scelta neutra se non specificato
     return ""
-# ----------------------------------------------------------------------------------------------------
 # --- Nuove colonne: euristiche base (si possono migliorare con esempi reali)
 FUNCTION_RE = re.compile(r"\b(Primary|Secondary(?:\s*or\s*Tertiary)?|Tertiary)\b", re.I)

     m = re.search(r"(SERIOPLAST.*?RESIN)", text, re.I)
     return m.group(1).strip() if m else ""
+# ======================================================================
+# WEIGHT PARSER → robusto su OCR (spazi tra cifre) e simboli ± varianti
+# Ritorna solo il valore es. "94±3g"
+# ======================================================================
+# numero con possibili spazi interni tra cifre (OCR): "9 4" -> 94
+NUM_SPACED = r"(?:\d(?:\s?\d){0,6}(?:[.,]\d+)?)"
+UNIT = r"(?:mg|g|kg)\b"
+PLUSMINUS = r"(?:±|\+\s*/?\s*-\s*|[＋﹢]\s*[－\-])"  # ±, +/-, +-, varianti
 WEIGHT_VALUE_RE = re.compile(
+    rf"(?is)\bweight\b[^\n\r]{{0,120}}?({NUM_SPACED}\s*{PLUSMINUS}\s*{NUM_SPACED}\s*{UNIT}|{NUM_SPACED}\s*{UNIT})"
 )
 def _normalize_weight(s: str) -> str:
     s = (s or "").strip()
+    # togli spazi solo tra cifre
+    s = re.sub(r"(?<=\d)\s+(?=\d)", "", s)
+    # uniforma simboli ±
+    s = re.sub(r"\+\s*/?\s*-\s*", "±", s)
+    s = s.replace("＋－", "±").replace("﹢", "+").replace("－", "-")
+    # togli spazi attorno a ± e prima dell'unità
+    s = re.sub(r"\s*±\s*", "±", s)
+    s = re.sub(r"\s*(mg|g|kg)\b", r"\1", s, flags=re.I)
+    # virgole -> punti
     s = s.replace(",", ".")
     return s
 def weight_from(text: str) -> str:
     if not text:
         return ""
     m = WEIGHT_VALUE_RE.search(text)
     if m:
         return _normalize_weight(m.group(1))
+    # Fallback riga-per-riga
     for line in (text or "").splitlines():
         if "weight" in line.lower():
+            m2 = WEIGHT_VALUE_RE.search(line)
             if m2:
                 return _normalize_weight(m2.group(1))
+            # prova su substring dopo "weight"
+            try:
+                idx = line.lower().index("weight") + len("weight")
+                m3 = re.search(rf"({NUM_SPACED}\s*{PLUSMINUS}\s*{NUM_SPACED}\s*{UNIT}|{NUM_SPACED}\s*{UNIT})", line[idx:], re.I)
+                if m3:
+                    return _normalize_weight(m3.group(1))
+            except Exception:
+                pass
     return ""
 # ---------------------  PIECE da "Packaging Component Type"  ---------------------
             return "LABEL - BACK"  # scelta neutra se non specificato
     return ""
 # --- Nuove colonne: euristiche base (si possono migliorare con esempi reali)
 FUNCTION_RE = re.compile(r"\b(Primary|Secondary(?:\s*or\s*Tertiary)?|Tertiary)\b", re.I)