Spaces:

dohyune
/

boxlabel

Sleeping

App Files Files Community

dohyune commited on Aug 28, 2025

Commit

bd43ad1

verified ·

1 Parent(s): 45aa168

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -138

app.py CHANGED Viewed

@@ -2,10 +2,10 @@ import streamlit as st
 import pandas as pd
 import io, zipfile, re, html, json
-st.set_page_config(page_title="📦 박스라벨 자동 생성기 (필드/토큰 자동감지)", layout="wide")
-st.title("📦 박스라벨 자동 생성기 (.HWPX — 필드/토큰 자동감지)")
-# =============== 공통 유틸 ===============
 def compute_year_range(series: pd.Series) -> str:
     s = series.astype(str).fillna("")
     valid = s[~s.isin(["", "0", "0000"])]
@@ -29,14 +29,11 @@ def build_merged_df(df: pd.DataFrame) -> pd.DataFrame:
     else:
         prod_df = pd.DataFrame({"박스번호": df["박스번호"].unique(), "생산연도": "0000-0000"})
-    # 목록(관리번호 + 제목)
     has_mgmt = "관리번호" in df.columns
     list_rows = []
     for box, g in df.groupby("박스번호"):
-        if has_mgmt:
-            lines = [f"- {r['관리번호']} {r['제목']}" for _, r in g.iterrows()]
-        else:
-            lines = [f"- {r['제목']}" for _, r in g.iterrows()]
         list_rows.append({"박스번호": box, "목록": "\r\n".join(lines)})
     list_df = pd.DataFrame(list_rows)
@@ -47,7 +44,13 @@ def build_merged_df(df: pd.DataFrame) -> pd.DataFrame:
     return meta_df.merge(list_df, on="박스번호", how="left").merge(prod_df, on="박스번호", how="left")
-def _build_list_runs(text: str) -> str:
     if text is None: return ""
     lines = str(text).replace("\r\n", "\n").split("\n")
     parts = []
@@ -57,17 +60,12 @@ def _build_list_runs(text: str) -> str:
         parts.append(f"<hp:run><hp:t>{html.escape(ln)}</hp:t></hp:run>")
     return "".join(parts)
-def _build_plain_runs(text: str) -> str:
-    return f"<hp:run><hp:t>{html.escape('' if text is None else str(text))}</hp:t></hp:run>"
-# =============== HWPX 쓰기 공통 (mimetype 무압축/맨앞) ===============
-def write_hwpx_like_src(zin: zipfile.ZipFile, writer_fn) -> bytes:
     out = io.BytesIO()
     zout = zipfile.ZipFile(out, "w")
-    names = zin.namelist()
-    # 1) mimetype 먼저 무압축
-    if "mimetype" in names:
         zi = zipfile.ZipInfo("mimetype")
         zi.compress_type = zipfile.ZIP_STORED
         zout.writestr(zi, zin.read("mimetype"))
@@ -91,129 +89,63 @@ def write_hwpx_like_src(zin: zipfile.ZipFile, writer_fn) -> bytes:
     zout.close(); out.seek(0)
     return out.getvalue()
-# =============== 모드1: 토큰 치환 ({{키}}) ===============
-RUN_JOIN_RE = re.compile(r'</hp:t>\s*</hp:run>\s*<hp:run[^>]*>\s*<hp:t>', re.DOTALL)
-def token_mode_apply(hwpx_bytes: bytes, mapping: dict, collect_debug=False):
-    dbg = {"mode":"token","files_touched":[], "token_hits":{}} if collect_debug else None
-    zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
-    token_keys = list(mapping.keys())
-    def writer_fn(fname: str, xml: str) -> str:
-        changed = False
-        # run 경계 병합 (토큰이 잘려 있어도 이어붙이기)
-        xml2 = RUN_JOIN_RE.sub('', xml)
-        if xml2 != xml:
-            changed = True
-            xml = xml2
-        # 토큰 문자열 치환
-        for k in token_keys:
-            tok = f"{{{{{k}}}}}"
-            if tok in xml:
-                val = mapping[k]
-                if re.match(r"^(목록|list)\d+$", k, re.IGNORECASE):
-                    # 토큰은 run 안에 들어가 있으므로, run 구조를 통째로 생성
-                    xml = xml.replace(tok, _build_list_runs(val))
-                else:
-                    xml = xml.replace(tok, html.escape("" if val is None else str(val)))
-                changed = True
-                if dbg: dbg["token_hits"][k] = dbg["token_hits"].get(k, 0) + 1
-        if changed and dbg and fname not in dbg["files_touched"]:
-            dbg["files_touched"].append(fname)
-        return xml
-    out = write_hwpx_like_src(zin, writer_fn)
-    zin.close()
-    return (out, dbg) if collect_debug else (out, None)
-# =============== 모드2: 필드컨트롤 치환 (가시 텍스트 중복 삽입) ===============
-# <hp:fieldBegin ... name="키"> ... </hp:fieldBegin> [본문] <hp:fieldEnd ... />
-FIELD_BLOCK_RE_TMPL = r'(<hp:fieldBegin[^>]*name="{name}"[^>]*>.*?</hp:fieldBegin>)(.*?)(<hp:fieldEnd[^>]*/>)'
-def field_mode_apply(hwpx_bytes: bytes, mapping: dict, collect_debug=False):
     dbg = {"mode":"field","files_touched":[], "field_hits":{}} if collect_debug else None
     zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
-    # 어떤 키들이 실제로 존재하는지 빠르게 수집 (정확도↑, 속도↑)
-    contents = [e.filename for e in zin.infolist() if e.filename.startswith("Contents/") and e.filename.endswith(".xml")]
-    present_keys = set()
-    for fn in contents:
-        try:
-            s = zin.read(fn).decode("utf-8", errors="ignore")
             for k in mapping.keys():
                 if f'name="{k}"' in s:
-                    present_keys.add(k)
-        except:
-            pass
-    def writer_fn(fname: str, xml: str) -> str:
-        any_change = False
-        for k in present_keys:
             val = mapping.get(k, "")
             is_list = bool(re.match(r"^(목록|list)\d+$", k, re.IGNORECASE))
-            pattern = re.compile(FIELD_BLOCK_RE_TMPL.format(name=re.escape(k)), re.DOTALL)
             def _repl(m):
-                # 필드 내부 내용은 run으로 교체
-                inner = _build_list_runs(val) if is_list else _build_plain_runs(val)
-                # 필드 뒤에 가시 텍스트를 '한 번 더' 넣어 항상 보이게
-                visible_dup = inner
                 if dbg: dbg["field_hits"][k] = dbg["field_hits"].get(k, 0) + 1
-                return f'{m.group(1)}{inner}{m.group(3)}{visible_dup}'
-            xml_new, n = pattern.subn(_repl, xml)
             if n:
-                any_change = True
-                xml = xml_new
-        if any_change and dbg and fname not in dbg["files_touched"]:
             dbg["files_touched"].append(fname)
         return xml
-    out = write_hwpx_like_src(zin, writer_fn)
     zin.close()
     return (out, dbg) if collect_debug else (out, None)
-# =============== 모드 자동감지 ===============
-def detect_template_mode(hwpx_bytes: bytes) -> str:
-    zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
-    has_token = False
-    has_field = False
-    for e in zin.infolist():
-        if not (e.filename.startswith("Contents/") and e.filename.endswith(".xml")):
-            continue
-        try:
-            s = zin.read(e.filename).decode("utf-8", errors="ignore")
-            if "{{" in s and "}}" in s:
-                has_token = True
-            if "<hp:fieldBegin" in s and 'name="' in s:
-                has_field = True
-        except:
-            pass
-    zin.close()
-    if has_token: return "token"
-    if has_field: return "field"
-    return "unknown"
-# =============== Streamlit UI ===============
-with st.expander("사용 방법 요약", expanded=True):
     st.markdown("""
-- 템플릿이 **토큰(`{{박스번호1}}` 등)** 이면 자동으로 토큰 모드,
-  **한글 필드컨트롤(`name="박스번호1"`)** 이면 필드 모드로 자동 처리합니다.
-- 필드 모드에서는 값이 안 보이는 문제를 막기 위해 **fieldEnd 뒤에 가시 텍스트를 한 번 더 넣습니다.**
 """)
-tpl = st.file_uploader("📄 HWPX 템플릿 업로드", type=["hwpx"])
 batch_size = st.number_input("템플릿의 라벨 세트 개수 (한 페이지 N개)", min_value=1, max_value=12, value=3, step=1)
-data = st.file_uploader("📊 데이터 업로드 (Excel/CSV)", type=["xlsx","xls","csv"])
-if tpl and data:
-    tpl_bytes = tpl.read()
-    mode = detect_template_mode(tpl_bytes)
-    st.info(f"탐지된 템플릿 모드: **{mode}**")
-    df = pd.read_csv(data) if data.name.lower().endswith(".csv") else pd.read_excel(data)
     if "박스번호" not in df.columns:
         st.error("❌ 필수 컬럼 '박스번호'가 없습니다.")
         st.stop()
@@ -232,11 +164,11 @@ if tpl and data:
     work = merged[merged["박스번호"].isin(selected)] if selected else merged
     rows = work.sort_values("박스번호").to_dict(orient="records")
-    # 1페이지 미리보기 매핑
-    st.subheader("🧪 1페이지 매핑 프리뷰")
     keys = ["박스번호","종료연도","보존기간","단위업무","기록물철","목록"]
-    preview = {}
     n = int(batch_size)
     for i in range(n):
         if i < len(rows):
             r = rows[i]
@@ -245,17 +177,15 @@ if tpl and data:
         else:
             for k in keys:
                 preview[f"{k}{i+1}"] = ""
-    st.dataframe(
-        pd.DataFrame([{"토큰/필드":k, "값 앞부분":str(v)[:120]} for k,v in sorted(preview.items())]),
-        use_container_width=True, height=320
-    )
     if st.button("🚀 라벨 생성 (페이지별 HWPX ZIP)"):
         mem_zip = io.BytesIO()
         zout = zipfile.ZipFile(mem_zip, "w", zipfile.ZIP_DEFLATED)
         pages = (len(rows) + n - 1) // n
         all_dbg = []
         for p in range(pages):
             chunk = rows[p*n:(p+1)*n]
             mapping = {}
@@ -268,24 +198,14 @@ if tpl and data:
                     for k in keys:
                         mapping[f"{k}{i+1}"] = ""
-            if mode == "token":
-                out, dbg = token_mode_apply(tpl_bytes, mapping, collect_debug=True)
-            elif mode == "field":
-                out, dbg = field_mode_apply(tpl_bytes, mapping, collect_debug=True)
-            else:
-                # 안전빵: 둘 다 시도 (token -> field)
-                out, dbg = token_mode_apply(tpl_bytes, mapping, collect_debug=True)
-                if dbg and not dbg["files_touched"]:
-                    out, dbg = field_mode_apply(tpl_bytes, mapping, collect_debug=True)
-            all_dbg.append({"page": p+1, "mode": dbg.get("mode") if dbg else mode, "stats": dbg})
-            page_boxes = [r.get("박스번호","") for r in chunk]
-            name = "_".join(page_boxes) if page_boxes else f"empty_{p+1}"
-            zout.writestr(f"label_{name}.hwpx", out)
         zout.close(); mem_zip.seek(0)
         st.download_button("⬇️ ZIP 다운로드", data=mem_zip, file_name="labels_by_page.zip", mime="application/zip")
         st.download_button("⬇️ 디버그(JSON)", data=json.dumps(all_dbg, ensure_ascii=False, indent=2),
                            file_name="debug.json", mime="application/json")
-st.caption("필드 모드: 값은 필드 내부 + fieldEnd 뒤에 일반 텍스트로 한 번 더 넣습니다(항상 보이도록). 토큰 모드: run 병합 후 치환합니다.")

 import pandas as pd
 import io, zipfile, re, html, json
+st.set_page_config(page_title="📦 박스라벨 자동 생성기 (HWPX 필드 전용)", layout="wide")
+st.title("📦 박스라벨 자동 생성기 — HWPX **필드컨트롤 전용**")
+# ---------- 데이터 전처리 ----------
 def compute_year_range(series: pd.Series) -> str:
     s = series.astype(str).fillna("")
     valid = s[~s.isin(["", "0", "0000"])]
     else:
         prod_df = pd.DataFrame({"박스번호": df["박스번호"].unique(), "생산연도": "0000-0000"})
+    # 목록(관리번호+제목)
     has_mgmt = "관리번호" in df.columns
     list_rows = []
     for box, g in df.groupby("박스번호"):
+        lines = [f"- {r['관리번호']} {r['제목']}" if has_mgmt else f"- {r['제목']}" for _, r in g.iterrows()]
         list_rows.append({"박스번호": box, "목록": "\r\n".join(lines)})
     list_df = pd.DataFrame(list_rows)
     return meta_df.merge(list_df, on="박스번호", how="left").merge(prod_df, on="박스번호", how="left")
+# ---------- HWPX 필드 치환 ----------
+FIELD_BLOCK_RE_TMPL = r'(<hp:fieldBegin[^>]*name="{name}"[^>]*>.*?</hp:fieldBegin>)(.*?)(<hp:fieldEnd[^>]*/>)'
+def _runs_plain(text: str) -> str:
+    return f"<hp:run><hp:t>{html.escape('' if text is None else str(text))}</hp:t></hp:run>"
+def _runs_list(text: str) -> str:
     if text is None: return ""
     lines = str(text).replace("\r\n", "\n").split("\n")
     parts = []
         parts.append(f"<hp:run><hp:t>{html.escape(ln)}</hp:t></hp:run>")
     return "".join(parts)
+def _write_hwpx_like_src(zin: zipfile.ZipFile, writer_fn) -> bytes:
     out = io.BytesIO()
     zout = zipfile.ZipFile(out, "w")
+    # 1) mimetype: 무압축 + 맨 앞
+    if "mimetype" in zin.namelist():
         zi = zipfile.ZipInfo("mimetype")
         zi.compress_type = zipfile.ZIP_STORED
         zout.writestr(zi, zin.read("mimetype"))
     zout.close(); out.seek(0)
     return out.getvalue()
+def apply_field_mode(hwpx_bytes: bytes, mapping: dict, collect_debug=False):
+    """ 한글 필드컨트롤(name=...)을 값으로 채우고,
+        fieldEnd 뒤에 동일 내용을 '가시 텍스트'로 한 번 더 삽입하여 항상 보이게 한다. """
     dbg = {"mode":"field","files_touched":[], "field_hits":{}} if collect_debug else None
     zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
+    # 실제로 존재하는 name만 골라내기(속도↑)
+    present = set()
+    for e in zin.infolist():
+        if e.filename.startswith("Contents/") and e.filename.endswith(".xml"):
+            s = zin.read(e.filename).decode("utf-8", errors="ignore")
             for k in mapping.keys():
                 if f'name="{k}"' in s:
+                    present.add(k)
+    def writer(fname: str, xml: str) -> str:
+        changed = False
+        for k in present:
             val = mapping.get(k, "")
             is_list = bool(re.match(r"^(목록|list)\d+$", k, re.IGNORECASE))
+            inner = _runs_list(val) if is_list else _runs_plain(val)
+            pat = re.compile(FIELD_BLOCK_RE_TMPL.format(name=re.escape(k)), re.DOTALL)
             def _repl(m):
+                # 필드 내부 채우고, fieldEnd 뒤에 가시 텍스트 한 번 더
+                vis = inner
                 if dbg: dbg["field_hits"][k] = dbg["field_hits"].get(k, 0) + 1
+                return f"{m.group(1)}{inner}{m.group(3)}{vis}"
+            xml2, n = pat.subn(_repl, xml)
             if n:
+                changed = True
+                xml = xml2
+        if changed and dbg and fname not in dbg["files_touched"]:
             dbg["files_touched"].append(fname)
         return xml
+    out = _write_hwpx_like_src(zin, writer)
     zin.close()
     return (out, dbg) if collect_debug else (out, None)
+# ---------- UI ----------
+with st.expander("사용법", expanded=True):
     st.markdown("""
+- 템플릿은 **한글 필드컨트롤**(예: `name="박스번호1"`)이어야 합니다. (현재 앱은 필드 모드 전용)
+- 한 페이지에 라벨 N개라면, 필드 이름은 `박스번호1..N`, `종료연도1..N`, `보존기간1..N`, `단위업무1..N`, `기록물철1..N`, `목록1..N` 형태여야 합니다.
+- `종료연도` 값은 박스별 최소~최대로 묶어 **생산연도(범위)** 로 입력됩니다.
 """)
+tpl_file = st.file_uploader("📄 HWPX 템플릿 업로드", type=["hwpx"])
 batch_size = st.number_input("템플릿의 라벨 세트 개수 (한 페이지 N개)", min_value=1, max_value=12, value=3, step=1)
+data_file = st.file_uploader("📊 데이터 업로드 (Excel/CSV)", type=["xlsx","xls","csv"])
+if tpl_file and data_file:
+    tpl_bytes = tpl_file.read()
+    df = pd.read_csv(data_file) if data_file.name.lower().endswith(".csv") else pd.read_excel(data_file)
     if "박스번호" not in df.columns:
         st.error("❌ 필수 컬럼 '박스번호'가 없습니다.")
         st.stop()
     work = merged[merged["박스번호"].isin(selected)] if selected else merged
     rows = work.sort_values("박스번호").to_dict(orient="records")
+    # 1페이지 매핑 프리뷰
+    st.subheader("🧪 1페이지 매핑 프리뷰 (필드 이름 ↔ 값)")
     keys = ["박스번호","종료연도","보존기간","단위업무","기록물철","목록"]
     n = int(batch_size)
+    preview = {}
     for i in range(n):
         if i < len(rows):
             r = rows[i]
         else:
             for k in keys:
                 preview[f"{k}{i+1}"] = ""
+    st.dataframe(pd.DataFrame([{"필드명":k, "값 앞부분":str(v)[:120]} for k,v in sorted(preview.items())]),
+                 use_container_width=True, height=320)
     if st.button("🚀 라벨 생성 (페이지별 HWPX ZIP)"):
         mem_zip = io.BytesIO()
         zout = zipfile.ZipFile(mem_zip, "w", zipfile.ZIP_DEFLATED)
         pages = (len(rows) + n - 1) // n
         all_dbg = []
         for p in range(pages):
             chunk = rows[p*n:(p+1)*n]
             mapping = {}
                     for k in keys:
                         mapping[f"{k}{i+1}"] = ""
+            out_hwpx, dbg = apply_field_mode(tpl_bytes, mapping, collect_debug=True)
+            all_dbg.append({"page": p+1, "stats": dbg})
+            name = "_".join([r.get("박스번호","") for r in chunk]) if chunk else f"empty_{p+1}"
+            zout.writestr(f"label_{name}.hwpx", out_hwpx)
         zout.close(); mem_zip.seek(0)
         st.download_button("⬇️ ZIP 다운로드", data=mem_zip, file_name="labels_by_page.zip", mime="application/zip")
         st.download_button("⬇️ 디버그(JSON)", data=json.dumps(all_dbg, ensure_ascii=False, indent=2),
                            file_name="debug.json", mime="application/json")
+st.caption("필드 내부에 값 + fieldEnd 뒤에 가시 텍스트를 **중복 삽입**하므로, 한글에서 값이 항상 보입니다.")