Spaces:

dohyune
/

boxlabel

Build error

App Files Files Community

dohyune commited on Aug 28, 2025

Commit

45aa168

verified ·

1 Parent(s): 105b0bb

Update app.py

Browse files

Files changed (1) hide show

app.py +173 -130

app.py CHANGED Viewed

@@ -2,28 +2,10 @@ import streamlit as st
 import pandas as pd
 import io, zipfile, re, html, json
-st.set_page_config(page_title="📦 박스라벨 자동 생성기 (토큰·배치·런병합)", layout="wide")
-st.title("📦 박스라벨 자동 생성기 (.HWPX — 토큰·배치·런 병합)")
-with st.expander("사용 방법", expanded=True):
-    st.markdown("""
-**템플릿 준비**
-- 라벨 한 페이지에 `{{박스번호1}} ... {{박스번호N}}`, `{{종료연도1}} ...`, `{{보존기간1}} ...`, `{{단위업무1}} ...`, `{{기록물철1}} ...`, `{{목록1}} ...` 처럼 **번호가 붙은 토큰**을 넣어 주세요.
-- 토큰은 가능하면 한 덩어리 텍스트로 입력하세요. (하지만 이 앱은 토큰이 여러 run으로 쪼개져 있어도 **자동 병합**해서 치환합니다.)
-**데이터**
-- 필수: `박스번호`
-- 권장: `종료연도`, `보존기간`, `단위업무`, `기록물철`, `제목`
-- 목록은 (관리번호 + 제목) 조합으로 자동 생성. `종료연도`는 박스별 최소~최대로 묶어 **생산연도(범위)** 로 들어갑니다.
-**출력**
-- 템플릿의 라벨 세트 개수(N)를 지정하면 N개씩 묶어 **페이지 단위 HWPX**를 만듭니다.
-- ZIP 안 파일명 예: `label_0001_0003.hwpx` (해당 페이지에 들어간 박스번호)
-""")
-# ---------------------------
-# 데이터 전처리
-# ---------------------------
 def compute_year_range(series: pd.Series) -> str:
     s = series.astype(str).fillna("")
     valid = s[~s.isin(["", "0", "0000"])]
@@ -40,14 +22,14 @@ def build_merged_df(df: pd.DataFrame) -> pd.DataFrame:
     if "제목" in df.columns:
         df["제목"] = df["제목"].astype(str)
-    # 생산연도(범위)
     if "종료연도" in df.columns:
         prod_df = df.groupby("박스번호")["종료연도"].apply(compute_year_range).reset_index()
         prod_df.columns = ["박스번호", "생산연도"]
     else:
         prod_df = pd.DataFrame({"박스번호": df["박스번호"].unique(), "생산연도": "0000-0000"})
-    # 목록
     has_mgmt = "관리번호" in df.columns
     list_rows = []
     for box, g in df.groupby("박스번호"):
@@ -58,7 +40,6 @@ def build_merged_df(df: pd.DataFrame) -> pd.DataFrame:
         list_rows.append({"박스번호": box, "목록": "\r\n".join(lines)})
     list_df = pd.DataFrame(list_rows)
-    # 대표 메타
     meta_cols = ["박스번호","종료연도","보존기간","단위업무","기록물철","제목"]
     meta_exist = [c for c in meta_cols if c in df.columns]
     meta_df = df.groupby("박스번호", as_index=False).first()[meta_exist] if meta_exist \
@@ -66,72 +47,32 @@ def build_merged_df(df: pd.DataFrame) -> pd.DataFrame:
     return meta_df.merge(list_df, on="박스번호", how="left").merge(prod_df, on="박스번호", how="left")
-# ---------------------------
-# HWPX 토큰 치환 (런 병합 포함)
-# ---------------------------
-# run 경계 병합: </hp:t></hp:run><hp:run...><hp:t>  사이 태그들을 지워 텍스트를 이어 붙임
-RUN_JOIN_RE = re.compile(
-    r'</hp:t>\s*</hp:run>\s*<hp:run[^>]*>\s*<hp:t>',
-    flags=re.DOTALL
-)
-def _build_list_text(text: str) -> str:
     if text is None: return ""
-    text = str(text)
-    lines = text.replace("\r\n", "\n").split("\n")
     parts = []
     for i, ln in enumerate(lines):
         if i > 0:
             parts.append("<hp:lineBreak/>")
-        parts.append(html.escape(ln))
     return "".join(parts)
-def replace_tokens_in_hwpx_batch(hwpx_bytes: bytes, mapping: dict, collect_debug: bool=False):
-    """
-    mapping: {'박스번호1': '0001', '종료연도1': '1999-2002', '목록1': '- a\\n- b', ...}
-    절차:
-      1) XML 로드
-      2) 인접 run 병합 (RUN_JOIN_RE)
-      3) {{토큰}} -> 값 (목록은 <hp:lineBreak/>)
-      4) mimetype: 무압축(STORED) + 첫 엔트리
-    """
-    dbg = {"token_hits": {}, "files_touched": []} if collect_debug else None
-    zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
-    out_buf = io.BytesIO()
-    zout = zipfile.ZipFile(out_buf, "w")
     names = zin.namelist()
     if "mimetype" in names:
-        data = zin.read("mimetype")
         zi = zipfile.ZipInfo("mimetype")
         zi.compress_type = zipfile.ZIP_STORED
-        zout.writestr(zi, data)
-    token_keys = list(mapping.keys())
-    def do_replace(s: str) -> (str, bool):
-        changed_any = False
-        # 1) run 병합
-        s2 = RUN_JOIN_RE.sub('', s)
-        if s2 != s:
-            changed_any = True
-            s = s2
-        # 2) 토큰 치환
-        for k in token_keys:
-            tok = f"{{{{{k}}}}}"
-            if tok in s:
-                val = mapping.get(k, "")
-                if re.match(r"^(목록|list)\d+$", k):
-                    val = _build_list_text(val)
-                else:
-                    val = html.escape("" if val is None else str(val))
-                s = s.replace(tok, val)
-                changed_any = True
-                if collect_debug:
-                    dbg["token_hits"][k] = dbg["token_hits"].get(k, 0) + 1
-        return s, changed_any
     for e in zin.infolist():
         if e.filename == "mimetype":
             continue
@@ -139,9 +80,7 @@ def replace_tokens_in_hwpx_batch(hwpx_bytes: bytes, mapping: dict, collect_debug
         if e.filename.startswith("Contents/") and e.filename.endswith(".xml"):
             try:
                 s = data.decode("utf-8", errors="ignore")
-                s2, changed = do_replace(s)
-                if collect_debug and changed:
-                    dbg["files_touched"].append(e.filename)
                 data = s2.encode("utf-8")
             except Exception:
                 pass
@@ -149,20 +88,132 @@ def replace_tokens_in_hwpx_batch(hwpx_bytes: bytes, mapping: dict, collect_debug
         zi.compress_type = zipfile.ZIP_DEFLATED
         zout.writestr(zi, data)
-    zin.close(); zout.close(); out_buf.seek(0)
-    return (out_buf.getvalue(), dbg) if collect_debug else (out_buf.getvalue(), None)
-# ---------------------------
-# UI
-# ---------------------------
-tpl_file = st.file_uploader("📄 HWPX 템플릿 업로드", type=["hwpx"])
 batch_size = st.number_input("템플릿의 라벨 세트 개수 (한 페이지 N개)", min_value=1, max_value=12, value=3, step=1)
-data_file = st.file_uploader("📊 데이터 업로드 (Excel/CSV)", type=["xlsx","xls","csv"])
-if tpl_file and data_file:
-    tpl_bytes = tpl_file.read()
-    df = pd.read_csv(data_file) if data_file.name.lower().endswith(".csv") else pd.read_excel(data_file)
     if "박스번호" not in df.columns:
         st.error("❌ 필수 컬럼 '박스번호'가 없습니다.")
         st.stop()
@@ -178,71 +229,63 @@ if tpl_file and data_file:
     st.dataframe(pd.DataFrame({"박스번호": box_list}), use_container_width=True, height=240)
     selected = st.multiselect("생성할 박스번호 선택 (비우면 전체 생성)", options=box_list)
-    work_df = merged[merged["박스번호"].isin(selected)] if selected else merged
-    rows = work_df.sort_values("박스번호").to_dict(orient="records")
-    # 1페이지 미리보기
-    st.subheader("🧪 1페이지 토큰 매핑 미리보기")
-    first_page = rows[:int(batch_size)]
     keys = ["박스번호","종료연도","보존기간","단위업무","기록물철","목록"]
-    mapping_preview = {}
-    for i in range(int(batch_size)):
-        if i < len(first_page):
-            r = first_page[i]
             for k in keys:
-                if k == "종료연도":
-                    mapping_preview[f"{k}{i+1}"] = r.get("생산연도","")
-                else:
-                    mapping_preview[f"{k}{i+1}"] = r.get(k,"")
         else:
             for k in keys:
-                mapping_preview[f"{k}{i+1}"] = ""
     st.dataframe(
-        pd.DataFrame(
-            [{"토큰": k, "값(앞부분)": (str(v)[:120] if v is not None else ""), "길이": (len(str(v)) if v is not None else 0)}
-             for k, v in sorted(mapping_preview.items())]
-        ),
         use_container_width=True, height=320
     )
     if st.button("🚀 라벨 생성 (페이지별 HWPX ZIP)"):
         mem_zip = io.BytesIO()
         zout = zipfile.ZipFile(mem_zip, "w", zipfile.ZIP_DEFLATED)
-        n = int(batch_size)
-        total = len(rows)
-        pages = (total + n - 1) // n
-        all_debug = []
         for p in range(pages):
-            start = p * n
-            chunk = rows[start:start+n]
             mapping = {}
             for i in range(n):
                 if i < len(chunk):
                     r = chunk[i]
                     for k in keys:
-                        if k == "종료연도":
-                            mapping[f"{k}{i+1}"] = r.get("생산연도","")
-                        else:
-                            mapping[f"{k}{i+1}"] = r.get(k,"")
                 else:
                     for k in keys:
                         mapping[f"{k}{i+1}"] = ""
-            out_hwpx, dbg = replace_tokens_in_hwpx_batch(tpl_bytes, mapping, collect_debug=True)
-            all_debug.append({"page": p+1, "mapping_keys": sorted(list(mapping.keys())), "stats": dbg})
             page_boxes = [r.get("박스번호","") for r in chunk]
-            safe = "_".join(page_boxes) if page_boxes else f"empty_{p+1}"
-            zout.writestr(f"label_{safe}.hwpx", out_hwpx)
         zout.close(); mem_zip.seek(0)
         st.download_button("⬇️ ZIP 다운로드", data=mem_zip, file_name="labels_by_page.zip", mime="application/zip")
-        st.download_button("⬇️ 디버그 리포트(JSON)",
-                           data=json.dumps(all_debug, ensure_ascii=False, indent=2),
-                           file_name="debug_by_page.json", mime="application/json")
-st.caption("※ 토큰이 run으로 쪼개져 있어도 자동 병합 후 치환합니다. 그래도 안 바뀌는 토큰이 있으면 그 토큰 문자열을 알려주세요.")

 import pandas as pd
 import io, zipfile, re, html, json
+st.set_page_config(page_title="📦 박스라벨 자동 생성기 (필드/토큰 자동감지)", layout="wide")
+st.title("📦 박스라벨 자동 생성기 (.HWPX — 필드/토큰 자동감지)")
+# =============== 공통 유틸 ===============
 def compute_year_range(series: pd.Series) -> str:
     s = series.astype(str).fillna("")
     valid = s[~s.isin(["", "0", "0000"])]
     if "제목" in df.columns:
         df["제목"] = df["제목"].astype(str)
+    # 생산연도(범위) = 종료연도 그룹 범위
     if "종료연도" in df.columns:
         prod_df = df.groupby("박스번호")["종료연도"].apply(compute_year_range).reset_index()
         prod_df.columns = ["박스번호", "생산연도"]
     else:
         prod_df = pd.DataFrame({"박스번호": df["박스번호"].unique(), "생산연도": "0000-0000"})
+    # 목록(관리번호 + 제목)
     has_mgmt = "관리번호" in df.columns
     list_rows = []
     for box, g in df.groupby("박스번호"):
         list_rows.append({"박스번호": box, "목록": "\r\n".join(lines)})
     list_df = pd.DataFrame(list_rows)
     meta_cols = ["박스번호","종료연도","보존기간","단위업무","기록물철","제목"]
     meta_exist = [c for c in meta_cols if c in df.columns]
     meta_df = df.groupby("박스번호", as_index=False).first()[meta_exist] if meta_exist \
     return meta_df.merge(list_df, on="박스번호", how="left").merge(prod_df, on="박스번호", how="left")
+def _build_list_runs(text: str) -> str:
     if text is None: return ""
+    lines = str(text).replace("\r\n", "\n").split("\n")
     parts = []
     for i, ln in enumerate(lines):
         if i > 0:
             parts.append("<hp:lineBreak/>")
+        parts.append(f"<hp:run><hp:t>{html.escape(ln)}</hp:t></hp:run>")
     return "".join(parts)
+def _build_plain_runs(text: str) -> str:
+    return f"<hp:run><hp:t>{html.escape('' if text is None else str(text))}</hp:t></hp:run>"
+# =============== HWPX 쓰기 공통 (mimetype 무압축/맨앞) ===============
+def write_hwpx_like_src(zin: zipfile.ZipFile, writer_fn) -> bytes:
+    out = io.BytesIO()
+    zout = zipfile.ZipFile(out, "w")
     names = zin.namelist()
+    # 1) mimetype 먼저 무압축
     if "mimetype" in names:
         zi = zipfile.ZipInfo("mimetype")
         zi.compress_type = zipfile.ZIP_STORED
+        zout.writestr(zi, zin.read("mimetype"))
+    # 2) 나머지 파일
     for e in zin.infolist():
         if e.filename == "mimetype":
             continue
         if e.filename.startswith("Contents/") and e.filename.endswith(".xml"):
             try:
                 s = data.decode("utf-8", errors="ignore")
+                s2 = writer_fn(e.filename, s)
                 data = s2.encode("utf-8")
             except Exception:
                 pass
         zi.compress_type = zipfile.ZIP_DEFLATED
         zout.writestr(zi, data)
+    zout.close(); out.seek(0)
+    return out.getvalue()
+# =============== 모드1: 토큰 치환 ({{키}}) ===============
+RUN_JOIN_RE = re.compile(r'</hp:t>\s*</hp:run>\s*<hp:run[^>]*>\s*<hp:t>', re.DOTALL)
+def token_mode_apply(hwpx_bytes: bytes, mapping: dict, collect_debug=False):
+    dbg = {"mode":"token","files_touched":[], "token_hits":{}} if collect_debug else None
+    zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
+    token_keys = list(mapping.keys())
+    def writer_fn(fname: str, xml: str) -> str:
+        changed = False
+        # run 경계 병합 (토큰이 잘려 있어도 이어붙이기)
+        xml2 = RUN_JOIN_RE.sub('', xml)
+        if xml2 != xml:
+            changed = True
+            xml = xml2
+        # 토큰 문자열 치환
+        for k in token_keys:
+            tok = f"{{{{{k}}}}}"
+            if tok in xml:
+                val = mapping[k]
+                if re.match(r"^(목록|list)\d+$", k, re.IGNORECASE):
+                    # 토큰은 run 안에 들어가 있으므로, run 구조를 통째로 생성
+                    xml = xml.replace(tok, _build_list_runs(val))
+                else:
+                    xml = xml.replace(tok, html.escape("" if val is None else str(val)))
+                changed = True
+                if dbg: dbg["token_hits"][k] = dbg["token_hits"].get(k, 0) + 1
+        if changed and dbg and fname not in dbg["files_touched"]:
+            dbg["files_touched"].append(fname)
+        return xml
+    out = write_hwpx_like_src(zin, writer_fn)
+    zin.close()
+    return (out, dbg) if collect_debug else (out, None)
+# =============== 모드2: 필드컨트롤 치환 (가시 텍스트 중복 삽입) ===============
+# <hp:fieldBegin ... name="키"> ... </hp:fieldBegin> [본문] <hp:fieldEnd ... />
+FIELD_BLOCK_RE_TMPL = r'(<hp:fieldBegin[^>]*name="{name}"[^>]*>.*?</hp:fieldBegin>)(.*?)(<hp:fieldEnd[^>]*/>)'
+def field_mode_apply(hwpx_bytes: bytes, mapping: dict, collect_debug=False):
+    dbg = {"mode":"field","files_touched":[], "field_hits":{}} if collect_debug else None
+    zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
+    # 어떤 키들이 실제로 존재하는지 빠르게 수집 (정확도↑, 속도↑)
+    contents = [e.filename for e in zin.infolist() if e.filename.startswith("Contents/") and e.filename.endswith(".xml")]
+    present_keys = set()
+    for fn in contents:
+        try:
+            s = zin.read(fn).decode("utf-8", errors="ignore")
+            for k in mapping.keys():
+                if f'name="{k}"' in s:
+                    present_keys.add(k)
+        except:
+            pass
+    def writer_fn(fname: str, xml: str) -> str:
+        any_change = False
+        for k in present_keys:
+            val = mapping.get(k, "")
+            is_list = bool(re.match(r"^(목록|list)\d+$", k, re.IGNORECASE))
+            pattern = re.compile(FIELD_BLOCK_RE_TMPL.format(name=re.escape(k)), re.DOTALL)
+            def _repl(m):
+                # 필드 내부 내용은 run으로 교체
+                inner = _build_list_runs(val) if is_list else _build_plain_runs(val)
+                # 필드 뒤에 가시 텍스트를 '한 번 더' 넣어 항상 보이게
+                visible_dup = inner
+                if dbg: dbg["field_hits"][k] = dbg["field_hits"].get(k, 0) + 1
+                return f'{m.group(1)}{inner}{m.group(3)}{visible_dup}'
+            xml_new, n = pattern.subn(_repl, xml)
+            if n:
+                any_change = True
+                xml = xml_new
+        if any_change and dbg and fname not in dbg["files_touched"]:
+            dbg["files_touched"].append(fname)
+        return xml
+    out = write_hwpx_like_src(zin, writer_fn)
+    zin.close()
+    return (out, dbg) if collect_debug else (out, None)
+# =============== 모드 자동감지 ===============
+def detect_template_mode(hwpx_bytes: bytes) -> str:
+    zin = zipfile.ZipFile(io.BytesIO(hwpx_bytes), "r")
+    has_token = False
+    has_field = False
+    for e in zin.infolist():
+        if not (e.filename.startswith("Contents/") and e.filename.endswith(".xml")):
+            continue
+        try:
+            s = zin.read(e.filename).decode("utf-8", errors="ignore")
+            if "{{" in s and "}}" in s:
+                has_token = True
+            if "<hp:fieldBegin" in s and 'name="' in s:
+                has_field = True
+        except:
+            pass
+    zin.close()
+    if has_token: return "token"
+    if has_field: return "field"
+    return "unknown"
+# =============== Streamlit UI ===============
+with st.expander("사용 방법 요약", expanded=True):
+    st.markdown("""
+- 템플릿이 **토큰(`{{박스번호1}}` 등)** 이면 자동으로 토큰 모드,
+  **한글 필드컨트롤(`name="박스번호1"`)** 이면 필드 모드로 자동 처리합니다.
+- 필드 모드에서는 값이 안 보이는 문제를 막기 위해 **fieldEnd 뒤에 가시 텍스트를 한 번 더 넣습니다.**
+""")
+tpl = st.file_uploader("📄 HWPX 템플릿 업로드", type=["hwpx"])
 batch_size = st.number_input("템플릿의 라벨 세트 개수 (한 페이지 N개)", min_value=1, max_value=12, value=3, step=1)
+data = st.file_uploader("📊 데이터 업로드 (Excel/CSV)", type=["xlsx","xls","csv"])
+if tpl and data:
+    tpl_bytes = tpl.read()
+    mode = detect_template_mode(tpl_bytes)
+    st.info(f"탐지된 템플릿 모드: **{mode}**")
+    df = pd.read_csv(data) if data.name.lower().endswith(".csv") else pd.read_excel(data)
     if "박스번호" not in df.columns:
         st.error("❌ 필수 컬럼 '박스번호'가 없습니다.")
         st.stop()
     st.dataframe(pd.DataFrame({"박스번호": box_list}), use_container_width=True, height=240)
     selected = st.multiselect("생성할 박스번호 선택 (비우면 전체 생성)", options=box_list)
+    work = merged[merged["박스번호"].isin(selected)] if selected else merged
+    rows = work.sort_values("박스번호").to_dict(orient="records")
+    # 1페이지 미리보기 매핑
+    st.subheader("🧪 1페이지 매핑 프리뷰")
     keys = ["박스번호","종료연도","보존기간","단위업무","기록물철","목록"]
+    preview = {}
+    n = int(batch_size)
+    for i in range(n):
+        if i < len(rows):
+            r = rows[i]
             for k in keys:
+                preview[f"{k}{i+1}"] = r.get("생산연도","") if k=="종료연도" else r.get(k,"")
         else:
             for k in keys:
+                preview[f"{k}{i+1}"] = ""
     st.dataframe(
+        pd.DataFrame([{"토큰/필드":k, "값 앞부분":str(v)[:120]} for k,v in sorted(preview.items())]),
         use_container_width=True, height=320
     )
     if st.button("🚀 라벨 생성 (페이지별 HWPX ZIP)"):
         mem_zip = io.BytesIO()
         zout = zipfile.ZipFile(mem_zip, "w", zipfile.ZIP_DEFLATED)
+        pages = (len(rows) + n - 1) // n
+        all_dbg = []
         for p in range(pages):
+            chunk = rows[p*n:(p+1)*n]
             mapping = {}
             for i in range(n):
                 if i < len(chunk):
                     r = chunk[i]
                     for k in keys:
+                        mapping[f"{k}{i+1}"] = r.get("생산연도","") if k=="종료연도" else r.get(k,"")
                 else:
                     for k in keys:
                         mapping[f"{k}{i+1}"] = ""
+            if mode == "token":
+                out, dbg = token_mode_apply(tpl_bytes, mapping, collect_debug=True)
+            elif mode == "field":
+                out, dbg = field_mode_apply(tpl_bytes, mapping, collect_debug=True)
+            else:
+                # 안전빵: 둘 다 시도 (token -> field)
+                out, dbg = token_mode_apply(tpl_bytes, mapping, collect_debug=True)
+                if dbg and not dbg["files_touched"]:
+                    out, dbg = field_mode_apply(tpl_bytes, mapping, collect_debug=True)
+            all_dbg.append({"page": p+1, "mode": dbg.get("mode") if dbg else mode, "stats": dbg})
             page_boxes = [r.get("박스번호","") for r in chunk]
+            name = "_".join(page_boxes) if page_boxes else f"empty_{p+1}"
+            zout.writestr(f"label_{name}.hwpx", out)
         zout.close(); mem_zip.seek(0)
         st.download_button("⬇️ ZIP 다운로드", data=mem_zip, file_name="labels_by_page.zip", mime="application/zip")
+        st.download_button("⬇️ 디버그(JSON)", data=json.dumps(all_dbg, ensure_ascii=False, indent=2),
+                           file_name="debug.json", mime="application/json")
+st.caption("필드 모드: 값은 필드 내부 + fieldEnd 뒤에 일반 텍스트로 한 번 더 넣습니다(항상 보이도록). 토큰 모드: run 병합 후 치환합니다.")