Spaces:

blueradiance
/

Masking2

Runtime error

App Files Files Community

blueradiance commited on Apr 17, 2025

Commit

cca37d8

verified ·

1 Parent(s): 8429f23

Upload 6 files

Browse files

Files changed (6) hide show

LICENSE +1 -0
README.md +6 -9
app.py +48 -0
description.md +24 -0
gitattributes +35 -0
requirements.txt +3 -0

LICENSE ADDED Viewed

	@@ -0,0 +1 @@


1	+ 비영리/개인 내부용. 무단 수정 및 재배포 금지. 출처 명시 필수 (blueradiance / masking-app)

README.md CHANGED Viewed

@@ -1,13 +1,10 @@
 ---
-title: Masking2
-emoji: 🔥
-colorFrom: purple
-colorTo: blue
 sdk: gradio
-sdk_version: 5.25.2
 app_file: app.py
 pinned: false
-license: other
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: 민감정보마스킹 [땡땡이 마스킹]
+emoji: 🛡️
+colorFrom: blue
+colorTo: indigo
 sdk: gradio
+sdk_version: 4.16.0
 app_file: app.py
 pinned: false
+---

app.py ADDED Viewed

	@@ -0,0 +1,48 @@

+# 📦 PART 1: 이름 추출기 + 태그 치환기
+from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
+import re
+TAG_PREFIX = "N"
+# 모델 설정
+model_name = "Leo97/KoELECTRA-small-v3-modu-ner"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForTokenClassification.from_pretrained(model_name)
+ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
+# 예외 단어 (태깅 제외)
+NAME_ENTITY_EXCEPTIONS = set([
+    '법적', '사회적', '행정적', '심리적', '의료적', '법률적', '해당', '본인', '소속', '상담'
+])
+def extract_names(text: str) -> list:
+    """
+    🤖 KoELECTRA 기반 NER로 이름 후보 추출 (2글자 이상, PS만)
+    """
+    results = ner_pipeline(text)
+    names = []
+    for entity in results:
+        if entity.get("entity_group") == "PS":
+            name = entity["word"].replace("##", "").strip()
+            if len(name) >= 2 and name not in NAME_ENTITY_EXCEPTIONS:
+                names.append(name)
+    return list(set(names))
+def apply_name_tags(text: str, names: list, start_index: int = 100) -> tuple[str, dict]:
+    """
+    🏷 이름 리스트를 태그로 치환: 김철수 → N100
+    반환: (태깅된 텍스트, 태그 매핑 딕셔너리)
+    """
+    mapping = {}
+    tagged_text = text
+    counter = start_index
+    for name in names:
+        tag = f"{TAG_PREFIX}{counter:03d}"
+        pattern = re.compile(rf'(?<![\w가-힣]){re.escape(name)}(?![\w가-힣])')
+        tagged_text, n = pattern.subn(tag, tagged_text)
+        if n > 0:
+            mapping[tag] = name
+            counter += 1
+    return tagged_text, mapping

description.md ADDED Viewed

	@@ -0,0 +1,24 @@

+# 🔐 이름 + 민감정보 + 초/중/고 마스킹기 (초성 기반)
+초중고 학교명은 초성으로 마스킹되고, 학과/과, 학년·반 정보도 자동으로 처리됩니다.
+기관명도 설정해서 `"우리기관"` 같은 식으로 바꿀 수 있어요!
+---
+## 💡 민감정보 마스킹 (땡땡이 마스킹)
+예:
+- 전화번호 → `010-****-1234`
+- 주소 → `서울시 ***동 ***번지`
+- 이메일, 주민번호, IP, 날짜 등 자동 치환됩니다.
+---
+**제작자**: `blueradiance`
+---
+### 🛠 사용법
+1. 왼쪽 입력창에 마스킹할 원문을 붙여넣고
+2. 아래 `🚀 마스킹 실행` 버튼 클릭!
+3. 오른쪽 창에 결과와 이름 태그 매핑이 표시됩니다.

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+gradio
+torch
+transformers