Korean-PII-Masking-Model / bert /README.md

sungjun12

Upload folder using huggingface_hub

2cd2f04 verified about 2 months ago

preview code

raw

history blame contribute delete

3.54 kB

metadata

license: mit
task_categories:
  - token-classification
  - named-entity-recognition
tags:
  - korean
  - pii
  - privacy
  - masking
  - bert
language:
  - ko
pipeline_tag: token-classification

Korean PII Masking BERT

한국어 개인정보(PII, Personally Identifiable Information) 마스킹을 위한 BERT 기반 토큰 분류 모델입니다.

모델 설명

이 모델은 한국어 텍스트에서 개인정보를 자동으로 감지하고 마스킹하는 용도로 사용됩니다. BERT 기반 아키텍처를 사용하여 14가지 유형의 한국어 PII를 식별합니다.

모델 세부 정보

아키텍처: BertForTokenClassification
기본 모델: BERT (Korean)
Hidden Size: 1024
Num Hidden Layers: 24
Num Attention Heads: 16
Max Position Embeddings: 300
Vocab Size: 30,000

지원하는 PII 유형

모델은 다음 14가지 PII 유형을 인식합니다:

가맹점명 (Business Name)
결제금액 (Payment Amount)
계좌번호 (Account Number)
로그인ID (Login ID)
상세주소 (Detailed Address)
신용점수 (Credit Score)
여권번호 (Passport Number)
우편번호 (Postal Code)
운전면허번호 (Driver's License Number)
이름 (Name)
전자메일 (Email)
전화번호 (Phone Number)
주민등록번호 (Resident Registration Number)
카드번호 (Card Number)
휴대전화번호 (Mobile Phone Number)

각 PII는 BIO 태깅 방식을 사용합니다 (B-, I-, O).

사용법

기본 사용법

from transformers import BertForTokenClassification, BertTokenizer
import torch

# 모델 및 토크나이저 로드
model = BertForTokenClassification.from_pretrained("your-username/korean-pii-masking-bert")
tokenizer = BertTokenizer.from_pretrained("your-username/korean-pii-masking-bert")

# 텍스트 토크나이징
text = "안녕하세요, 제 이름은 김민수이고 전화번호는 010-1234-5678입니다."
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# 예측
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    predicted_labels = torch.argmax(predictions, dim=-1)[0]

파이프라인을 통한 사용

원본 저장소의 inference_pipeline.py를 사용하면 더 간편하게 사용할 수 있습니다:

from inference_pipeline import PIIInferencePipeline

# 파이프라인 초기화
pipeline = PIIInferencePipeline()

# 텍스트 예측
text = "안녕하세요, 제 이름은 김민수이고 전화번호는 010-1234-5678입니다."
result = pipeline.predict(text)

print(f"원본 텍스트: {result.original_text}")
print(f"마스킹 텍스트: {result.masked_text}")
print(f"발견된 PII: {len(result.entities)}개")

예시

입력: "8월 10일 14:32에 백다방 코엑스점에서 9,910원 승인 내역 확인됩니다."

출력:
- 발견된 PII:
  - 백다방 코엑스점 -> [가맹점명]
  - 9,910원 -> [결제금액]

데이터 전처리

모델은 한국어 텍스트를 입력으로 받으며, 최대 길이는 300 토큰입니다.

제한 사항

최대 입력 길이: 300 토큰
한국어 텍스트에 최적화됨
텍스트에서의 PII 인식에 특화 (이미지나 음성 미지원)

참고 문헌

이 모델은 한국어 개인정보 마스킹을 위해 학습되었습니다.

라이센스

MIT License

저자

Korean PII Masking Project