fin_simplifier / README.md

combe4259

Update README.md

04e36be verified 3 months ago

preview code

raw

history blame contribute delete

6.15 kB

metadata

language: ko
license: other
base_models:
  - snunlp/KR-FinBert-SC
  - skt/kogpt2-base-v2
tags:
  - encoder-decoder
  - seq2seq
  - text-simplification
  - financial-domain
  - ko
  - pytorch
datasets:
  - combe4259/fin_simplifier_dataset

금융 텍스트 간소화 모델 (Financial Text Simplifier)

모델 설명

fin_simplifier는 복잡한 금융 용어와 문장을 일반인이 이해하기 쉬운 한국어로 변환하는 인코더-디코더 모델입니다.

모델 구조 (config.json 기반)

모델 타입: EncoderDecoderModel
인코더: snunlp/KR-FinBert-SC (은닉 차원: 768)
디코더: skt/kogpt2-base-v2 (어휘 크기: 51,201)
파라미터 수: 약 255M
파일 크기: 1.02GB (safetensors 형식)

주요 특징

금융 전문 용어를 쉬운 일상어로 변환
한국어 금융 문서에 최적화
복잡한 금융 개념 간소화 (PER, ROE, 파생상품 등)
은행 상담 및 금융 교육 활용 가능

사용 목적

주요 활용 사례

금융 상담 지원: 은행 상담 시 고객 이해도 향상
금융 교육: 복잡한 금융 개념을 쉽게 설명
문서 간소화: 약관, 상품 설명서 등을 이해하기 쉽게 변환
접근성 개선: 금융 소외계층의 금융 서비스 접근성 향상

사용 제한 사항

법적 구속력이 있는 문서 작성
투자 조언 또는 금융 상담 대체
정확한 수치나 계산이 필요한 경우

사용 방법

설치

from transformers import EncoderDecoderModel, AutoTokenizer
import torch

# Model loading
model = EncoderDecoderModel.from_pretrained("combe4259/fin_simplifier")
encoder_tokenizer = AutoTokenizer.from_pretrained("snunlp/KR-FinBert-SC")
decoder_tokenizer = AutoTokenizer.from_pretrained("skt/kogpt2-base-v2")

# Set special tokens
if decoder_tokenizer.pad_token is None:
    decoder_tokenizer.pad_token = decoder_tokenizer.eos_token

추론 예시

def simplify_text(text, model, encoder_tokenizer, decoder_tokenizer):
    # Tokenize input
    inputs = encoder_tokenizer(
        text,
        return_tensors="pt",
        max_length=128,
        padding="max_length",
        truncation=True
    )
    
    # Generate simplified text
    with torch.no_grad():
        generated = model.generate(
            input_ids=inputs["input_ids"],
            attention_mask=inputs["attention_mask"],
            max_length=128,
            num_beams=6,
            repetition_penalty=1.2,
            length_penalty=0.8,
            early_stopping=True,
            do_sample=True,
            top_k=50,
            top_p=0.95,
            temperature=0.7
        )
    
    # Decode output
    simplified = decoder_tokenizer.decode(generated[0], skip_special_tokens=True)
    return simplified

# Example usage
complex_text = "주가수익비율(PER)은 주가를 주당순이익으로 나눈 지표입니다."
simple_text = simplify_text(complex_text, model, encoder_tokenizer, decoder_tokenizer)
print(f"원문: {complex_text}")
print(f"간소화: {simple_text}")
# 출력 예시: 모델이 생성하는 간소화된 텍스트

학습 상세 정보

학습 데이터셋

데이터셋 자체 제작 데이터셋 -출처: NH농협은행 -NH농협은행 상품설명서를 gemma 모델에 투입하여 변환하여 생성

학습 설정 (trainer_state.json 기반)

에포크: 10
배치 크기: 4 (gradient accumulation steps: 2)
최대 학습률: 2.99e-05
최종 학습률: 8.82e-09
옵티마이저: AdamW (warmup steps: 200)
레이블 스무딩: 0.1
드롭아웃: 0.2 (인코더 및 디코더)

생성 하이퍼파라미터

Beam Search: 6 beams
Repetition Penalty: 1.2
Length Penalty: 0.8
Temperature: 0.7
Top-k: 50
Top-p: 0.95

평가 결과

학습 성과 (trainer_state.json 기준)

초기 손실: 13.53
최종 손실: 3.76
손실 감소율: 72.2%
총 학습 스텝: 3,600
수렴 패턴: 에포크 8부터 안정적 수렴

에포크별 평균 손실

에포크	평균 손실
1	8.98
2	6.93
3	5.95
4	5.28
5	4.81
6	4.44
7	4.17
8	3.97
9	3.82
10	3.73

예시 출력

원문 (Complex)	변환 결과 (Simplified)
시가총액은 발행주식수에 주가를 곱한 값으로 기업의 시장가치를 나타냅니다.	시가총액은 회사의 모든 주식을 합친 가격입니다.
파생결합증권은 기초자산의 가격변동에 연계하여 수익이 결정되는 증권입니다.	파생결합증권은 다른 상품 가격에 따라 수익이 바뀌는 투자 상품입니다.
환매조건부채권(RP)은 일정기간 후 다시 매입하는 조건으로 매도하는 채권입니다.	RP는 나중에 다시 사겠다고 약속하고 일단 파는 채권입니다.
유동성위험은 자산을 적정가격에 현금화하지 못할 위험입니다.	유동성위험은 급하게 팔 때 제값을 못 받을 위험입니다.
원리금균등상환은 매월 동일한 금액으로 원금과 이자를 상환하는 방식입니다.	원리금균등상환은 매달 같은 금액을 갚는 방식입니다.

인용

@misc{fin_simplifier2024,
  title={Financial Text Simplifier: Korean Financial Terms Simplification Model},
  author={combe4259},
  year={2024},
  publisher={HuggingFace},
  url={https://huggingface.co/combe4259/fin_simplifier}
}

감사의 말

KR-FinBert-SC: 금융 도메인 특화 인코더 제공
SKT KoGPT2: 한국어 생성 모델 제공

연락처

HuggingFace: combe4259
Model Card: 문의사항은 HuggingFace 토론 탭을 이용해주세요