NHSQLNL / README.md
combe4259's picture
Update README.md
d8d3851 verified
metadata
language: ko
license: apache-2.0
tags:
  - sql
  - text-to-sql
  - nl2sql
  - financial-domain
  - pytorch
datasets:
  - custom
metrics:
  - accuracy
  - f1

Colab Notebook

Open In Colab

학습 데이터셋

[AI hub]자연어 기반 질의(NL2SQL) 검색 생성 데이터

https://huggingface.co/combe4259/NHSQLNL/blob/main/TEXT_NL2SQL_label_nh_consultation.json https://huggingface.co/combe4259/NHSQLNL/blob/main/nh_consultation_db_annotation.json

NHSQLNL: 금융 자연어 → SQL 변환 모델

NHSQLNL은 한국어 금융 자연어 질의를 SQL 쿼리로 변환하는 Text-to-SQL (NL2SQL) 모델입니다.
은행 및 금융권 도메인 질의를 데이터베이스 질의(SQL)로 자동 변환하여, 고객 질의 응답 시스템 및 금융 데이터 분석에 활용할 수 있습니다.


주요 기능 (Features)

  • 한국어 금융 도메인 자연어 입력을 SQL 쿼리로 변환
  • 사전 정의된 스키마에 맞춘 안전한 SQL 생성
  • PyTorch 및 Hugging Face transformers 기반

사용 방법 (How to Use)

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# 모델 로드
MODEL_PATH = "combe4259/NHSQLNL"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH)

# 입력 질의
query = "2023년에 개설된 예금 계좌 수를 알려줘"

inputs = tokenizer(query, return_tensors="pt")

# SQL 예측
outputs = model.generate(**inputs, max_length=128)
sql = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("입력:", query)
print("생성된 SQL:", sql)


---

## 학습 데이터 (Training Data)

- 자체 구축한 금융 도메인 **자연어 ↔ SQL 매핑 데이터셋** 사용  
- 데이터 전처리: SQL 스키마 정규화 및 토크나이저 기반 입력 변환  

---
---

## 활용 가능 분야 (Applications)

- 금융권 챗봇 및 상담 자동화  
- 자연어 기반 데이터 조회 및 리포트 생성  
- 비전문가 대상 SQL 학습/연습 도구