metadata
language: ko
license: apache-2.0
tags:
- sql
- text-to-sql
- nl2sql
- financial-domain
- pytorch
datasets:
- custom
metrics:
- accuracy
- f1
Colab Notebook
학습 데이터셋
[AI hub]자연어 기반 질의(NL2SQL) 검색 생성 데이터
https://huggingface.co/combe4259/NHSQLNL/blob/main/TEXT_NL2SQL_label_nh_consultation.json https://huggingface.co/combe4259/NHSQLNL/blob/main/nh_consultation_db_annotation.json
NHSQLNL: 금융 자연어 → SQL 변환 모델
NHSQLNL은 한국어 금융 자연어 질의를 SQL 쿼리로 변환하는 Text-to-SQL (NL2SQL) 모델입니다.
은행 및 금융권 도메인 질의를 데이터베이스 질의(SQL)로 자동 변환하여, 고객 질의 응답 시스템 및 금융 데이터 분석에 활용할 수 있습니다.
주요 기능 (Features)
- 한국어 금융 도메인 자연어 입력을 SQL 쿼리로 변환
- 사전 정의된 스키마에 맞춘 안전한 SQL 생성
- PyTorch 및 Hugging Face
transformers기반
사용 방법 (How to Use)
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
# 모델 로드
MODEL_PATH = "combe4259/NHSQLNL"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH)
# 입력 질의
query = "2023년에 개설된 예금 계좌 수를 알려줘"
inputs = tokenizer(query, return_tensors="pt")
# SQL 예측
outputs = model.generate(**inputs, max_length=128)
sql = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("입력:", query)
print("생성된 SQL:", sql)
---
## 학습 데이터 (Training Data)
- 자체 구축한 금융 도메인 **자연어 ↔ SQL 매핑 데이터셋** 사용
- 데이터 전처리: SQL 스키마 정규화 및 토크나이저 기반 입력 변환
---
---
## 활용 가능 분야 (Applications)
- 금융권 챗봇 및 상담 자동화
- 자연어 기반 데이터 조회 및 리포트 생성
- 비전문가 대상 SQL 학습/연습 도구