--- language: ko license: apache-2.0 tags: - sql - text-to-sql - nl2sql - financial-domain - pytorch datasets: - custom metrics: - accuracy - f1 --- ## Colab Notebook [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1vaGZTZ7y0SYLarCX0QemkUernLyohswz?usp=sharing) ## 학습 데이터셋 [AI hub][자연어 기반 질의(NL2SQL) 검색 생성 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&searchKeyword=%EC%9E%90%EC%97%B0%EC%96%B4%20%EA%B8%B0%EB%B0%98%20%EC%A7%88%EC%9D%98(NL2SQL)%20%EA%B2%80%EC%83%89%20%EC%83%9D%EC%84%B1%20%EB%8D%B0%EC%9D%B4%ED%84%B0&aihubDataSe=data&dataSetSn=71351) https://huggingface.co/combe4259/NHSQLNL/blob/main/TEXT_NL2SQL_label_nh_consultation.json https://huggingface.co/combe4259/NHSQLNL/blob/main/nh_consultation_db_annotation.json # NHSQLNL: 금융 자연어 → SQL 변환 모델 `NHSQLNL`은 한국어 금융 자연어 질의를 SQL 쿼리로 변환하는 **Text-to-SQL (NL2SQL)** 모델입니다. 은행 및 금융권 도메인 질의를 데이터베이스 질의(SQL)로 자동 변환하여, 고객 질의 응답 시스템 및 금융 데이터 분석에 활용할 수 있습니다. --- ## 주요 기능 (Features) - 한국어 금융 도메인 자연어 입력을 SQL 쿼리로 변환 - 사전 정의된 스키마에 맞춘 안전한 SQL 생성 - PyTorch 및 Hugging Face `transformers` 기반 --- ## 사용 방법 (How to Use) ```python from transformers import AutoTokenizer, AutoModelForSeq2SeqLM # 모델 로드 MODEL_PATH = "combe4259/NHSQLNL" tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH) # 입력 질의 query = "2023년에 개설된 예금 계좌 수를 알려줘" inputs = tokenizer(query, return_tensors="pt") # SQL 예측 outputs = model.generate(**inputs, max_length=128) sql = tokenizer.decode(outputs[0], skip_special_tokens=True) print("입력:", query) print("생성된 SQL:", sql) --- ## 학습 데이터 (Training Data) - 자체 구축한 금융 도메인 **자연어 ↔ SQL 매핑 데이터셋** 사용 - 데이터 전처리: SQL 스키마 정규화 및 토크나이저 기반 입력 변환 --- --- ## 활용 가능 분야 (Applications) - 금융권 챗봇 및 상담 자동화 - 자연어 기반 데이터 조회 및 리포트 생성 - 비전문가 대상 SQL 학습/연습 도구