FinShibainu Model Card

모델은 KRX LLM 경진대회 리더보드에서 우수상을 수상한 shibainu24 모델입니다. 모델은 금융, 회계 등 금융관련 지식에 대한 Text Generation을 제공합니다.

데이터셋 수집 및 학습에 관련된 코드는 https://github.com/aiqwe/FinShibainu에 자세하게 공개되어 있습니다.

Usage

https://github.com/aiqwe/FinShibainu의 example을 참조하면 쉽게 inference를 해볼 수 있습니다. 대부분의 Inference는 RTX-3090 이상에서 단일 GPU 가능합니다.

pip install vllm
import pandas as pd
from vllm import LLM

inputs = [
    "외환시장에서 일본 엔화와 미국 달러의 환율이 두 시장에서 약간의 차이를 보이고 있다. 이때 무위험 이익을 얻기 위한 적절한 거래 전략은 무엇인가?",
    "신주인수권부사채(BW)에서 채권자가 신주인수권을 행사하지 않을 경우 어떤 일이 발생하는가?",
    "공매도(Short Selling)에 대한 설명으로 옳지 않은 것은 무엇입니까?"
]

llm = LLM(model="aiqwe/krx-llm-competition", tensor_parallel_size=1)
sampling_params = SamplingParams(temperature=0.7, max_tokens=128)
outputs = llm.generate(inputs, sampling_params)
for o in outputs:
    print(o.prompt)
    print(o.outputs[0].text)
    print("*"*100)

Model Card

Contents Spec
Base model Qwen2.5-7B-Instruct
dtype bfloat16
PEFT LoRA (r=8, alpha=64)
Learning Rate 1e-5 (varies by further training)
LRScheduler Cosine (warm-up: 0.05%)
Optimizer AdamW
Distributed / Efficient Tuning DeepSpeed v3, Flash Attention

Datset Card

Reference 데이터셋은 일부 저작권 관계로 인해 Link로 제공합니다. MCQA와 QA 데이터셋은 https://huggingface.co/datasets/aiqwe/FinShibainu으로 공개합니다.
또한 https://github.com/aiqwe/FinShibainu를 이용하면 다양한 유틸리티 기능을 제공하며, 데이터 소싱 Pipeline을 참조할 수 있습니다.

References

데이터명 url
한국은행 경제금융 용어 700선 Link
재무회계 합성 데이터 자체 제작
금융감독용어사전 Link
web-text.synthetic.dataset-50k Link
지식경제용어사전 Link
한국거래소 비정기 간행물 Link
한국거래소규정 Link
초보투자자 증권따라잡기 Link
청소년을 위한 증권투자 Link
기업사업보고서 공시자료 Link
시사경제용어사전 Link

MCQA

MCQA 데이터는 Reference를 기반으로 다지선다형 문제를 생성한 데이터셋입니다. 문제와 답 뿐만 아니라 Reasoning 텍스트까지 생성하여 학습에 추가하였습니다.
학습에 사용된 데이터는 약 4.5만개 데이터셋이며, tiktoken의 o200k_base(gpt-4o, gpt-4o-mini Tokenizer)를 기준으로 총 2천만개의 토큰으로 학습되었습니다.

데이터명 데이터 수 토큰 수
한국은행 경제금융 용어 700선 1,203 277,114
재무회계 목차를 이용한 합성데이터 451 99,770
금융감독용어사전 827 214,297
hf_web_text_synthetic_dataset_50k 25,461 7,563,529
지식경제용어사전 2,314 589,763
한국거래소 비정기 간행물 1,183 230,148
한국거래소규정 3,015 580,556
초보투자자 증권따라잡기 599 116,472
청소년을 위한 증권 투자 408 77,037
기업사업보고서 공시자료 3,574 629,807
시사경제용어사전 7,410 1,545,842
합계 46,445 19,998,931

QA

QA 데이터는 Reference와 질문을 함께 Input으로 받아 생성한 답변과 Reference 없이 질문만을 Input으로 받아 생성한 답변 2가지로 구성됩니다.
Reference를 제공받으면 모델은 보다 정확한 답변을 하지만 모델만의 지식이 제한되어 답변이 좀더 짧아지거나 다양성이 줄어들게 됩니다. 총 4.8만개의 데이터셋과 2억개의 토큰으로 학습되었습니다.

데이터명 데이터 수 토큰 수
한국은행 경제금융 용어 700선 1,023 846,970
금융감독용어사전 4,128 3,181,831
지식경제용어사전 6,526 5,311,890
한국거래소 비정기 간행물 1,510 1,089,342
한국거래소규정 4,858 3,587,059
기업사업보고서 공시자료 3,574 629,807
시사경제용어사전 29,920 5,981,839
합계 47,965 199,998,931

Citation

@misc{jaylee2024finshibainu,
  author = {Jay Lee},
  title = {FinShibainu: Korean specified finance model},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  url = {https://github.com/aiqwe/FinShibainu}
}
Downloads last month
58
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for aiqwe/FinShibainu

Base model

Qwen/Qwen2.5-7B
Finetuned
(2276)
this model
Quantizations
1 model

Dataset used to train aiqwe/FinShibainu