Upload folder using huggingface_hub
Browse files- README.md +106 -0
- config.json +19 -0
- korean_evaluation.json +22 -0
- pytorch_model.bin +3 -0
- tokenizer.json +0 -0
- tokenizer_config.json +15 -0
- training_info.json +35 -0
README.md
ADDED
|
@@ -0,0 +1,106 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
language:
|
| 3 |
+
- ko
|
| 4 |
+
license: mit
|
| 5 |
+
tags:
|
| 6 |
+
- korean
|
| 7 |
+
- gpt
|
| 8 |
+
- causal-lm
|
| 9 |
+
- from-scratch
|
| 10 |
+
datasets:
|
| 11 |
+
- oz1115/korean-pretraining-corpus
|
| 12 |
+
widget:
|
| 13 |
+
- text: "인공지능의 미래는"
|
| 14 |
+
- text: "한국의 전통 문화는"
|
| 15 |
+
---
|
| 16 |
+
|
| 17 |
+
# korean-gpt-150m
|
| 18 |
+
|
| 19 |
+
한국어 Foundation Model (GPT-style, From Scratch)
|
| 20 |
+
|
| 21 |
+
## Model Description
|
| 22 |
+
|
| 23 |
+
이 모델은 처음부터(from scratch) 학습된 한국어 생성 모델입니다.
|
| 24 |
+
|
| 25 |
+
- **Language:** Korean (한국어)
|
| 26 |
+
- **Model Type:** Autoregressive Language Model
|
| 27 |
+
- **Architecture:** Custom GPT (Transformer Decoder)
|
| 28 |
+
- **Training:** Self-supervised causal language modeling
|
| 29 |
+
- **Dataset:** Korean text corpus
|
| 30 |
+
|
| 31 |
+
## Intended Uses
|
| 32 |
+
|
| 33 |
+
### Primary Use
|
| 34 |
+
|
| 35 |
+
한국어 텍스트 생성:
|
| 36 |
+
- 문장 완성
|
| 37 |
+
- 창의적 글쓰기
|
| 38 |
+
- 대화 생성
|
| 39 |
+
|
| 40 |
+
### Out-of-Scope Uses
|
| 41 |
+
|
| 42 |
+
- 사실 확인이 중요한 작업 (모델이 환각을 생성할 수 있음)
|
| 43 |
+
- 의료, 법률 등 전문적 조언
|
| 44 |
+
- 악의적 목적의 텍스트 생성
|
| 45 |
+
|
| 46 |
+
## How to Use
|
| 47 |
+
|
| 48 |
+
### Installation
|
| 49 |
+
```bash
|
| 50 |
+
pip install torch transformers tokenizers
|
| 51 |
+
|
| 52 |
+
import torch
|
| 53 |
+
from tokenizers import Tokenizer
|
| 54 |
+
|
| 55 |
+
# 토크나이저 로드
|
| 56 |
+
tokenizer = Tokenizer.from_pretrained("oz1115/korean-gpt-150m")
|
| 57 |
+
|
| 58 |
+
# 모델 로드 (커스텀 구현 필요)
|
| 59 |
+
# model = CustomGPTModel.from_pretrained("oz1115/korean-gpt-150m")
|
| 60 |
+
|
| 61 |
+
# 텍스트 생성
|
| 62 |
+
prompt = "인공지능의 미래는"
|
| 63 |
+
input_ids = tokenizer.encode(prompt).ids
|
| 64 |
+
# output = model.generate(input_ids, max_length=50)
|
| 65 |
+
# generated_text = tokenizer.decode(output)
|
| 66 |
+
Training Data
|
| 67 |
+
한국어 위키피디아 및 공개 한국어 텍스트 코퍼스
|
| 68 |
+
Training Procedure
|
| 69 |
+
Preprocessing
|
| 70 |
+
|
| 71 |
+
Tokenizer: BPE (Byte-Pair Encoding)
|
| 72 |
+
Vocabulary Size: 32,000
|
| 73 |
+
Max Sequence Length: 512
|
| 74 |
+
|
| 75 |
+
Training
|
| 76 |
+
|
| 77 |
+
Optimizer: AdamW
|
| 78 |
+
Learning Rate: 5e-4
|
| 79 |
+
Batch Size: 32 (effective)
|
| 80 |
+
Training Steps: ~10,000
|
| 81 |
+
Hardware: Google Colab (T4 GPU)
|
| 82 |
+
|
| 83 |
+
Evaluation
|
| 84 |
+
한국어 텍스트 생성 품질 평가는 korean_evaluation.json 파일을 참조하세요.
|
| 85 |
+
Limitations
|
| 86 |
+
|
| 87 |
+
학습 데이터가 제한적이어서 일반화 성능에 한계가 있을 수 있습니다
|
| 88 |
+
긴 문맥 처리에 제한이 있습니다 (max 512 tokens)
|
| 89 |
+
사실 정확성이 보장되지 않습니다
|
| 90 |
+
|
| 91 |
+
Bias and Risks
|
| 92 |
+
모델이 학습 데이터의 편향을 반영할 수 있습니다. 생성된 텍스트를 비판적으로 검토하시기 바랍니다.
|
| 93 |
+
Citation
|
| 94 |
+
bibtex@misc{korean-gpt-150m,
|
| 95 |
+
author = {oz1115},
|
| 96 |
+
title = {korean-gpt-150m: Korean Foundation Model},
|
| 97 |
+
year = {2025},
|
| 98 |
+
publisher = {HuggingFace},
|
| 99 |
+
url = {https://huggingface.co/oz1115/korean-gpt-150m}
|
| 100 |
+
}
|
| 101 |
+
Contact
|
| 102 |
+
|
| 103 |
+
HuggingFace: @oz1115
|
| 104 |
+
|
| 105 |
+
License
|
| 106 |
+
MIT
|
config.json
ADDED
|
@@ -0,0 +1,19 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"CustomGPTModel"
|
| 4 |
+
],
|
| 5 |
+
"model_type": "gpt",
|
| 6 |
+
"vocab_size": 32000,
|
| 7 |
+
"hidden_size": 512,
|
| 8 |
+
"num_hidden_layers": 8,
|
| 9 |
+
"num_attention_heads": 8,
|
| 10 |
+
"intermediate_size": 2048,
|
| 11 |
+
"max_position_embeddings": 512,
|
| 12 |
+
"hidden_dropout_prob": 0.1,
|
| 13 |
+
"attention_probs_dropout_prob": 0.1,
|
| 14 |
+
"layer_norm_eps": 1e-05,
|
| 15 |
+
"initializer_range": 0.02,
|
| 16 |
+
"bos_token_id": 1,
|
| 17 |
+
"eos_token_id": 2,
|
| 18 |
+
"pad_token_id": 0
|
| 19 |
+
}
|
korean_evaluation.json
ADDED
|
@@ -0,0 +1,22 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"prompt": "인공지능의 미래는",
|
| 4 |
+
"generated": "인공지능의 미래는 시대에서 사용되는 의학을 말한다. 일반적으로 경제학, 의학, 정치학, 물리학, 수학, 수학, 물리학, 종교, 수학, 경제학, 언어, 수학, 학문, 수학, 예술, 의학, 생물학, 문학공학 과학, 종교, 컴퓨터 과학, 법학, 자연과학, 컴퓨터 개발(물리학, 경제학, 자연과학, 경제학, 자연과학, 사회학, 경제학, 언어, 물리학, 경제학, 의학, 의학, 의학, 물리학, 철학, 물리학, 물리, 법학, 물리학, 경제학,물리학,"
|
| 5 |
+
},
|
| 6 |
+
{
|
| 7 |
+
"prompt": "한국의 문화는",
|
| 8 |
+
"generated": "한국의 문화는 때 군량에서 군량을 1개(군량)로 하며, 병력 가운데 2개(군량을 1개)로 나누는데 군량 중에서 7개(군량을 1개)으로 나눠서 군량에, 군량에서 3개의 군위로 구성되어 있다. 군량에서 1개( 군량이 2개)이 서로 같다. 군량의 최고 군급는 군량의 최고 군량을 2개(군량을 1개)로 갖는다. 군량의 1개(군량을"
|
| 9 |
+
},
|
| 10 |
+
{
|
| 11 |
+
"prompt": "기술 발전으로 인해",
|
| 12 |
+
"generated": "기술 발전으로 인해정은 이론 또는 정치적 활동을 담당하게 되었고, 일반적으로 수학에서 수학 및 수학 분야에 공헌하는 언어로서 교육 활동을 펼치고 있다.\n\n역사 \n물리학물리학의 역사는 \"물리학물리학\"였으며, 일반 표준은 소프트웨어 환경에 있어서 표준 모형(intmedic train multement)으로 불렸다.\n\n구성\n\n정보 \n물리학물리학은 컴퓨터 과학이 실제 정보의 형태로 발전하기 시작했는데, 그 때문에 일반 전기이라는 용어는 오늘날 수학, 컴퓨터 과학, 컴퓨터 기술"
|
| 13 |
+
},
|
| 14 |
+
{
|
| 15 |
+
"prompt": "교육의 중요성은",
|
| 16 |
+
"generated": "교육의 중요성은시대(戰代)에 설치된 교육의 하나이다.\n\n학의 중요성의 영향 \n교육의 중요성은 사회의 안정성을 고려해야 한다는 점에서 학이치의 교로로서 발전하여 학자들의 수식을 거쳐 교육의 필요성은 인정된다. 예를 들어 교육의 필요성은 학가수의 학가에 의해 적용되는 공원의 수칙을 나타내는 학문(學器)에 의해서 교육의 다양성은 학가의 수칙을 지키는 제도(敎合)이다.\n\n현대과학"
|
| 17 |
+
},
|
| 18 |
+
{
|
| 19 |
+
"prompt": "환경 보호를 위해서는",
|
| 20 |
+
"generated": "환경 보호를 위해서는별 또는 일반 또는 그 중 어떤 한 나라의 한 사람보다 직적인 점이며, 이는 그 두 명에 속한다.\n\n개요 \n최초의 사람들은 보통 개월주, 날, 여름, 겨울, 가을, 여름, 여름, 밤, 저녁, 봄, 가을, 가을, 가을, 밤, 가을, 봄, 봄, 밤, 가을, 여름, 눈, 가을, 밤,새, 봄,새, 여름이다.\n\n같이 보기 \n 눈\n 가을\n 봄\n"
|
| 21 |
+
}
|
| 22 |
+
]
|
pytorch_model.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:064119cff0baab27c1fcfa4073b7b082ca66743b79529500104401b691ad9921
|
| 3 |
+
size 167513395
|
tokenizer.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,15 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"vocab_size": 32000,
|
| 3 |
+
"model_type": "BPE",
|
| 4 |
+
"special_tokens": {
|
| 5 |
+
"pad_token": "<pad>",
|
| 6 |
+
"bos_token": "<s>",
|
| 7 |
+
"eos_token": "</s>",
|
| 8 |
+
"unk_token": "<unk>",
|
| 9 |
+
"mask_token": "<mask>"
|
| 10 |
+
},
|
| 11 |
+
"pad_token_id": 0,
|
| 12 |
+
"bos_token_id": 1,
|
| 13 |
+
"eos_token_id": 2,
|
| 14 |
+
"unk_token_id": 3
|
| 15 |
+
}
|
training_info.json
ADDED
|
@@ -0,0 +1,35 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"total_parameters": 41604096,
|
| 3 |
+
"training_steps": 24399,
|
| 4 |
+
"best_val_loss": 4.933748573847702,
|
| 5 |
+
"best_perplexity": 138.89921161797784,
|
| 6 |
+
"training_time": null,
|
| 7 |
+
"config": {
|
| 8 |
+
"project_name": "korean-foundation-model",
|
| 9 |
+
"model_name": "my-korean-gpt-150m",
|
| 10 |
+
"base_dir": "/content/drive/MyDrive/foundation_model",
|
| 11 |
+
"tokenizer_dir": "/content/drive/MyDrive/foundation_model/tokenizer",
|
| 12 |
+
"data_dir": "/content/drive/MyDrive/foundation_model/data",
|
| 13 |
+
"checkpoint_dir": "/content/drive/MyDrive/foundation_model/checkpoints",
|
| 14 |
+
"log_dir": "/content/drive/MyDrive/foundation_model/logs",
|
| 15 |
+
"vocab_size": 32000,
|
| 16 |
+
"d_model": 512,
|
| 17 |
+
"num_layers": 8,
|
| 18 |
+
"num_heads": 8,
|
| 19 |
+
"d_ff": 2048,
|
| 20 |
+
"max_seq_len": 512,
|
| 21 |
+
"dropout": 0.1,
|
| 22 |
+
"batch_size": 4,
|
| 23 |
+
"num_epochs": 3,
|
| 24 |
+
"learning_rate": 0.0005,
|
| 25 |
+
"warmup_steps": 1000,
|
| 26 |
+
"gradient_accumulation_steps": 4,
|
| 27 |
+
"max_grad_norm": 1.0,
|
| 28 |
+
"log_interval": 50,
|
| 29 |
+
"save_interval": 500,
|
| 30 |
+
"eval_interval": 500,
|
| 31 |
+
"hf_username": "your-username",
|
| 32 |
+
"hf_token": null
|
| 33 |
+
},
|
| 34 |
+
"trained_at": "2025-10-09T10:51:38.821988"
|
| 35 |
+
}
|