GPT2-small / README.md
WONBKIM's picture
Update README.md
4e59e66 verified
---
license: apache-2.0
tags: [gpt2]
language: ko
---
# KoGPT2-small
| Model | Batch Size | Tokenizer | Vocab Size | Max Length | Parameter Size |
|:---: | :------: | :-----: | :------: | :----: | :------: |
|GPT2 | 64 | BPE | 30,000 | 1024 | 108M |
# DataSet
- AIhub - 웹데이터 기반 ν•œκ΅­μ–΄ λ§λ­‰μΉ˜ 데이터 (4.8M)
- KoWiki dump 230701 (1.4M)
# Inference Example
```python
from transformers import AutoTokenizer, GPT2LMHeadModel
text = "μš΄λ™μ΄ νž˜λ“€λ©΄?"
tokenizer = AutoTokenizer.from_pretrained('dataslab/GPT2-small')
model = GPT2LMHeadModel.from_pretrained('dataslab/GPT2-small')
inputs = tokenizer.encode_plus(text, return_tensors='pt', add_special_tokens=False)
outputs = model.generate(inputs['input_ids'], max_length=128,
repetition_penalty=2.0,
pad_token_id=tokenizer.pad_token_id,
eos_token_id=tokenizer.eos_token_id,
bos_token_id=tokenizer.bos_token_id,
use_cache=True,
temperature = 0.5)
outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)
# 좜λ ₯ κ²°κ³Ό : 'μš΄λ™μ΄ νž˜λ“€λ©΄ μš΄λ™μ„ ν•˜μ§€ μ•ŠλŠ” 것이 μ’‹λ‹€. ν•˜μ§€λ§Œ μš΄λ™ μ‹œκ°„μ„ λŠ¦μΆ”λŠ” 것은 였히렀 건강에 μ’‹μ§€ μ•Šλ‹€.. νŠΉνžˆλ‚˜ μž₯μ‹œκ°„μ˜ μš΄λ™μœΌλ‘œ 인해 ν”Όλ‘œκ°€ μŒ“μ΄κ³  λ©΄μ—­λ ₯이 λ–¨μ–΄μ§€λ©΄, ν”Όλ‘œκ°μ΄ μ‹¬ν•΄μ Έμ„œ μž λ“€κΈ° μ–΄λ €μš΄ κ²½μš°κ°€ λ§Žλ‹€. 이런 경우라면 ν‰μ†Œλ³΄λ‹€ 더 λ§Žμ€ μ–‘μœΌλ‘œ 과식을 ν•˜κ±°λ‚˜ λ¬΄λ¦¬ν•œ λ‹€μ΄μ–΄νŠΈλ₯Ό ν•  수 μžˆλ‹€. λ”°λΌμ„œ 식단 쑰절과 ν•¨κ»˜ μ˜μ–‘ 보좩에 μ‹ κ²½ 써야 ν•œλ‹€. λ˜ν•œ κ³Όλ„ν•œ μŒμ‹μ΄ 체쀑 κ°λŸ‰μ— 도움을 μ£Όλ―€λ‘œ μ μ ˆν•œ μš΄λ™λŸ‰μ„ μœ μ§€ν•˜λŠ” 것도 μ€‘μš”ν•˜λ‹€.'
```