KoGPT2-small

Model Batch Size Tokenizer Vocab Size Max Length Parameter Size
GPT2 64 BPE 30,000 1024 108M

DataSet

  • AIhub - 웹데이터 기반 ν•œκ΅­μ–΄ λ§λ­‰μΉ˜ 데이터 (4.8M)
  • KoWiki dump 230701 (1.4M)

Inference Example

from transformers import AutoTokenizer, GPT2LMHeadModel

text = "μš΄λ™μ΄ νž˜λ“€λ©΄?"

tokenizer = AutoTokenizer.from_pretrained('dataslab/GPT2-small')
model = GPT2LMHeadModel.from_pretrained('dataslab/GPT2-small')

inputs = tokenizer.encode_plus(text, return_tensors='pt', add_special_tokens=False)

outputs = model.generate(inputs['input_ids'], max_length=128, 
                           repetition_penalty=2.0,
                           pad_token_id=tokenizer.pad_token_id,
                           eos_token_id=tokenizer.eos_token_id,
                           bos_token_id=tokenizer.bos_token_id,
                           use_cache=True,
                           temperature = 0.5)
outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)

# 좜λ ₯ κ²°κ³Ό : 'μš΄λ™μ΄ νž˜λ“€λ©΄ μš΄λ™μ„ ν•˜μ§€ μ•ŠλŠ” 것이 μ’‹λ‹€. ν•˜μ§€λ§Œ μš΄λ™ μ‹œκ°„μ„ λŠ¦μΆ”λŠ” 것은 였히렀 건강에 μ’‹μ§€ μ•Šλ‹€.. νŠΉνžˆλ‚˜ μž₯μ‹œκ°„μ˜ μš΄λ™μœΌλ‘œ 인해 ν”Όλ‘œκ°€ μŒ“μ΄κ³  λ©΄μ—­λ ₯이 λ–¨μ–΄μ§€λ©΄, ν”Όλ‘œκ°μ΄ μ‹¬ν•΄μ Έμ„œ μž λ“€κΈ° μ–΄λ €μš΄ κ²½μš°κ°€ λ§Žλ‹€. 이런 경우라면 ν‰μ†Œλ³΄λ‹€ 더 λ§Žμ€ μ–‘μœΌλ‘œ 과식을 ν•˜κ±°λ‚˜ λ¬΄λ¦¬ν•œ λ‹€μ΄μ–΄νŠΈλ₯Ό ν•  수 μžˆλ‹€. λ”°λΌμ„œ 식단 쑰절과 ν•¨κ»˜ μ˜μ–‘ 보좩에 μ‹ κ²½ 써야 ν•œλ‹€. λ˜ν•œ κ³Όλ„ν•œ μŒμ‹μ΄ 체쀑 κ°λŸ‰μ— 도움을 μ£Όλ―€λ‘œ μ μ ˆν•œ μš΄λ™λŸ‰μ„ μœ μ§€ν•˜λŠ” 것도 μ€‘μš”ν•˜λ‹€.'
Downloads last month
15
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support