dataslab
/

GPT2-small

PyTorch

Korean

gpt2

Model card Files Files and versions

xet

Community

WONBKIM commited on 3 days ago

Commit

4e59e66

verified ·

1 Parent(s): aa89e3f

Update README.md

Browse files

Files changed (1) hide show

README.md +40 -40

README.md CHANGED Viewed

@@ -1,41 +1,41 @@
----
-license: apache-2.0
-tags: [gpt2]
-language: ko
----
-# KoGPT2-small
-| Model | Batch Size | Tokenizer | Vocab Size | Max Length | Parameter Size |
-|:---:  | :------:   |  :-----:    |    :------:  |    :----:    |     :------:    |
-|GPT2  |   64        | BPE       |    30,000  | 1024      |     108M       |
-# DataSet
- - AIhub - 웹데이터 기반 한국어 말뭉치 데이터 (4.8M)
- - KoWiki dump 230701 (1.4M)
-# Inference Example
-```python
-from transformers import AutoTokenizer, GPT2LMHeadModel
-text = "출근이 힘들면"
-tokenizer = AutoTokenizer.from_pretrained('dataslab/GPT2-small')
-model = GPT2LMHeadModel.from_pretrained('dataslab/GPT2-small')
-inputs = tokenizer.encode_plus(text, return_tensors='pt', add_special_tokens=False)
-outputs = model.generate(inputs['input_ids'], max_length=128,
-                           repetition_penalty=2.0,
-                           pad_token_id=tokenizer.pad_token_id,
-                           eos_token_id=tokenizer.eos_token_id,
-                           bos_token_id=tokenizer.bos_token_id,
-                           use_cache=True,
-                           temperature = 0.5)
-outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)
-# 출력 결과 : '출근이 힘들면 출근을 하지 않는 것이 좋다. 하지만 출퇴근 시간을 늦추는 것은 오히려 건강에 좋지 않다.. 특히나 장시간의 업무로 인해 피로가 쌓이고 면역력이 떨어지면, 피로감이 심해져서 잠들기 어려운 경우가 많다. 이런 경우라면 평소보다 더 많은 양으로 과식을 하거나 무리한 다이어트를 할 수 있다. 따라서 식단 조절과 함께 영양 보충에 신경 써야 한다. 또한 과도한 음식이 체중 감량에 도움을 주므로 적절한 운동량을 유지하는 것도 중요하다.'
 ```

+---
+license: apache-2.0
+tags: [gpt2]
+language: ko
+---
+# KoGPT2-small
+| Model | Batch Size | Tokenizer | Vocab Size | Max Length | Parameter Size |
+|:---:  | :------:   |  :-----:    |    :------:  |    :----:    |     :------:    |
+|GPT2  |   64        | BPE       |    30,000  | 1024      |     108M       |
+# DataSet
+ - AIhub - 웹데이터 기반 한국어 말뭉치 데이터 (4.8M)
+ - KoWiki dump 230701 (1.4M)
+# Inference Example
+```python
+from transformers import AutoTokenizer, GPT2LMHeadModel
+text = "운동이 힘들면?"
+tokenizer = AutoTokenizer.from_pretrained('dataslab/GPT2-small')
+model = GPT2LMHeadModel.from_pretrained('dataslab/GPT2-small')
+inputs = tokenizer.encode_plus(text, return_tensors='pt', add_special_tokens=False)
+outputs = model.generate(inputs['input_ids'], max_length=128,
+                           repetition_penalty=2.0,
+                           pad_token_id=tokenizer.pad_token_id,
+                           eos_token_id=tokenizer.eos_token_id,
+                           bos_token_id=tokenizer.bos_token_id,
+                           use_cache=True,
+                           temperature = 0.5)
+outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)
+# 출력 결과 : '운동이 힘들면 운동을 하지 않는 것이 좋다. 하지만 운동 시간을 늦추는 것은 오히려 건강에 좋지 않다.. 특히나 장시간의 운동으로 인해 피로가 쌓이고 면역력이 떨어지면, 피로감이 심해져서 잠들기 어려운 경우가 많다. 이런 경우라면 평소보다 더 많은 양으로 과식을 하거나 무리한 다이어트를 할 수 있다. 따라서 식단 조절과 함께 영양 보충에 신경 써야 한다. 또한 과도한 음식이 체중 감량에 도움을 주므로 적절한 운동량을 유지하는 것도 중요하다.'
 ```