Update README.md
Browse files
README.md
CHANGED
|
@@ -19,3 +19,20 @@ pipeline_tag: translation
|
|
| 19 |
- lr: 5e-5
|
| 20 |
|
| 21 |
由于使用的数据集样本数大,所以仅使用了10万条数据(整个数据集共有97万条数据)进行训练。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 19 |
- lr: 5e-5
|
| 20 |
|
| 21 |
由于使用的数据集样本数大,所以仅使用了10万条数据(整个数据集共有97万条数据)进行训练。
|
| 22 |
+
|
| 23 |
+
## Usage
|
| 24 |
+
```python
|
| 25 |
+
from transformers import AutoModelForSeq2SeqLM
|
| 26 |
+
from transformers import AutoTokenizer
|
| 27 |
+
|
| 28 |
+
prefix = "普通话到文言文"
|
| 29 |
+
tokenizer = AutoTokenizer.from_pretrained("xmj2002/bart_modern_classical")
|
| 30 |
+
model = AutoModelForSeq2SeqLM.from_pretrained("xmj2002/bart_modern_classical")
|
| 31 |
+
|
| 32 |
+
text = "曲曲折折的荷塘上面,弥望旳是田田的叶子。叶子出水很高,像亭亭旳舞女旳裙。"
|
| 33 |
+
inputs = tokenizer(prefix+text, return_tensors="pt").input_ids
|
| 34 |
+
outputs = model.generate(inputs, max_new_tokens=40, do_sample=True, top_k=30, top_p=0.95)
|
| 35 |
+
tokenizer.decode(outputs[0], skip_special_tokens=True)
|
| 36 |
+
|
| 37 |
+
# output:曲 塘 之 上 , 弥 望 则 田 田 之 叶 , 叶 出 水 高 , 若 舞 女 低 裙 。
|
| 38 |
+
```
|