Formzu
/

bart-base-japanese

text2text-generation

Model card Files Files and versions

p-s commited on Nov 7, 2022

Commit

12d1d79

·

1 Parent(s): 0419fec

Added AutoTokenizer support

Files changed (2) hide show

README.md +4 -6
tokenizer_config.json +2 -1

README.md CHANGED Viewed

@@ -26,12 +26,11 @@ Tokenizer requirements:
 #### Simple FillMaskPipeline
 ```python
-from transformers import AutoModelForSeq2SeqLM, pipeline
-from tokenization_bart_japanese import BartJapaneseTokenizer
 model_name = "Formzu/bart-base-japanese"
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
-tokenizer = BartJapaneseTokenizer.from_pretrained(model_name)
 masked_text = "天気が<mask>から散歩しましょう。"
@@ -46,15 +45,14 @@ print(out)
 ```
 #### Text Generation
 ```python
-from transformers import AutoModelForSeq2SeqLM
-from tokenization_bart_japanese import BartJapaneseTokenizer
 import torch
 device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
 model_name = "Formzu/bart-base-japanese"
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to(device)
-tokenizer = BartJapaneseTokenizer.from_pretrained(model_name)
 masked_text = "天気が<mask>から散歩しましょう。"

 #### Simple FillMaskPipeline
 ```python
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
 model_name = "Formzu/bart-base-japanese"
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 masked_text = "天気が<mask>から散歩しましょう。"
 ```
 #### Text Generation
 ```python
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 import torch
 device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
 model_name = "Formzu/bart-base-japanese"
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to(device)
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 masked_text = "天気が<mask>から散歩しましょう。"

tokenizer_config.json CHANGED Viewed

@@ -18,5 +18,6 @@
   "tgt_lang": null,
   "tokenizer_class": "BartJapaneseTokenizer",
   "tokenizer_file": null,
-  "unk_token": "<unk>"
 }

   "tgt_lang": null,
   "tokenizer_class": "BartJapaneseTokenizer",
   "tokenizer_file": null,
+  "unk_token": "<unk>",
+  "auto_map": {"AutoTokenizer": ["tokenization_bart_japanese.BartJapaneseTokenizer", null]}
 }