t5-base-japanese-snow-extended

日本語の文章を「やさしい日本語」に平易化するためのモデルです。ベースモデルは sonoisa/t5-base-japanese-v1.1 です。

目的

日本語文の平易化（簡易化）
読みやすさ・アクセシビリティの補助

学習データ

やさしい日本語コーパス
やさしい日本語拡張コーパス
独自の追加内部コーパス（学習用に処理したデータセット自体は、このリポジトリでは再配布していません。）

使い方

python -m pip install transformers sentencepiece

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_id = "KTaskn/t5-base-japanese-snow-extended"
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=False)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)

text = "流行りのダンス動画というやつがtiktokで一度も流れた試しがない"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=256, num_beams=4)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

学習

ベースモデル: sonoisa/t5-base-japanese-v1.1

ライセンス

CC-BY-SA 4.0

クレジット

このモデルを再配布・改変する際は、ベースモデルおよびSNOWコーパスの出典を明記してください。

Downloads last month: -

Safetensors

Model size

0.2B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support