HuggingFaceFW/fineweb-2
Viewer • Updated • 4.48B • 78.4k • 797
このモデルはABCI 生成AIハッカソンにて提供された計算資源によってAlgomaticチームが作成したモデルです。
pip install -U transformers>=4.48.0
トークナイザーにBertJapaneseTokenizerを利用しているため、下記を追加でインストールする必要があります。
pip install fugashi unidic_lite
GPUがFlashAttentionに対応しているのであれば下記のインストールをすると効率よく推論できます。
pip install flash-attn --no-build-isolation
import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline
model = AutoModelForMaskedLM.from_pretrained("makiart/jp-ModernBERT-large-preview", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/jp-ModernBERT-large-preview")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
results = fill_mask("我々の大方の苦悩は、あり得べき別の[MASK]を夢想することから始まる。")
for result in results:
print(result)
# {'score': 0.16015625, 'token': 12489, 'token_str': 'こと', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の こと を 夢想 する こと から 始まる 。'}
# {'score': 0.09716796875, 'token': 12518, 'token_str': 'もの', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の もの を 夢想 する こと から 始まる 。'}
# {'score': 0.043212890625, 'token': 12575, 'token_str': '世界', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 世界 を 夢想 する こと から 始まる 。'}
# {'score': 0.03369140625, 'token': 29991, 'token_str': '事柄', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事柄 を 夢想 する こと から 始まる 。'}
# {'score': 0.0296630859375, 'token': 655, 'token_str': '事', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事 を 夢想 する こと から 始まる 。'}
ちゃんとした評価はできていません😭
総合学習トークン数的に既存のモデルよりも劣ることが予想されます。