Create README.md
Browse files
README.md
ADDED
|
@@ -0,0 +1,75 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: mit
|
| 3 |
+
datasets:
|
| 4 |
+
- HuggingFaceFW/fineweb-2
|
| 5 |
+
language:
|
| 6 |
+
- ja
|
| 7 |
+
pipeline_tag: fill-mask
|
| 8 |
+
---
|
| 9 |
+
# makiart/jp-modernbert-large-preview
|
| 10 |
+
|
| 11 |
+
このモデルは[ABCI 生成AIハッカソン](https://abci.ai/event/2024/12/23/ja_abci_3.0_genai_hackathon.html)にて提供された計算資源によって[Algomatic](https://algomatic.jp/)チームが作成したモデルです。
|
| 12 |
+
|
| 13 |
+
- コンテキスト長:8192
|
| 14 |
+
- 語彙数:50,368
|
| 15 |
+
- 総学習トークン数:約100B Tokens(Baseから重み継承後)
|
| 16 |
+
- パラメータ数:396M
|
| 17 |
+
- 埋め込み抜きパラメータ数:343M
|
| 18 |
+
- fineweb2 日本語データを利用
|
| 19 |
+
|
| 20 |
+
## How to Use
|
| 21 |
+
|
| 22 |
+
```bash
|
| 23 |
+
pip install -U transformers>=4.48.0
|
| 24 |
+
```
|
| 25 |
+
|
| 26 |
+
トークナイザーにBertJapaneseTokenizerを利用しているため、下記を追加でインストールする必要があります。
|
| 27 |
+
|
| 28 |
+
```bash
|
| 29 |
+
pip install fugashi unidic_lite
|
| 30 |
+
```
|
| 31 |
+
|
| 32 |
+
GPUがFlashAttentionに対応しているのであれば下記のインストールをすると効率よく推論できます。
|
| 33 |
+
|
| 34 |
+
```bash
|
| 35 |
+
pip install flash-attn --no-build-isolation
|
| 36 |
+
```
|
| 37 |
+
|
| 38 |
+
## Example Usage
|
| 39 |
+
|
| 40 |
+
```python
|
| 41 |
+
import torch
|
| 42 |
+
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline
|
| 43 |
+
|
| 44 |
+
model = AutoModelForMaskedLM.from_pretrained("makiart/jp-ModernBERT-large-preview", torch_dtype=torch.bfloat16)
|
| 45 |
+
tokenizer = AutoTokenizer.from_pretrained("makiart/jp-ModernBERT-large-preview")
|
| 46 |
+
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
|
| 47 |
+
|
| 48 |
+
results = fill_mask("我々の大方の苦悩は、あり得べき別の[MASK]を夢想することから始まる。")
|
| 49 |
+
|
| 50 |
+
for result in results:
|
| 51 |
+
print(result)
|
| 52 |
+
|
| 53 |
+
# {'score': 0.16015625, 'token': 12489, 'token_str': 'こと', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の こと を 夢想 する こと から 始まる 。'}
|
| 54 |
+
# {'score': 0.09716796875, 'token': 12518, 'token_str': 'もの', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の もの を 夢想 する こと から 始まる 。'}
|
| 55 |
+
# {'score': 0.043212890625, 'token': 12575, 'token_str': '世界', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 世界 を 夢想 する こと から 始まる 。'}
|
| 56 |
+
# {'score': 0.03369140625, 'token': 29991, 'token_str': '事柄', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事柄 を 夢想 する こと から 始まる 。'}
|
| 57 |
+
# {'score': 0.0296630859375, 'token': 655, 'token_str': '事', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事 を 夢想 する こと から 始まる 。'}
|
| 58 |
+
```
|
| 59 |
+
|
| 60 |
+
## Model Description
|
| 61 |
+
|
| 62 |
+
- baseモデルの重みをtile weights from middleする
|
| 63 |
+
- 8192のコンテキスト長で約100B Tokens
|
| 64 |
+
- トークナイザーはtohoku-nlp/bert-base-japanese-v3をベースとしています
|
| 65 |
+
- 語彙数は50,368です
|
| 66 |
+
- データセット
|
| 67 |
+
- fineweb2の日本語データのみを利用
|
| 68 |
+
- 計算資源
|
| 69 |
+
- ABCIから提供いただいた計算資源のうち1ノード(H200 x 8)を利用し、約2日間の間で学習
|
| 70 |
+
|
| 71 |
+
## Evaluation
|
| 72 |
+
|
| 73 |
+
ちゃんとした評価はできていません😭
|
| 74 |
+
|
| 75 |
+
総合学習トークン数的に既存のモデルよりも劣ることが予想されます。
|