基于tohoku-nlp/bert-base-japanese-char-v3，针对轻小说文本的NER任务优化，尤其是人物名（含片假名/汉字/假名混写、敬称、昵称等）。

参数量小，准确度够用，实测在单卡4090上只需3秒就能完成一本书的识别。

使用方法 (Transformers)

from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

model_id = "3tic/Orion-NER-110M-v1"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)

ner = pipeline(
    "token-classification",
    model=model,
    tokenizer=tokenizer,
    aggregation_strategy="simple",  # 合并子片段为实体
)

text = "前には妹系の海山愛莉、左を向けばダウナーギャルの市之瀬優里亜、右を向けば黒髪清楚系委員長の黒木瑠衣。表向きは完璧な美少女だが、彼女たちの誰にも言えない秘密を知ってしまって…？ 「お願いだからっ、こ、このこと……言わないでっ！」「あたしたちはこれからそういう関係になったから。」「これは、諒太君と私だけの秘密だよ？」平穏なオタクライフを過ごしたいだけだったのに、どうしてこうなった！？これ以上面倒ごとが起きないように、陰キャオタクが奮闘する板挟みラブコメ！"

entities = ner(text)

for e in entities:
    print(e)

Result

{'entity_group': 'PERSON', 'score': np.float32(0.99995184), 'word': '海 山 愛 莉', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.9999535), 'word': '市 之 瀬 優 里 亜', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.99995434), 'word': '黒 木 瑠 衣', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.9999564), 'word': '諒 太 君', 'start': None, 'end': None}

Downloads last month: 1

Safetensors

Model size

90.9M params

Tensor type

F32

Model tree for 3tic/Orion-NER-110M-v1

Base model

tohoku-nlp/bert-base-japanese-char-v3

Finetuned

(1)

this model

Collection including 3tic/Orion-NER-110M-v1

Orion-NER

Collection

Orion 实体识别任务 • 2 items • Updated Jan 11

3tic
/

Orion-NER-110M-v1

标签

使用方法 (Transformers)

Model tree for 3tic/Orion-NER-110M-v1

Collection including 3tic/Orion-NER-110M-v1

Orion-NER