基于tohoku-nlp/bert-base-japanese-char-v3,针对轻小说文本的NER任务优化,尤其是人物名(含片假名/汉字/假名混写、敬称、昵称等)。

参数量小,准确度够用,实测在单卡4090上只需3秒就能完成一本书的识别


标签

  • PERSON - 人名
  • LOCATION - 地点
  • ORGANIZATION - 组织
  • MISC - 物品

使用方法 (Transformers)

from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

model_id = "3tic/Orion-NER-110M-v1"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)

ner = pipeline(
    "token-classification",
    model=model,
    tokenizer=tokenizer,
    aggregation_strategy="simple",  # 合并子片段为实体
)

text = "前には妹系の海山愛莉、左を向けばダウナーギャルの市之瀬優里亜、右を向けば黒髪清楚系委員長の黒木瑠衣。表向きは完璧な美少女だが、彼女たちの誰にも言えない秘密を知ってしまって…? 「お願いだからっ、こ、このこと……言わないでっ!」「あたしたちはこれからそういう関係になったから。」「これは、諒太君と私だけの秘密だよ?」平穏なオタクライフを過ごしたいだけだったのに、どうしてこうなった!?これ以上面倒ごとが起きないように、陰キャオタクが奮闘する板挟みラブコメ!"

entities = ner(text)

for e in entities:
    print(e)

Result

{'entity_group': 'PERSON', 'score': np.float32(0.99995184), 'word': '海 山 愛 莉', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.9999535), 'word': '市 之 瀬 優 里 亜', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.99995434), 'word': '黒 木 瑠 衣', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.9999564), 'word': '諒 太 君', 'start': None, 'end': None}
Downloads last month
15
Safetensors
Model size
90.9M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for 3tic/Orion-NER-110M-v1

Finetuned
(1)
this model

Collection including 3tic/Orion-NER-110M-v1