Orion-NER
Collection
Orion 实体识别任务 • 2 items • Updated
基于tohoku-nlp/bert-base-japanese-char-v3,针对轻小说文本的NER任务优化,尤其是人物名(含片假名/汉字/假名混写、敬称、昵称等)。
参数量小,准确度够用,实测在单卡4090上只需3秒就能完成一本书的识别。
PERSON - 人名LOCATION - 地点ORGANIZATION - 组织MISC - 物品from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
model_id = "3tic/Orion-NER-110M-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)
ner = pipeline(
"token-classification",
model=model,
tokenizer=tokenizer,
aggregation_strategy="simple", # 合并子片段为实体
)
text = "前には妹系の海山愛莉、左を向けばダウナーギャルの市之瀬優里亜、右を向けば黒髪清楚系委員長の黒木瑠衣。表向きは完璧な美少女だが、彼女たちの誰にも言えない秘密を知ってしまって…? 「お願いだからっ、こ、このこと……言わないでっ!」「あたしたちはこれからそういう関係になったから。」「これは、諒太君と私だけの秘密だよ?」平穏なオタクライフを過ごしたいだけだったのに、どうしてこうなった!?これ以上面倒ごとが起きないように、陰キャオタクが奮闘する板挟みラブコメ!"
entities = ner(text)
for e in entities:
print(e)
Result
{'entity_group': 'PERSON', 'score': np.float32(0.99995184), 'word': '海 山 愛 莉', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.9999535), 'word': '市 之 瀬 優 里 亜', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.99995434), 'word': '黒 木 瑠 衣', 'start': None, 'end': None}
{'entity_group': 'PERSON', 'score': np.float32(0.9999564), 'word': '諒 太 君', 'start': None, 'end': None}
Base model
tohoku-nlp/bert-base-japanese-char-v3