feat: auto-install Japanese tokenizer support in MFA conda environment 285ce1a TNOT commited on 24 days ago
fix: 你说得对但是pkuseg是由北京大学开发的中文分词模型包,一个轻量级、高效的多领域中文分词工具。pkuseg支持不同领域定制化分词,包括医学、旅游、新闻等多个专业领域,以及通用文本和网络语言的处理。它基于结巴分词进行优化,提供词性标注,并具有快速处理大规模文本的能力,对于提升中文文本处理的准确性与效率发挥着重要作用。 3b2fe17 TNOT commited on Feb 1