KIND: an Italian Multi-Domain Dataset for Named Entity Recognition
Paper • 2112.15099 • Published
这是一个基于 DeepSeek OCR 模型进行 LoRA 微调的版本,专门增强了对 中文内容 的识别能力。
本模型是 DeepSeek-OCR 的 LoRA 微调版本。原始的 DeepSeek-OCR 模型在多语言 OCR 任务上表现出色,为了进一步提升其在中文场景下的识别精度,我们使用了专门的中文文本识别数据集进行了微调。
该模型主要用于中文场景下的图片文字识别(OCR),特别适合:
本次训练使用的数据集为 **priyank-m/chinese_text_recognition**。
这是一个专门针对中文内容识别训练的数据集。
If you use the training data from FudanVI, please cite their work:
@article{chen2021benchmarking,
title={Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study},
author={Chen, Jingye and Yu, Haiyang and Ma, Jianqi and Guan, Mengnan and Xu, Xuxi and Wang, Xiaocong and Qu, Shaoguang and Li, Bin and Xue, Xiangyang},
journal={arXiv preprint arXiv:2112.15099},
year={2021}
}
Base model
deepseek-ai/DeepSeek-OCR