SE-Search-3B

Self-Evolving Search Agent via Memory and Dense Reward

🔥 News

Paper available on [ArXiv]

📖 Overview

SE-Search is a Self-Evolving Search agent that improves online search behavior through a Think-Search-Memorize strategy:

Memory Purification: Retains salient evidence while filtering irrelevant content
Atomic Query: Promotes shorter and more diverse queries, improving evidence acquisition
Dense Rewards: Provides fine-grained feedback that speeds up training and improves performance

🙏 Acknowledgements

Built upon VeRL, Search-R1, and AutoRefine. Thanks to the authors for their valuable work.

🎓 Citations

@misc{li2026sesearch,
      title={SE-Search: Self-Evolving Search Agent via Memory and Dense Reward}, 
      author={Jian Li and Yizhang Jin and Dongqi Liu and Hang Ding and Jiafu Wu and Dongsheng Chen and Yunhang Shen and Yulei Qin and Ying Tai and Chengjie Wang and Xiaotong Yuan and Yabiao Wang},
      year={2026},
      eprint={2603.03293},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2603.03293}, 
}

@article{li2025survey,
  title={A Survey on AI Search with Large Language Models},
  author={Li, Jian and Li, Xiaoxi and Zheng, Yan and Jin, Yizhang and Wang, Shuo and Wu, Jiafu and Wang, Yabiao and Wang, Chengjie and Yuan, Xiaotong},
  year={2025}
}

Downloads last month: 3

Safetensors

Model size

3B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for swordli/SE-Search-3B

Base model

Qwen/Qwen2.5-3B

Finetuned

(387)

this model

Quantizations

1 model

Dataset used to train swordli/SE-Search-3B

Paper for swordli/SE-Search-3B

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Paper • 2603.03293 • Published Feb 6 • 1