OffSeeker
/

OffSeeker-8B-DPO

Model card Files Files and versions

OffSeeker commited on 1 day ago

Commit

ea4f8a1

·

verified ·

1 Parent(s): 8a57086

Update README.md

Files changed (1) hide show

README.md +2 -9

README.md CHANGED Viewed

@@ -11,13 +11,10 @@ tags:
 - agent
 ---
-<h1 align="center">
-OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents
-</h1>
-<p align="center">| <a href="https://arxiv.org/abs/2601.18467"><b>📰 Paper</b></a> | <a href="https://huggingface.co/datasets/OffSeeker/DeepForge"><b>🤗 Datasets</b></a> | <a href="https://huggingface.co/OffSeeker/OffSeeker-8B-DPO"><b>🤗 Models</b></a> | </p>
----
 <!-- [![Paper](https://img.shields.io/badge/Paper-arXiv-red.svg)](https://arxiv.org/abs/2601.18467) [![Model](https://img.shields.io/badge/🤗%20Model-OffSeeker--8B--DPO-blue.svg)](https://huggingface.co/OffSeeker/OffSeeker-8B-DPO) [![Dataset](https://img.shields.io/badge/🤗%20Dataset-DeepForge--QA-blue.svg)](https://huggingface.co/datasets/OffSeeker/DeepForge) [![License](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) -->
@@ -27,8 +24,6 @@ We introduce a fully open-source suite designed for effective offline training.
 ![main_figure](https://raw.githubusercontent.com/Ralph-Zhou/OffSeeker/main/assets/main_results.jpg)
----
 ## 📊 Resources & Datasets
@@ -42,8 +37,6 @@ We are releasing our complete dataset to support the research community in offli
 | **DPO Pairs** | 21,000 | Preference pairs for refining agent behavior |
 | **OffSeeker Model** | 8B | Competitive with 30B-parameter online RL models |
----
 ## 📖 Citation
 If you find this work useful for your research, please cite our paper:

 - agent
 ---
+# OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents
+<a href="https://arxiv.org/abs/2601.18467"><b>Paper</b></a> | <a href="https://github.com/Ralph-Zhou/OffSeeker/tree/main"><b>Github</b></a>
 <!-- [![Paper](https://img.shields.io/badge/Paper-arXiv-red.svg)](https://arxiv.org/abs/2601.18467) [![Model](https://img.shields.io/badge/🤗%20Model-OffSeeker--8B--DPO-blue.svg)](https://huggingface.co/OffSeeker/OffSeeker-8B-DPO) [![Dataset](https://img.shields.io/badge/🤗%20Dataset-DeepForge--QA-blue.svg)](https://huggingface.co/datasets/OffSeeker/DeepForge) [![License](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) -->
 ![main_figure](https://raw.githubusercontent.com/Ralph-Zhou/OffSeeker/main/assets/main_results.jpg)
 ## 📊 Resources & Datasets
 | **DPO Pairs** | 21,000 | Preference pairs for refining agent behavior |
 | **OffSeeker Model** | 8B | Competitive with 30B-parameter online RL models |
 ## 📖 Citation
 If you find this work useful for your research, please cite our paper: