xingyuHuxingyu
/

DynamicPO

Text Generation

Model card Files Files and versions

Add model card for DynamicPO

#1

by nielsr HF Staff - opened 3 days ago

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +43 -0

README.md ADDED Viewed

	@@ -0,0 +1,43 @@

+---
+library_name: peft
+pipeline_tag: text-generation
+base_model:
+- Qwen/Qwen2.5-7B-Instruct
+- meta-llama/Meta-Llama-3-8B-Instruct
+- meta-llama/Llama-2-7b-chat-hf
+---
+# DynamicPO: Dynamic Preference Optimization for Recommendation
+This repository contains the model weights (LoRA adapters) for **DynamicPO**, a plug-and-play dynamic preference optimization framework for LLM-based recommender systems.
+DynamicPO is designed to align Large Language Models (LLMs) with user preferences while mitigating "preference optimization collapse." This phenomenon occurs in multi-negative alignment when increasing the number of negative samples leads to performance degradation despite a decreasing training loss.
+## Key Features
+DynamicPO comprises two adaptive mechanisms:
+- **Dynamic Boundary Negative Selection**: Identifies and prioritizes informative negatives near the model's decision boundary.
+- **Dual-Margin Dynamic beta Adjustment**: Calibrates optimization strength per sample according to boundary ambiguity.
+## Resources
+- **Paper**: [DynamicPO: Dynamic Preference Optimization for Recommendation](https://huggingface.co/papers/2605.00327)
+- **GitHub Repository**: [xingyuHuxingyu/DynamicPO](https://github.com/xingyuHuxingyu/DynamicPO)
+- **Dataset**: [DynamicPO Dataset](https://huggingface.co/datasets/xingyuHuxingyu/DynamicPO-Data)
+## Citation
+This work was presented at DASFAA 2026. If you find this work useful, please consider citing:
+```bibtex
+@article{hu2026dynamicpo,
+  title={DynamicPO: Dynamic Preference Optimization for Recommendation},
+  author={Hu, Xingyu and Zhang, Kai and Wu, Jiancan and Wang, Shuli and Wang, Chi and Chen, Wenshuai and Zhu, Yinhua and Wang, Haitao and Wang, Xingxing and Wang, Xiang},
+  journal={arXiv preprint arXiv:2605.00327},
+  year={2026}
+}
+```
+## Acknowledgment
+This implementation is built upon the [TRL library](https://github.com/huggingface/trl).