elativus's picture
Add/Update model card
6f081f8 verified
---
language: ru
tags:
- reinforcement-learning
- grpo
- qwen2.5
- lis
license: other
base_model: Qwen/Qwen2.5-1.5B-Instruct
---
# GRPO LIS agent (Week 2)
Это модель, дообученная с помощью GRPO (RL) на среде **Longest Increasing Subsequence (LIS)**:
по заданной последовательности целых чисел нужно вернуть длину LIS.
## Важно про формат ответа
Системный промпт (должен совпадать с train/eval):
```text
Отвечай в следующем формате:
<think>
...
</think>
<answer>
...
</answer>
```
## Датасеты для оценки
Фиксированные test/dev наборы, сгенерированные в train-ноутбуке, опубликованы тут:
- `None`
## Быстрый пример инференса (Transformers)
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
repo = "elativus/AI-SelectedTopics-W2"
tok = AutoTokenizer.from_pretrained(repo)
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.float16, device_map="auto")
user_prompt = "..." # вопрос из датасета (одна задача)
messages = [
{"role": "system", "content": 'Отвечай в следующем формате:\n<think>\n...\n</think>\n<answer>\n...\n</answer>'},
{"role": "user", "content": user_prompt},
]
prompt = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=64, do_sample=False)
print(tok.decode(out[0], skip_special_tokens=True))
```