elativus commited on
Commit
6f081f8
·
verified ·
1 Parent(s): b39b9d6

Add/Update model card

Browse files
Files changed (1) hide show
  1. README.md +56 -3
README.md CHANGED
@@ -1,3 +1,56 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: ru
3
+ tags:
4
+ - reinforcement-learning
5
+ - grpo
6
+ - qwen2.5
7
+ - lis
8
+ license: other
9
+ base_model: Qwen/Qwen2.5-1.5B-Instruct
10
+ ---
11
+
12
+ # GRPO LIS agent (Week 2)
13
+
14
+ Это модель, дообученная с помощью GRPO (RL) на среде **Longest Increasing Subsequence (LIS)**:
15
+ по заданной последовательности целых чисел нужно вернуть длину LIS.
16
+
17
+ ## Важно про формат ответа
18
+
19
+ Системный промпт (должен совпадать с train/eval):
20
+
21
+ ```text
22
+ Отвечай в следующем формате:
23
+ <think>
24
+ ...
25
+ </think>
26
+ <answer>
27
+ ...
28
+ </answer>
29
+ ```
30
+
31
+ ## Датасеты для оценки
32
+
33
+ Фиксированные test/dev наборы, сгенерированные в train-ноутбуке, опубликованы тут:
34
+ - `None`
35
+
36
+ ## Быстрый пример инференса (Transformers)
37
+
38
+ ```python
39
+ from transformers import AutoTokenizer, AutoModelForCausalLM
40
+ import torch
41
+
42
+ repo = "elativus/AI-SelectedTopics-W2"
43
+ tok = AutoTokenizer.from_pretrained(repo)
44
+ model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.float16, device_map="auto")
45
+
46
+ user_prompt = "..." # вопрос из датасета (одна задача)
47
+ messages = [
48
+ {"role": "system", "content": 'Отвечай в следующем формате:\n<think>\n...\n</think>\n<answer>\n...\n</answer>'},
49
+ {"role": "user", "content": user_prompt},
50
+ ]
51
+ prompt = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
52
+
53
+ inputs = tok(prompt, return_tensors="pt").to(model.device)
54
+ out = model.generate(**inputs, max_new_tokens=64, do_sample=False)
55
+ print(tok.decode(out[0], skip_special_tokens=True))
56
+ ```