--- language: ru tags: - reinforcement-learning - grpo - qwen2.5 - lis license: other base_model: Qwen/Qwen2.5-1.5B-Instruct --- # GRPO LIS agent (Week 2) Это модель, дообученная с помощью GRPO (RL) на среде **Longest Increasing Subsequence (LIS)**: по заданной последовательности целых чисел нужно вернуть длину LIS. ## Важно про формат ответа Системный промпт (должен совпадать с train/eval): ```text Отвечай в следующем формате: ... ... ``` ## Датасеты для оценки Фиксированные test/dev наборы, сгенерированные в train-ноутбуке, опубликованы тут: - `None` ## Быстрый пример инференса (Transformers) ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch repo = "elativus/AI-SelectedTopics-W2" tok = AutoTokenizer.from_pretrained(repo) model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.float16, device_map="auto") user_prompt = "..." # вопрос из датасета (одна задача) messages = [ {"role": "system", "content": 'Отвечай в следующем формате:\n\n...\n\n\n...\n'}, {"role": "user", "content": user_prompt}, ] prompt = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tok(prompt, return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=64, do_sample=False) print(tok.decode(out[0], skip_special_tokens=True)) ```