Spaces:

klasser
/

rl2

Sleeping

App Files Files Community

klasser commited on Apr 7

Commit

f1ba501

1 Parent(s): 0b0420a

Upload 15 files

Browse files

Files changed (13) hide show

app.py +129 -0
ppo_model_trained/config.json +34 -0
ppo_model_trained/generation_config.json +6 -0
ppo_model_trained/merges.txt +0 -0
ppo_model_trained/special_tokens_map.json +24 -0
ppo_model_trained/tokenizer.json +0 -0
ppo_model_trained/tokenizer_config.json +23 -0
ppo_model_trained/vocab.json +0 -0
reward_model_trained/config.json +31 -0
reward_model_trained/special_tokens_map.json +8 -0
reward_model_trained/tokenizer.json +0 -0
reward_model_trained/tokenizer_config.json +56 -0
reward_model_trained/vocab.txt +0 -0

app.py ADDED Viewed

	@@ -0,0 +1,129 @@

+import streamlit as st
+import torch
+import transformers
+from trl import AutoModelForCausalLMWithValueHead
+# Настройки страницы
+st.set_page_config(page_title="RLHF: IMDB Movie Reviews", layout="wide")
+st.title("🎬 Генерация отзывов на фильмы с помощью RLHF")
+st.markdown("""
+Это приложение сравнивает два варианта модели:
+- **Original GPT-2**: базовая модель, обученная на отзывах IMDB.
+- **RLHF Model (PPO)**: та же модель, но дообученная с помощью RLHF писать **только позитивные** отзывы.
+""")
+DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# ============================================================
+# ЗАГРУЗКА МОДЕЛЕЙ (кешируем, чтобы не грузить при каждом нажатии)
+# ============================================================
+@st.cache_resource
+def load_models():
+    with st.spinner("Загрузка моделей в память... Пожалуйста, подождите (это делается 1 раз)."):
+        # 1. Загрузка Reward Model
+        reward_path = "reward_model_trained"
+        reward_tokenizer = transformers.AutoTokenizer.from_pretrained(reward_path)
+        reward_model = transformers.AutoModelForSequenceClassification.from_pretrained(reward_path).to(DEVICE).eval()
+        # 2. Загрузка Original Model (Базовая до RLHF)
+        orig_model_name = "lvwerra/gpt2-imdb"
+        orig_tokenizer = transformers.AutoTokenizer.from_pretrained(orig_model_name)
+        if orig_tokenizer.pad_token is None:
+            orig_tokenizer.pad_token = orig_tokenizer.eos_token
+        orig_model = transformers.AutoModelForCausalLM.from_pretrained(orig_model_name).to(DEVICE).eval()
+        # 3. Загрузка RLHF Model (Обученная через PPO)
+        ppo_path = "ppo_model_trained"
+        # Для генерации нам нужен только CausalLM, но чтобы загрузить веса корректно, используем ValueHead класс
+        rlhf_model_full = AutoModelForCausalLMWithValueHead.from_pretrained(ppo_path).to(DEVICE).eval()
+        rlhf_model = rlhf_model_full.pretrained_model # вытаскиваем саму языковую модель
+        return reward_model, reward_tokenizer, orig_model, orig_tokenizer, rlhf_model
+try:
+    reward_model, reward_tokenizer, orig_model, orig_tokenizer, rlhf_model = load_models()
+except Exception as e:
+    st.error(f"Ошибка загрузки моделей! Убедитесь, что папки `reward_model_trained` и `ppo_model_trained` находятся рядом с app.py.\nДетали: {e}")
+    st.stop()
+# ============================================================
+# ФУНКЦИИ ГЕНЕРАЦИИ И ОЦЕНКИ
+# ============================================================
+def compute_reward(text):
+    """Вычисляет 'позитивность' текста с помощью Reward модели"""
+    inputs = reward_tokenizer(
+        text, truncation=True, max_length=512,
+        padding=True, return_tensors="pt"
+    ).to(DEVICE)
+    with torch.no_grad():
+        score = reward_model(**inputs).logits[0, 0].item()
+    return score
+def generate_text(model, tokenizer, prompt, max_new_tokens, temperature, top_p):
+    """Генерирует продолжение текста"""
+    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
+    with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=max_new_tokens,
+            do_sample=True,
+            temperature=temperature,
+            top_p=top_p,
+            pad_token_id=tokenizer.eos_token_id
+        )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# ============================================================
+# ИНТЕРФЕЙС ПРИЛОЖЕНИЯ
+# ============================================================
+st.sidebar.header("Параметры генерации")
+max_tokens = st.sidebar.slider("Max New Tokens", 10, 150, 80)
+temperature = st.sidebar.slider("Temperature", 0.1, 1.5, 0.8)
+top_p = st.sidebar.slider("Top-p", 0.1, 1.0, 0.95)
+st.write("---")
+st.subheader("📝 Введите начало отзыва")
+predefined_prompts = [
+    "This movie was",
+    "I went to the cinema and",
+    "The acting in this film",
+    "I absolutely",
+    "What a terrible",
+    "Свой вариант..."
+]
+selected_prompt = st.selectbox("Выберите шаблон или напишите свой:", predefined_prompts)
+if selected_prompt == "Свой вариант...":
+    user_prompt = st.text_input("Ваш текст:", "The director tried to")
+else:
+    user_prompt = selected_prompt
+if st.button("🚀 Сгенерировать отзыв", type="primary"):
+    with st.spinner("Модели думают..."):
+        # Генерация оригинальной моделью
+        orig_text = generate_text(orig_model, orig_tokenizer, user_prompt, max_tokens, temperature, top_p)
+        orig_reward = compute_reward(orig_text)
+        # Генерация RLHF моделью
+        rlhf_text = generate_text(rlhf_model, orig_tokenizer, user_prompt, max_tokens, temperature, top_p)
+        rlhf_reward = compute_reward(rlhf_text)
+    # Визуализация результатов в две колонки
+    col1, col2 = st.columns(2)
+    with col1:
+        st.markdown("### 🤖 Original GPT-2")
+        st.metric(label="Reward Score (чем больше, тем позитивнее)", value=f"{orig_reward:+.3f}")
+        st.info(orig_text)
+    with col2:
+        st.markdown("### ✨ RLHF Model (PPO)")
+        delta = rlhf_reward - orig_reward
+        st.metric(label="Reward Score (чем больше, тем позитивнее)", value=f"{rlhf_reward:+.3f}", delta=f"{delta:+.3f} vs Orig")
+        st.success(rlhf_text)
+    st.markdown("---")
+    st.caption("💡 *Подсказка: RLHF модель (справа) должна стараться уводить текст в позитивное русло, даже если вы начинаете отзыв со слов 'What a terrible'.*")

ppo_model_trained/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "lvwerra/gpt2-imdb",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

ppo_model_trained/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.44.2"
+}

ppo_model_trained/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

ppo_model_trained/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

ppo_model_trained/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

ppo_model_trained/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "max_len": 1024,
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

ppo_model_trained/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reward_model_trained/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "distilbert-base-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "vocab_size": 28996
+}

reward_model_trained/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

reward_model_trained/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reward_model_trained/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

reward_model_trained/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff