import os
import time
import torch
import torch.nn as nn
from torch.nn import functional as F
from torch.utils.data import DataLoader, Dataset
import tiktoken
import gradio as gr
from tqdm import tqdm
import numpy as np
from datasets import load_dataset

# ---------- 1. Жёсткие ограничения на ресурсы ----------
# Используем 12 ядер CPU и ~13 ГБ RAM
torch.set_num_threads(12)
torch.set_num_interop_threads(12)

# Ограничение памяти PyTorch (опционально, для безопасности)
# torch.cuda.empty_cache() – не нужно, так как CPU

# --- Гиперпараметры модели (подобраны под 13 ГБ RAM) ---
vocab_size = 50257
block_size = 256
n_embd = 384
n_head = 6
n_layer = 6
dropout = 0.1

# --- Гиперпараметры обучения (снижены для экономии памяти) ---
batch_size = 24               # было 32 -> снижаем
learning_rate = 5e-4
max_iters = 15000
eval_interval = 500
eval_iters = 100
warmup_iters = 500

# --- Параметры DataLoader (умеренные) ---
num_workers = 6               # было 8 -> снижаем
prefetch_factor = 4
pin_memory = True

device = 'cpu'
print(f"Устройство: {device}")
print(f"Используется CPU потоков: {torch.get_num_threads()}")

# ---------- 2. Датасет и токенизация ----------
print("\n[1/5] Загрузка и токенизация датасета...")
dataset = load_dataset("JoshKeesee/Alfred-Indigo", split="train")
dialogue_texts = []
for example in dataset:
    dialogue = "\n".join([f"{msg['role']}: {msg['content']}" for msg in example['messages']])
    dialogue_texts.append(dialogue)
all_text = "\n\n".join(dialogue_texts)
print(f"Загружено {len(dialogue_texts)} диалогов. Общий объём: {len(all_text)} символов.")

enc = tiktoken.get_encoding("gpt2")
data = torch.tensor(enc.encode_ordinary(all_text), dtype=torch.long)

n = int(0.9 * len(data))
train_data = data[:n]
val_data = data[n:]

class TextDataset(Dataset):
    def __init__(self, data, block_size):
        self.data = data
        self.block_size = block_size
    def __len__(self):
        return len(self.data) - self.block_size
    def __getitem__(self, idx):
        x = self.data[idx:idx+self.block_size]
        y = self.data[idx+1:idx+self.block_size+1]
        return x, y

train_dataset = TextDataset(train_data, block_size)
val_dataset = TextDataset(val_data, block_size)

# DataLoader с умеренным числом воркеров
train_loader = DataLoader(
    train_dataset,
    batch_size=batch_size,
    shuffle=True,
    num_workers=num_workers,
    pin_memory=pin_memory,
    prefetch_factor=prefetch_factor
)

val_loader = DataLoader(
    val_dataset,
    batch_size=batch_size,
    shuffle=False,
    num_workers=num_workers,
    pin_memory=pin_memory,
    prefetch_factor=prefetch_factor
)

# ---------- 3. Архитектура модели (оптимизированная) ----------
class AttentionHead(nn.Module):
    def __init__(self, head_size):
        super().__init__()
        self.key = nn.Linear(n_embd, head_size, bias=False)
        self.query = nn.Linear(n_embd, head_size, bias=False)
        self.value = nn.Linear(n_embd, head_size, bias=False)
        self.dropout = nn.Dropout(dropout)
        self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size)))
    def forward(self, x):
        B, T, C = x.shape
        k = self.key(x)
        q = self.query(x)
        wei = q @ k.transpose(-2, -1) * (C ** -0.5)
        wei = wei.masked_fill(self.tril[:T, :T] == 0, float('-inf'))
        wei = F.softmax(wei, dim=-1)
        wei = self.dropout(wei)
        v = self.value(x)
        return wei @ v

class MultiHeadAttention(nn.Module):
    def __init__(self):
        super().__init__()
        head_size = n_embd // n_head
        self.heads = nn.ModuleList([AttentionHead(head_size) for _ in range(n_head)])
        self.proj = nn.Linear(n_embd, n_embd)
        self.dropout = nn.Dropout(dropout)
    def forward(self, x):
        out = torch.cat([h(x) for h in self.heads], dim=-1)
        out = self.dropout(self.proj(out))
        return out

class FeedForward(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(n_embd, 4 * n_embd),
            nn.GELU(),
            nn.Linear(4 * n_embd, n_embd),
            nn.Dropout(dropout)
        )
    def forward(self, x):
        return self.net(x)

class TransformerBlock(nn.Module):
    def __init__(self):
        super().__init__()
        self.ln1 = nn.LayerNorm(n_embd)
        self.attn = MultiHeadAttention()
        self.ln2 = nn.LayerNorm(n_embd)
        self.ffwd = FeedForward()
    def forward(self, x):
        x = x + self.attn(self.ln1(x))
        x = x + self.ffwd(self.ln2(x))
        return x

class GPTLanguageModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.token_embedding = nn.Embedding(vocab_size, n_embd)
        self.position_embedding = nn.Embedding(block_size, n_embd)
        self.blocks = nn.Sequential(*[TransformerBlock() for _ in range(n_layer)])
        self.ln_f = nn.LayerNorm(n_embd)
        self.lm_head = nn.Linear(n_embd, vocab_size)
    def forward(self, idx, targets=None):
        B, T = idx.shape
        tok_emb = self.token_embedding(idx)
        pos_emb = self.position_embedding(torch.arange(T, device=device))
        x = tok_emb + pos_emb
        x = self.blocks(x)
        x = self.ln_f(x)
        logits = self.lm_head(x)
        loss = None
        if targets is not None:
            B, T, C = logits.shape
            logits = logits.view(B*T, C)
            targets = targets.view(B*T)
            loss = F.cross_entropy(logits, targets)
        return logits, loss
    def generate(self, idx, max_new_tokens, temperature=0.8, top_k=40):
        for _ in range(max_new_tokens):
            idx_cond = idx[:, -block_size:]
            logits, _ = self.forward(idx_cond)
            logits = logits[:, -1, :] / temperature
            if top_k is not None:
                v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
                logits[logits < v[:, [-1]]] = -float('Inf')
            probs = F.softmax(logits, dim=-1)
            idx_next = torch.multinomial(probs, num_samples=1)
            idx = torch.cat((idx, idx_next), dim=1)
        return idx

model = GPTLanguageModel()
# Компиляция (работает на PyTorch 2.x)
model = torch.compile(model)
print(f"Модель создана. Параметров: {sum(p.numel() for p in model.parameters())/1e6:.2f}M")

# ---------- 4. Обучение ----------
def get_batch_from_loader(loader):
    for x, y in loader:
        yield x, y

def estimate_loss():
    out = {}
    model.eval()
    for split, loader in [('train', train_loader), ('val', val_loader)]:
        losses = torch.zeros(eval_iters)
        loader_iter = iter(loader)
        for k in range(eval_iters):
            try:
                X, Y = next(loader_iter)
            except StopIteration:
                loader_iter = iter(loader)
                X, Y = next(loader_iter)
            logits, loss = model(X, Y)
            losses[k] = loss.item()
        out[split] = losses.mean()
    model.train()
    return out

optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=0.1)

def get_lr(it):
    if it < warmup_iters:
        return learning_rate * (it + 1) / warmup_iters
    return learning_rate

print("\n[2/5] Старт обучения (ограничение 12 CPU / 13 ГБ RAM)...")
start_time = time.time()

for iter_num in tqdm(range(max_iters), desc="Обучение"):
    lr = get_lr(iter_num)
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr

    if iter_num % eval_interval == 0 or iter_num == max_iters - 1:
        losses = estimate_loss()
        elapsed = time.time() - start_time
        print(f"\nШаг {iter_num}: train loss {losses['train']:.4f}, val loss {losses['val']:.4f} (время {elapsed:.2f} с)")

    xb, yb = next(iter(train_loader))
    logits, loss = model(xb, yb)
    optimizer.zero_grad(set_to_none=True)
    loss.backward()
    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
    optimizer.step()

print(f"\nОбучение завершено! Время: {(time.time() - start_time)/60:.2f} мин")

# Сохранение
os.makedirs('checkpoints', exist_ok=True)
torch.save(model._orig_mod.state_dict(), 'checkpoints/model_final.pth')
print("Модель сохранена в 'checkpoints/model_final.pth'")

# ---------- 5. Интерфейс Gradio ----------
def generate_response(prompt, max_new_tokens=150, temperature=0.7, top_k=40):
    context = torch.tensor(enc.encode_ordinary(prompt), dtype=torch.long, device=device).unsqueeze(0)
    generated_ids = model.generate(context, max_new_tokens=max_new_tokens, temperature=temperature, top_k=top_k)[0].tolist()
    return enc.decode(generated_ids)

def chat_function(message, history):
    return generate_response(message)

demo = gr.ChatInterface(
    fn=chat_function,
    title="🤖 GPT обучена с нуля (12 CPU / 13 ГБ RAM)",
    description="Модель обучена на Alfred-Indigo, 6 слоёв, 6 голов внимания, контекст 256 токенов. Ограничение ресурсов: 12 ядер CPU, ~13 ГБ RAM.",
    theme="soft"
)

if __name__ == "__main__":
    demo.launch()