darwinkernelpanic
/

DiffReaper-5

@@ -41,6 +41,7 @@ Unlike autoregressive models, DiffReaper-5 generates the entire response in para
 ```python
 import torch
 import torch.nn.functional as F
 def generate(model, tokenizer, prompt, steps=10):
     model.eval()
@@ -62,6 +63,10 @@ def generate(model, tokenizer, prompt, steps=10):
         norm_r = F.normalize(r_noise, dim=-1)
         logits = torch.matmul(norm_r, norm_weights.T)
         return tokenizer.decode(torch.argmax(logits, dim=-1)[0])
 ```
 ## 🎯 Fine-tuning

 ```python
 import torch
 import torch.nn.functional as F
+# Assuming DiffReaperModel is defined as per train_autogrow.py
 def generate(model, tokenizer, prompt, steps=10):
     model.eval()
         norm_r = F.normalize(r_noise, dim=-1)
         logits = torch.matmul(norm_r, norm_weights.T)
         return tokenizer.decode(torch.argmax(logits, dim=-1)[0])
+# --- Loading Example ---
+# model = DiffReaperModel(vocab_size=50257, n_embd=1024, n_head=16, n_layer=12).to("cuda")
+# model.load_state_dict(torch.load("cropmark_latest.pt"))
 ```
 ## 🎯 Fine-tuning