reaperdoesntknow
/

Qemma-redux

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

reaperdoesntknow commited on Nov 9, 2025

Commit

4c9b4a0

·

verified ·

1 Parent(s): 9bcae30

Update README.md

Files changed (1) hide show

README.md +10 -6

README.md CHANGED Viewed

@@ -29,15 +29,19 @@ This variant uses Yarn based Rope Scaling with 1:1 Ratio from max_position_embed
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
-model_id = "reaperdoesntknow/Qemma-sft"
-tok = AutoTokenizer.from_pretrained(model_id, use_fast=True)
 model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16).eval()
-messages = [{"role": "user", "content": "Explain finite-scale discrepancy Δ_r in one paragraph."}]
-inputs = tok.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
-out = model.generate(inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.9)
-print(tok.decode(out[0], skip_special_tokens=True))
 ```
 ## What’s inside

 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
+model_id = "reaperdoesntknow/Qemma-redux"
+tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
 model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16).eval()
+text = "I notice that the sum involves the absolute values of three linear expressions of x."
+inputs = tokenizer(text, return_tensors="pt", max_length=64, padding='max_length', truncation=True)
+inputs = {k: v.to(model.device) for k, v in inputs.items()}
+with torch.no_grad():
+    model.eval()
+    outputs = model.generate(**inputs, max_new_tokens=256, do_sample=True, min_length=32)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
 ## What’s inside