LH-Tech-AI
/

Quark-0.5M

Text Generation

text-generation-inference

Model card Files Files and versions

LH-Tech-AI commited on 12 days ago

Commit

d93ac5d

·

verified ·

1 Parent(s): 8019d79

Create inference.py

Files changed (1) hide show

inference.py +32 -0

inference.py ADDED Viewed

	@@ -0,0 +1,32 @@

+print("[*] Loading libraries...")
+import torch
+from transformers import LlamaForCausalLM, PreTrainedTokenizerFast
+model_path = "./llama-sub-1m-final"
+print("[*] Loading tokenizer...")
+tokenizer = PreTrainedTokenizerFast.from_pretrained(model_path)
+print("[*] Loading model...")
+model = LlamaForCausalLM.from_pretrained(model_path)
+model.eval()
+prompt = "Artificial intelligence is "
+print(f"[*] Prompt: {prompt!r}")
+inputs = tokenizer(prompt, return_tensors="pt")
+with torch.no_grad():
+    outputs = model.generate(
+        input_ids=inputs["input_ids"],
+        attention_mask=inputs["attention_mask"],
+        max_new_tokens=150,
+        do_sample=True,
+        temperature=0.35,
+        top_p=0.85,
+        repetition_penalty=1.2,
+        pad_token_id=tokenizer.pad_token_id,
+        eos_token_id=tokenizer.eos_token_id,
+    )
+print("[*] Output:", tokenizer.decode(outputs[0], skip_special_tokens=True))