omdeep22
/

Gonyai-v1

Text Generation

custom-architecture

Model card Files Files and versions

omdeep22 commited on Feb 2

Commit

9729d95

·

verified ·

1 Parent(s): 84ef404

Update README.md

Files changed (1) hide show

README.md +25 -29

README.md CHANGED Viewed

@@ -32,43 +32,39 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "omdeep22/Gonyai-v1"
-# 1. Load Tokenizer and Model
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
     trust_remote_code=True,
-    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
-).to("cuda" if torch.cuda.is_available() else "cpu")
-# 2. Define your prompt using the Chat Template
-# This automatically handles the <|user|> and <|assistant|> tags
-messages = [
-    {"role": "user", "content": "गोंयच्या पावसाचेर एक कविता बरोव."}
-]
-tokenized_chat = tokenizer.apply_chat_template(
     messages,
     tokenize=True,
     add_generation_prompt=True,
-    return_tensors="pt"
-).to(model.device)
-# 3. Optimized Inference Settings for 160M Architecture
-outputs = model.generate(
-    tokenized_chat,
-    max_new_tokens=80,          # Prevents rambling/hallucinations
-    min_new_tokens=10,          # Ensures a meaningful response
-    temperature=0.3,            # Keeps the model focused and logical
-    top_k=40,                   # Filters out low-probability noise
-    top_p=0.9,                  # Nucleus sampling for coherence
-    repetition_penalty=1.2,     # Prevents looping in small models
-    do_sample=True,
-    eos_token_id=tokenizer.eos_token_id,
-    pad_token_id=tokenizer.eos_token_id
-)
-# 4. Decode only the NEW tokens generated by the assistant
-generated_tokens = outputs[0][tokenized_chat.shape[-1]:]
-response = tokenizer.decode(generated_tokens, skip_special_tokens=True)
-print(f"Assistant: {response}")

 model_id = "omdeep22/Gonyai-v1"
+device = "cuda" if torch.cuda.is_available() else "cpu"
+dtype = torch.float16 if torch.cuda.is_available() else torch.float32
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
     trust_remote_code=True,
+    torch_dtype=dtype
+).to(device)
+messages = [{"role": "user", "content": "गोंयच्या पावसाचेर एक कविता बरोव."}]
+inputs = tokenizer.apply_chat_template(
     messages,
     tokenize=True,
     add_generation_prompt=True,
+    return_tensors="pt",
+    return_dict=True
+).to(device)
+with torch.inference_mode():
+    with torch.autocast(device_type=device, dtype=dtype):
+        outputs = model.generate(
+            input_ids=inputs["input_ids"],
+            attention_mask=inputs["attention_mask"],
+            max_new_tokens=100,
+            temperature=0.3,
+            repetition_penalty=1.2,
+            do_sample=True,
+            eos_token_id=tokenizer.eos_token_id,
+            pad_token_id=tokenizer.eos_token_id
+        )
+generated_tokens = outputs[0][inputs["input_ids"].shape[-1]:]
+response = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
+print(f"\nAssistant: {response}")