Spaces:

Nihal2000
/

CarAssistanceQA

Sleeping

CarAssistanceQA / src /inference /inference.py

inferancing using gemma 270 model

f05e8f9 3 months ago

590 Bytes



	from transformers import AutoTokenizer, AutoModelForCausalLM
	import torch

	model_id = "google/gemma-3-270m"

	# Load tokenizer & model
	tokenizer = AutoTokenizer.from_pretrained(model_id)
	model = AutoModelForCausalLM.from_pretrained(
	model_id,
	torch_dtype=torch.float32,
	device_map="cpu"
	)

	# Run inference
	prompt = "Explain quantum computing in simple terms."
	inputs = tokenizer(prompt, return_tensors="pt").to("cpu")

	outputs = model.generate(**inputs, max_new_tokens=50)
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))