kieraisverybored
/

fein

Text Generation

text-generation-inference

Model card Files Files and versions

fein / infer.py

kieraisverybored's picture

kieraisverybored

Create infer.py

0709cbe verified 11 months ago

history blame contribute delete

3.09 kB

	#!/usr/bin/env python
	"""
	infer.py – chat with fein

	Usage:
	python chat_fein.py # load from HF repo
	python chat_fein.py --model . # load from local folder
	"""
	import os, sys, argparse, torch, readline
	from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

	# ----------------------------------------------------------------------
	# 1. CLI args
	# ----------------------------------------------------------------------
	parser = argparse.ArgumentParser()
	parser.add_argument(
	"--model",
	default="kieraisverybored/fein", # default = Hub repo
	help="HF repo ID or path to a local model folder",
	)
	parser.add_argument("--load-8bit", action="store_true",
	help="Load in 8-bit (else 4-bit)")
	args = parser.parse_args()

	MODEL_ID = args.model
	SYSTEM_MSG = "You are a helpful assistant. You are the 'fein 14b' model by kieradev, a 14b LLM fine tuned from Qwen3."

	# ----------------------------------------------------------------------
	# 2. Load tokenizer & model
	# ----------------------------------------------------------------------
	print(f"Loading model from: {MODEL_ID}")
	dtype = torch.bfloat16 # or torch.float16 if your GPU prefers
	bnb_cfg = BitsAndBytesConfig(
	load_in_4bit=not args.load_8bit,
	load_in_8bit=args.load_8bit,
	bnb_4bit_compute_dtype=dtype,
	)

	tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, use_fast=False)
	model = AutoModelForCausalLM.from_pretrained(
	MODEL_ID,
	device_map="auto",
	torch_dtype=dtype,
	quantization_config=bnb_cfg,
	)
	model.eval()
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# ----------------------------------------------------------------------
	# 3. Prompt builder, chat loop
	# ----------------------------------------------------------------------
	T_START, T_END = "<\|im_start\|>", "<\|im_end\|>"

	def build_prompt(history, user_msg):
	prompt = f"{T_START}system\n{SYSTEM_MSG}{T_END}\n"
	for u, a in history:
	prompt += f"{T_START}user\n{u}{T_END}\n"
	prompt += f"{T_START}assistant\n{a}{T_END}\n"
	prompt += f"{T_START}user\n{user_msg}{T_END}\n"
	prompt += f"{T_START}assistant\n"
	return prompt

	history = []
	print("\nChat ready! Type 'exit' or Ctrl-C to quit.\n")
	while True:
	try:
	user_in = input("User: ").strip()
	except (KeyboardInterrupt, EOFError):
	print("\nBye.")
	break
	if user_in.lower() in {"exit", "quit"}:
	break
	if not user_in:
	continue

	prompt = build_prompt(history, user_in)
	input_ids = tokenizer(prompt, return_tensors="pt").to(model.device)

	gen_ids = model.generate(
	**input_ids,
	max_new_tokens=1024,
	do_sample=True,
	temperature=0.7,
	top_p=0.95,
	pad_token_id=tokenizer.eos_token_id,
	)

	full = tokenizer.decode(gen_ids[0], skip_special_tokens=False)
	answer = full.split(f"{T_START}assistant\n")[-1].split(T_END)[0].strip()

	print(f"Assistant: {answer}\n")
	history.append((user_in, answer))