Spaces:

drrobot9
/

submit_classification

Sleeping

App Files Files Community

submit_classification / app /models /llm.py

drrobot9

Initial commit

90084cd verified 9 days ago

raw

history blame contribute delete

4.44 kB

	# app/models/llm.py

	import re
	import torch
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from app.utils.config import DEVICE, QWEN_MODEL_ID




	tokenizer = AutoTokenizer.from_pretrained(
	QWEN_MODEL_ID,
	trust_remote_code=True
	)

	model = AutoModelForCausalLM.from_pretrained(
	QWEN_MODEL_ID,
	device_map="auto" if DEVICE == "cuda" else None,
	torch_dtype=torch.float16 if DEVICE == "cuda" else torch.float32,
	trust_remote_code=True
	)
	model.eval()



	def strip_markdown(text: str) -> str:
	text = re.sub(r"\\(.?)\\*", r"\1", text)
	text = re.sub(r"\(.?)\*", r"\1", text)
	text = re.sub(r"#+\s*", "", text)
	text = re.sub(r"-\s+", "", text)
	text = re.sub(r"`+", "", text)
	text = text.replace("---", "")
	return text.strip()




	@torch.no_grad()
	def infer_common_name(
	species: str,
	domain: str,
	max_tokens: int = 16,
	) -> str \| None:
	"""
	Uses LLM to infer the most widely accepted English common name.
	Returns None if no common name exists.
	"""

	messages = [
	{
	"role": "system",
	"content": (
	"You are a taxonomy assistant. "
	"Return ONLY the most widely used English common name "
	"for the given scientific name. "
	"Do not explain or add extra text."
	"dont respond null for common name make sure u provide a common name"
	)
	},
	{
	"role": "user",
	"content": f"Scientific name: {species} ({domain})"
	}
	]

	text = tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True
	)

	inputs = tokenizer([text], return_tensors="pt").to(model.device)

	outputs = model.generate(
	**inputs,
	max_new_tokens=max_tokens,
	do_sample=False,
	temperature=0.0,
	pad_token_id=tokenizer.eos_token_id,
	)

	generated_ids = outputs[:, inputs.input_ids.shape[1]:]
	response = tokenizer.decode(
	generated_ids[0],
	skip_special_tokens=True
	).strip()

	if not response or response.lower() == "none":
	return None

	return response




	def _build_messages(
	species: str,
	confidence: float,
	domain: str,
	top_k: list \| None = None,
	):
	alternatives = ""
	if top_k:
	alternatives = "\n".join(
	[f"{x['species']} ({x['similarity']:.2f})" for x in top_k[1:]]
	)

	system_message = (
	"You are a scientific biodiversity assistant. "
	"Provide factual, neutral descriptions of species. "
	"Do not mention instructions, rules, or formatting. "
	"Do not use markdown or bullet points."
	)

	user_message = (
	f"Species: {species}\n"
	f"Confidence: {confidence:.2f}\n\n"
	f"Alternative candidates:\n"
	f"{alternatives if alternatives else 'None'}\n\n"
	"Provide a factual description covering physical traits, "
	"natural habitat and distribution, diet or ecological role, "
	"conservation status, and relevant human interactions. "

	)

	return [
	{"role": "system", "content": system_message},
	{"role": "user", "content": user_message},
	]



	@torch.no_grad()
	def explain_species(
	species: str,
	confidence: float,
	domain: str,
	top_k: list \| None = None,
	max_tokens: int = 512,
	):
	"""
	Returns:
	{
	"common_name": str \| None,
	"description": str
	}
	"""

	COMMON_NAME_MIN_CONFIDENCE = 0.01
	common_name = None

	if confidence >= COMMON_NAME_MIN_CONFIDENCE:
	common_name = infer_common_name(species, domain)

	messages = _build_messages(species, confidence, domain, top_k)

	text = tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True
	)

	model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

	outputs = model.generate(
	**model_inputs,
	max_new_tokens=max_tokens,
	do_sample=False,
	temperature=0.0,
	pad_token_id=tokenizer.eos_token_id,
	)

	generated_ids = outputs[:, model_inputs.input_ids.shape[1]:]
	response = tokenizer.decode(
	generated_ids[0],
	skip_special_tokens=True
	)

	return {
	"common_name": common_name,
	"description": strip_markdown(response),
	}