koichi12
/

llm-scripts

Model card Files Files and versions

llm-scripts / scripts /yans /lm-evaluation-harness /lm_eval /models /gguf.py

koichi12's picture

Add files using upload-large-folder tool

84a9380 verified over 1 year ago

history blame contribute delete

4.78 kB

	import logging
	import time

	import requests
	from requests.exceptions import RequestException
	from tqdm import tqdm

	from lm_eval.api.model import LM
	from lm_eval.api.registry import register_model


	logger = logging.getLogger(__name__)


	def get_result(logprobs, context_length):
	is_greedy = True
	offsets = logprobs["text_offset"]
	tokens = logprobs["tokens"]
	tokens_logprobs = logprobs["token_logprobs"]

	idx = 0
	while offsets[idx] < context_length:
	idx += 1
	continuation_logprobs = sum(tokens_logprobs[idx:-1])
	for i in range(idx, len(tokens)):
	token = tokens[i]
	top_tokens = logprobs["top_logprobs"][i]
	top_token = max(top_tokens.keys(), key=lambda x: top_tokens[x])
	if top_token != token:
	is_greedy = False
	break

	return continuation_logprobs, is_greedy


	@register_model("gguf", "ggml")
	class GGUFLM(LM):
	def __init__(self, base_url=None, max_length=2048, **kwargs):
	super().__init__()
	self.base_url = base_url
	assert self.base_url, "must pass `base_url` to use GGUF LM!"
	self.logprobs = 10
	self.temperature = 0.0
	self.max_length = max_length

	def gguf_completion(
	self, context, continuation=None, stop=None, retries=3, delay=5, **kwargs
	):
	for _ in range(retries):
	try:
	prompt = context
	request = {
	"prompt": prompt,
	"logprobs": self.logprobs,
	"temperature": self.temperature,
	}
	if continuation:
	prompt += continuation
	request.update({"prompt": prompt, "max_tokens": 1, "echo": True})
	if stop is not None:
	request["stop"] = stop
	response = requests.post(
	f"{self.base_url}/v1/completions", json=request
	)
	response.raise_for_status()
	return response.json()
	except RequestException as e:
	logger.error(f"RequestException: {e}")
	time.sleep(delay) # wait before retrying
	else:
	raise Exception(f"Failed to get a valid response after {retries} retries.")

	def loglikelihood(self, requests, disable_tqdm: bool = False):
	if not requests:
	return []
	res = []
	for context, continuation in tqdm(
	[req.args for req in requests], disable=disable_tqdm
	):
	response = self.gguf_completion(context=context, continuation=continuation)
	if response and "choices" in response and response["choices"]:
	choice = response["choices"][0]
	logprobs = choice.get("logprobs")
	if (
	logprobs
	and "token_logprobs" in logprobs
	and logprobs["token_logprobs"]
	):
	logprob, is_greedy = get_result(logprobs, len(context))
	res.append((logprob, is_greedy))
	else:
	logger.warning(
	"Invalid logprobs data. Expected 'logprobs' to contain 'token_logprobs' list."
	)
	else:
	logger.error(
	f"Invalid response for loglikelihood. Response: {response}"
	)
	assert False
	return res

	def generate_until(self, requests, disable_tqdm: bool = False):
	if not requests:
	return []

	res = []
	for request in tqdm([req.args for req in requests], disable=disable_tqdm):
	inp = request[0]
	request_args = request[1]
	until = request_args.get("until", ["</s>"])
	response = self.gguf_completion(context=inp, stop=until)
	if response and "choices" in response and response["choices"]:
	choice = response["choices"][0]
	if "text" in choice:
	generated_text = choice["text"].strip()
	res.append(generated_text)
	else:
	logger.error(
	f"Invalid response for greedy_until. Response: {response}"
	)
	res.append(None) # Add default value in case of error
	else:
	logger.error(f"Invalid response for greedy_until. Response: {response}")
	res.append(None) # Add default value in case of error
	return res

	def loglikelihood_rolling(self, requests, disable_tqdm: bool = False):
	raise NotImplementedError(
	"loglikelihood_rolling not yet supported for GGUF models"
	)