HumanLikeness

Runtime error

App Files Files Community

HumanLikeness / src /backend /model_operations.py

XufengDuan

update scripts

d0d5660 over 1 year ago

raw

history blame contribute delete

58.7 kB

	import os
	import time
	from datetime import datetime
	import logging
	from pathlib import Path
	import requests
	import json

	# import numpy as np
	import pandas as pd
	import spacy
	from sentence_transformers import CrossEncoder
	import litellm
	# from litellm import completion
	from tqdm import tqdm
	from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, AutoConfig, pipeline
	# from accelerate import PartialState
	# from accelerate.inference import prepare_pippy
	import torch
	# import cohere
	# from openai import OpenAI
	# # import google
	import google.generativeai as genai

	import src.backend.util as util
	import src.envs as envs
	#
	# # import pandas as pd
	# import scipy
	from scipy.spatial.distance import jensenshannon
	from scipy.stats import bootstrap
	import numpy as np
	import spacy_transformers

	import subprocess

	# Run the command to download the spaCy model
	# subprocess.run(["python", "-m", "spacy", "download", "en_core_web_lg"], check=True)
	# subprocess.run(["python", "-m", "spacy", "download", "en_core_web_sm"], check=True)
	# subprocess.run(["pip", "install", "spacy-transformers"], check=True)
	# subprocess.run(["pip", "install", "curated-transformers"], check=True)

	# Load spacy model for word tokenization
	# nlp = spacy.load("en_core_web_sm")
	try:
	nlp1 = spacy.load("en_core_web_sm")
	except OSError:
	print("Can not load spacy model")

	# litellm.set_verbose=False
	litellm.set_verbose=True
	# Set up basic configuration for logging
	logging.basicConfig(level=logging.INFO,
	format='%(asctime)s - %(levelname)s - %(message)s')



	class ModelLoadingException(Exception):
	"""Exception raised for errors in loading a model.

	Attributes:
	model_id (str): The model identifier.
	revision (str): The model revision.
	"""

	def __init__(self, model_id, revision, messages="Error initializing model"):
	self.model_id = model_id
	self.revision = revision
	super().__init__(f"{messages} id={model_id} revision={revision}")


	class ResponseGenerator:
	"""A class to generate responses using a causal language model.

	Attributes:
	model (str): huggingface/{model_id}
	api_base (str): https://api-inference.huggingface.co/models/{model_id}
	responses_df (DataFrame): DataFrame to store generated responses.
	revision (str): Model revision.
	avg_length (float): Average length of responses.
	answer_rate (float): Rate of non-empty responses.
	"""

	def __init__(self, model_id, revision):
	"""
	Initializes the ResponseGenerator with a model.

	Args:
	model_id (str): Identifier for the model.
	revision (str): Revision of the model.
	"""
	self.model_id = model_id
	self.model = f"huggingface/{model_id}"
	self.api_base = f"https://api-inference.huggingface.co/models/{model_id}"
	self.responses_df = pd.DataFrame()
	self.revision = revision
	self.avg_length = None
	self.answer_rate = None
	self.exceptions = None
	self.local_model = None

	def generate_response(self, dataset, df_prompt, save_path=None):
	"""Generate responses for a given DataFrame of source docs.
	Args:
	dataset (DataFrame): DataFrame containing source docs.

	Returns:
	responses_df (DataFrame): Generated responses by the model.
	"""
	exceptions = []
	if (save_path is not None) and os.path.exists(save_path):
	'''已存在文件,可以读取已经存在的测试文本'''
	self.responses_df = pd.read_csv(save_path)
	# print(self.responses_df['Experiment'])

	print(f'Loaded generated responses from {save_path}')
	else:
	'''测试文件不存在，则需要调用指定的模型来进行测试'''
	# prompt = {}
	# for index, row in tqdm(df_prompt.iterrows(), total=df_prompt.shape[0]):
	# prompt['E' + row['Item']] = row['Prompt']
	xls = pd.ExcelFile(dataset)
	sheet_names = xls.sheet_names
	# sheet_names = df.sheetnames
	print(f"Total: {len(sheet_names)}")
	print(sheet_names)

	Experiment_ID, Questions_ID, Item_ID, Condition, User_prompt, Response, Factor_2, Stimuli_1 = [], [], [], [], [] ,[], [], []
	exit_outer_loop = False # bad model
	for i, sheet_name in enumerate(sheet_names, start=1):
	if exit_outer_loop:
	break
	# 读取每个工作表
	# if i > 2 and i ==1:
	# continue
	print(i, sheet_name)
	df_sheet = pd.read_excel(xls, sheet_name=sheet_name)

	# 假设第一列是'Prompt0'，但这里我们使用列名来避免硬编码
	if 'Prompt0' in df_sheet.columns:
	prompt_column = df_sheet['Prompt0']
	else:
	# 如果'Prompt0'列不存在，则跳过该工作表或进行其他处理
	continue
	if i == 3 :
	word1_list = df_sheet['Stimuli-2']
	word2_list = df_sheet['Stimuli-3']
	V2_column = []
	for jj in range(len(word1_list)):
	V2_column.append(word1_list[jj] + '_' + word2_list[jj])
	# print(V2_column)
	elif i == 9:
	V2_column = df_sheet['V2'] #SL, LS
	elif i == 4 or i == 6 :
	V2_column = df_sheet['Stimuli-2'] #Stimuli-2
	else:
	V2_column = [""] * len(prompt_column)
	q_column = df_sheet["ID"]
	Item_column = df_sheet["Item"]
	Condition_column = df_sheet["Condition"]
	Stimuli_1_column = df_sheet["Stimuli-1"]
	if 'Stimuli-2' in df_sheet.columns:
	Stimuli_2_column = df_sheet["Stimuli-2"]

	for j, prompt_value in enumerate(tqdm(prompt_column, desc=f"Processing {sheet_name}"), start=0):
	if exit_outer_loop:
	break
	ID = 'E' + str(i)
	# q_ID = ID + '_' + str(j)

	# print(ID, q_ID, prompt_value)
	system_prompt = envs.SYSTEM_PROMPT
	_user_prompt = prompt_value
	print(_user_prompt)
	for ii in range(100):
	# user_prompt = f"{envs.USER_PROMPT}\nPassage:\n{_source}"
	while True:
	try:
	'''调用'''
	print(self.model_id.lower(),'-',ID,'-',j,'-',ii)

	_response = self.send_request(system_prompt, _user_prompt)
	# print(_response)
	# print(f"Finish index {index}")
	break
	except Exception as e:
	if 'Rate limit reached' in str(e):
	wait_time = 3660
	current_time = datetime.now().strftime('%H:%M:%S')
	print(f"Rate limit hit at {current_time}. Waiting for 1 hour before retrying...")
	time.sleep(wait_time)
	elif 'is currently loading' in str(e):
	wait_time = 200
	print(f"Model is loading, wait for {wait_time}")
	time.sleep(wait_time)
	elif '429 Resource has been exhausted' in str(e): # for gemini models
	wait_time = 60
	print(f"Quota has reached, wait for {wait_time}")
	time.sleep(wait_time)
	else:
	max_retries = 30
	retries = 0
	wait_time = 120

	while retries < max_retries:
	print(f"Error at index {i}: {e}")
	time.sleep(wait_time)
	try:
	_response = self.send_request(system_prompt, _user_prompt)

	break
	except Exception as ee:
	exceptions.append(ee)
	retries += 1
	print(f"Retry {retries}/{max_retries} failed at index {i}: {ee}")
	if retries >= max_retries:
	exit_outer_loop = True
	break


	if exit_outer_loop:
	break
	if i == 5:
	#print(_response)
	# For E5, the responses might be in the following formats:
	# "Sure\n\nThe first sentence of the response\n\nThe second sentence of the response"
	# "The first sentence of the response\n\nThe second sentence of the response"
	# "XXX: The first sentence of the response\n\nXXX: The second sentence of the response"
	# "Sure\n\nXXX: The first sentence of the response\n\nXXX: The second sentence of the response"
	# "Sure\n\nThe first sentence of the response\n\nThe second sentence of the response\n\n"

	def extract_responses(text, trigger_words=None):
	if trigger_words is None:
	trigger_words = ["sure", "okay", "yes"]

	try:
	# Split the text into sentences
	sentences = text.split('\n')
	# Remove empty sentences
	sentences = [sentence.strip() for sentence in sentences if sentence.strip()]
	# Remove the first sentence if it has a : in it,
	sentences = [sentence.split(':', 1)[-1].strip() if ':' in sentence else sentence for
	sentence in sentences]
	# Remove empty sentences
	sentences = [sentence.strip() for sentence in sentences if sentence.strip()]
	# Remove the first sentence if it is a trigger word
	if any(sentences[0].lower().startswith(word) for word in trigger_words) and len(
	sentences) > 2:
	_response1 = sentences[1].strip() if len(sentences) > 1 else None
	_response2 = sentences[2].strip() if len(sentences) > 2 else None
	else:
	_response1 = sentences[0].strip() if len(sentences) > 0 else None
	_response2 = sentences[1].strip() if len(sentences) > 1 else None


	except Exception as e:
	print(f"Error occurred: {e}")
	_response1, _response2 = None, None

	print(_response1), print(_response2)

	return _response1, _response2

	_response1, _response2 = extract_responses(_response)

	Experiment_ID.append(ID)
	Questions_ID.append(q_column[j])
	User_prompt.append(_user_prompt)
	Response.append(_response2)
	Factor_2.append(_response)
	Stimuli_1.append(Stimuli_2_column[j])
	Item_ID.append(Item_column[j])
	Condition.append(Condition_column[j])

	# the first sentence in the response is saved as E51
	Experiment_ID.append(ID + '1')
	Questions_ID.append(str(q_column[j]) + '1')
	User_prompt.append(_user_prompt)
	Response.append(_response1)
	Factor_2.append(_response)
	Stimuli_1.append(Stimuli_1_column[j])
	Item_ID.append(Item_column[j])
	Condition.append(Condition_column[j])

	else:
	Experiment_ID.append(ID)
	Questions_ID.append(q_column[j])
	User_prompt.append(_user_prompt)

	Response.append(_response)
	if i == 6:
	Factor_2.append(Condition_column[j])
	Stimuli_1.append(V2_column[j])
	else:
	Factor_2.append(V2_column[j])
	Stimuli_1.append(Stimuli_1_column[j])
	Item_ID.append(Item_column[j])
	Condition.append(Condition_column[j])

	# Sleep to prevent hitting rate limits too frequently
	time.sleep(1)

	self.responses_df = pd.DataFrame(list(zip(Experiment_ID, Questions_ID, Item_ID, Condition, User_prompt, Response, Factor_2, Stimuli_1)),
	columns=["Experiment", "Question_ID", "Item", "Condition", "User_prompt", "Response","Factor 2","Stimuli 1"])

	if save_path is not None:
	print(f'Save responses to {save_path}')
	fpath = Path(save_path)
	fpath.parent.mkdir(parents=True, exist_ok=True)
	self.responses_df.to_csv(fpath)

	self.exceptions = exceptions
	# self._compute_avg_length()
	# self._compute_answer_rate()

	return self.responses_df

	def send_request(self, system_prompt: str, user_prompt: str):
	# Using Together AI API
	using_together_api = False
	together_ai_api_models = ['mixtral', 'dbrx', 'wizardlm']
	for together_ai_api_model in together_ai_api_models:
	if together_ai_api_model in self.model_id.lower():
	#using_together_api = True
	break
	# print('适用哪一种LLM',together_ai_api_model , using_together_api)
	# print(self.model_id.lower()) #meta-llama/llama-2-7b-chat-hf
	# print('local',self.local_model) $None
	# exit()
	# if 'mixtral' in self.model_id.lower() or 'dbrx' in self.model_id.lower() or 'wizardlm' in self.model_id.lower(): # For mixtral and dbrx models, use Together AI API
	if using_together_api:
	# suffix = "completions" if ('mixtral' in self.model_id.lower() or 'base' in self.model_id.lower()) else "chat/completions"
	suffix = "chat/completions"
	url = f"https://api.together.xyz/v1/{suffix}"

	payload = {
	"model": self.model_id,
	# "max_tokens": 4096,
	'max_new_tokens': 100,
	# "a": 0.0,
	# 'repetition_penalty': 1.1 if 'mixtral' in self.model_id.lower() else 1
	}
	payload['messages'] = [{"role": "system", "content": system_prompt},
	{"role": "user", "content": user_prompt}]
	headers = {
	"accept": "application/json",
	"content-type": "application/json",
	"Authorization": f"Bearer {os.environ['TOGETHER_API_KEY']}"
	}

	response = requests.post(url, json=payload, headers=headers)
	try:
	result = json.loads(response.text)
	# print(result)
	result = result["choices"][0]
	if 'message' in result:
	result = result["message"]["content"].strip()
	else:
	result = result["text"]
	result_candidates = [result_cancdidate for result_cancdidate in result.split('\n\n') if len(result_cancdidate) > 0]
	result = result_candidates[0]
	print(result)
	except:
	print(response)
	result = ''
	print(result)
	return result
	if self.local_model: # cannot call API. using local model
	messages=[
	{"role": "system", "content": system_prompt}, # gemma-1.1 does not accept system role
	{"role": "user", "content": user_prompt}
	]
	try: # some models support pipeline
	pipe = pipeline(
	"text-generation",
	model=self.local_model,
	tokenizer=self.tokenizer,
	)

	generation_args = {
	"max_new_tokens": 100,
	"return_full_text": False,
	#"temperature": 0.0,
	"do_sample": False,
	}

	output = pipe(messages, **generation_args)
	result = output[0]['generated_text']
	print(result)
	except:
	prompt = self.tokenizer.apply_chat_template(messages,add_generation_prompt=True, tokenize=False)
	print(prompt)
	input_ids = self.tokenizer(prompt, return_tensors="pt").to('cuda')
	with torch.no_grad():
	outputs = self.local_model.generate(**input_ids, max_new_tokens=100, do_sample=True, pad_token_id=self.tokenizer.eos_token_id)
	result = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
	result = result.replace(prompt[0], '')
	print(result)
	return result
	# Using OpenAI API
	elif 'gpt' in self.model_id.lower():
	response = litellm.completion(
	model=self.model_id.replace('openai/', ''),
	messages=[{"role": "system", "content": system_prompt},
	{"role": "user", "content": user_prompt}],
	# temperature=0.0,
	max_tokens=100,
	api_key=os.getenv('OpenAI_key')
	)
	result = response['choices'][0]['message']['content']
	# print()
	# print(result)
	return result

	elif self.local_model is None:
	import random
	def get_random_token():
	i = random.randint(1, 20)
	token = getattr(envs, f"TOKEN{i}")
	return token, i

	tokens_tried = set()

	while len(tokens_tried) < 10:
	token,i = get_random_token()

	if token in tokens_tried:
	continue

	tokens_tried.add(token)
	print(f"Trying with token: TOKEN{i}")

	try:
	from huggingface_hub import InferenceClient
	client = InferenceClient(self.model_id, api_key=token, headers={"X-use-cache": "false"})
	messages = [{"role": "system", "content": system_prompt}, {"role": "user", "content": user_prompt}]
	result = None

	while result is None:
	outputs = client.chat_completion(messages, max_tokens=100)
	result = outputs['choices'][0]['message']['content']

	if result is None:
	time.sleep(1) # Optional: Add a small delay before retrying

	return result

	except Exception as e:
	print(f"Error with token: {token}, trying another token...")
	continue

	raise Exception("All tokens failed.")

	elif 'gemini' in self.model_id.lower():
	genai.configure(api_key=os.getenv('GOOGLE_AI_API_KEY'))
	generation_config = {
	# "temperature": 0,
	# "top_p": 0.95, # cannot change
	# "top_k": 0,
	"max_output_tokens": 100,
	# "response_mime_type": "application/json",
	}
	safety_settings = [
	{
	"category": "HARM_CATEGORY_HARASSMENT",
	"threshold": "BLOCK_NONE"
	},
	{
	"category": "HARM_CATEGORY_HATE_SPEECH",
	"threshold": "BLOCK_NONE"
	},
	{
	"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
	"threshold": "BLOCK_NONE"
	},
	{
	"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
	"threshold": "BLOCK_NONE"
	},
	]
	model = genai.GenerativeModel(
	model_name="gemini-1.5-pro-latest" if "gemini-1.5-pro" in self.model_id.lower() else
	self.model_id.lower().split('google/')[-1],
	generation_config=generation_config,
	system_instruction=system_prompt,
	safety_settings=safety_settings)
	convo = model.start_chat(history=[])
	convo.send_message(user_prompt)
	# print(convo.last)
	result = convo.last.text
	print(result)
	return result

	# exit()
	# Using local model




	class EvaluationModel:
	"""A class to evaluate generated responses.

	Attributes:
	model (CrossEncoder): The evaluation model.
	scores (list): List of scores for the responses.
	humanlike_score (float): Human-likeness score


	"""

	def __init__(self):
	"""
	Initializes the EvaluationModel.
	"""
	self.scores = []
	self.humanlike_score = None

	def code_results_llm_cleaned(self, responses_df):
	'''code results from LLM's response'''
	output = []
	'''database for Exp4'''
	item4 = pd.read_csv(envs.ITEM_4_DATA)
	wordpair2code = {}
	for j in range(len(item4['Coding'])):
	wordpair2code[item4['Pair'][j]] = item4['Coding'][j]
	'''verb for Exp5'''
	item5 = pd.read_csv(envs.ITEM_5_DATA)
	# item corresponding to verb, same item id corresponding to verb pair
	item2verb2 = {}
	item2verb1 = {}

	Stimuli1, Stimuli2 = {}, {}
	for j in range(len(item5['Item'])):
	item2verb1[item5['Item'][j]] = item5['Verb1'][j]
	item2verb2[item5['Item'][j]] = item5['Verb2'][j]
	Stimuli1[item5['ID'][j]] = item5['Stimuli-1'][j]
	Stimuli2[item5['ID'][j]] = item5['Stimuli-2'][j]

	male_keyword = ["he", "his", "himself"]
	female_keyword = ["she", "her", "herself"]
	#print(len(responses_df["Experiment"]))
	for i in range(len(responses_df["Experiment"])):

	print(i, "/", len(responses_df["Experiment"]))
	# vote_1_1, vote_1_2, vote_1_3 = 0, 0, 0
	# print()
	if pd.isna(responses_df["Response"][i]):
	output.append("Other")
	continue
	rs = responses_df["Response"][i].strip().lower()
	rs = rs.replace('"', '').replace(" ", " ").replace('.', '')
	lines = rs.split("\n")
	filtered_lines = [line for line in lines if line and not (line.endswith(":") or line.endswith("："))]
	filtered_lines = [r.split(':', 1)[-1].strip() if ':' in r else r for
	r in filtered_lines]
	rs = "\n".join(filtered_lines)
	rs = rs.strip()
	'''Exp1'''
	if responses_df["Experiment"][i] == "E1":
	#print("E1", rs)
	if rs == "round":
	# vote_1_1 += 1
	output.append("Round")
	elif rs == "spiky":
	output.append("Spiky")
	else:
	output.append("Other")

	'''Exp2'''

	elif responses_df["Experiment"][i] == "E2":
	# rs = responses_df["Response"][i].strip()
	rs = rs.split(' ')
	#print("E2", rs)
	male, female = 0, 0
	for word in rs:
	if word in female_keyword and male == 0:
	female = 1
	output.append("Female")
	break
	if word in male_keyword and female == 0:
	male = 1
	output.append("Male")
	break
	if male == 0 and female == 0:
	output.append("Other")

	'''Exp3'''
	elif responses_df["Experiment"][i] == "E3":
	# rs = responses_df["Response"][i].strip()
	#print("E3", rs)
	pair = responses_df["Factor 2"][i]
	word1, word2 = pair.replace(".", "").split('_')

	if responses_df["Item"][i] == 12:
	output.append("Other")
	else:
	words = rs.split() # split the response into words
	if any(word == word1 for word in words) and any(word == word2 for word in words):
	output.append("Other")
	else:
	if any(word.lower() == word1.lower() for word in words):
	if len(word1) > len(word2):
	output.append("Long")
	else:
	output.append("Short")
	elif any(word.lower() == word2.lower() for word in words):
	if len(word1) > len(word2):
	output.append("Short")
	else:
	output.append("Long")
	else:
	if len(words) > 1:
	# joint the words using " "
	word = " ".join(words)
	if word.lower() == word1.lower():
	if len(word1) > len(word2):
	output.append("Long")
	else:
	output.append("Short")
	elif word.lower() == word2.lower():
	if len(word1) > len(word2):
	output.append("Short")
	else:
	output.append("Long")
	else:
	output.append("Other")
	else:
	output.append("Other")


	'''Exp4'''

	elif responses_df["Experiment"][i] == "E4":
	lines = rs.split("\n")
	filtered_lines = []
	if len(lines) > 1:
	for r in lines[1:]:
	if ':' in r:
	filtered_lines.append(r.split(':', 1)[-1].strip())
	else:
	filtered_lines.append(r)
	filtered_lines.insert(0, lines[0])
	else:
	filtered_lines = lines
	# print(filtered_lines)

	filtered_lines = [r.split('-', 1)[-1].strip() if '-' in r else r for r in filtered_lines]
	rs = "\n".join(filtered_lines)

	filtered_lines = [r.split(':', 1)[-1].strip() if ':' in r else r for r in rs.split(";")]
	filtered_lines = [r.split('-', 1)[-1].strip() if '-' in r else r for r in filtered_lines]
	rs = ";".join(filtered_lines).strip()
	try:
	meaning_word = rs.split(";")[4].replace(" ", '')
	except IndexError:
	try:
	meaning_word = rs.split("\n")[4].replace(" ", '')
	except IndexError:
	output.append("Other")
	continue
	except Exception as e:
	print(f"Unexpected error: {e}")
	output.append("Other")
	continue

	target = responses_df["Factor 2"][i].strip().lower()
	pair = target + "_" + meaning_word
	#print("E4:", pair)

	if pair in wordpair2code.keys():
	output.append(wordpair2code[pair])
	else:
	output.append("Other")

	'''Exp5'''
	elif responses_df["Experiment"][i] == "E5" or responses_df["Experiment"][i] == "E51":
	# sentence = responses_df["Response"][i].strip()
	item_id = responses_df["Item"][i]
	question_id = responses_df["Question_ID"][i]

	sti1, sti2 = "", ""

	if responses_df["Experiment"][i] == "E51":
	sti1 = Stimuli1[question_id[0:-1]].lower().replace("...", "")
	#sti2 = Stimuli2[question_id[0:-1]].lower().replace("...", "")
	verb = item2verb1[item_id].lower()

	sentence = sti1 + " " + rs.replace(sti1, "")
	#print("E5", verb, sentence)
	if responses_df["Experiment"][i] == "E5":
	#sti1 = Stimuli1[question_id].lower().replace("...", "")
	# print(sti1)
	sti2 = Stimuli2[question_id].lower().replace("...", "")

	verb = item2verb2[item_id].lower()
	sentence = sti2 + " " + rs.replace(sti2, "")
	#print("E5", verb, sentence)

	doc = nlp1(sentence.replace(" ", " "))
	# print(doc)
	# print()
	verb_token = None
	for token in doc:
	# print(token.lemma_)
	if token.lemma_ == verb:
	verb_token = token
	break
	# exit()
	pobj, dative = None, None
	# print(verb_token.children)
	# exit()
	if verb_token is not None:
	for child in verb_token.children:
	# print(child)
	if (child.dep_ == 'dative' and child.pos_ == "ADP") or (
	child.text == "to" and child.dep_ == 'prep' and child.pos_ == "ADP"):
	pobj = child.text
	if child.dep_ == 'dative':
	dative = child.text

	# print("E5", pobj, dative)
	# exit()

	if pobj:
	output.append("PO")
	elif dative:
	output.append("DO")
	else:
	# print("Other", sentence, pobj, dative)
	# exit()
	output.append("Other")



	'''Exp6'''

	elif responses_df["Experiment"][i] == "E6":
	sentence = responses_df["Stimuli 1"][i].strip().lower()
	#print("E6", sentence)
	doc = nlp1(sentence)
	subject = "None"
	obj = "None"
	pobj_list = [] # To collect all prepositional objects

	for token in doc:
	if token.dep_ == "nsubj":
	subject = token.text
	elif token.dep_ == "dobj":
	obj = token.text
	elif token.dep_ == "pobj":
	pobj_list.append(token.text) # Collect prepositional objects

	rs_list = rs.lower().split()
	if subject in rs_list and (obj in rs_list or any(pobj == r for pobj in pobj_list for r in rs_list)):
	output.append("Other")
	elif subject in rs_list:
	output.append("VP")
	elif obj in rs_list or any(pobj == r for pobj in pobj_list for r in rs_list):
	output.append("NP")
	else:
	output.append("Other")

	'''Exp7'''
	elif responses_df["Experiment"][i] == "E7":
	# rs = responses_df["Response"][i].strip().lower()
	rs = rs.replace(".", "").replace(",", "").lower()
	#print("E7", rs)
	if "yes" in rs and "no" in rs:
	output.append("Other")
	elif "no" in rs:
	output.append("0")
	elif "yes" in rs:
	output.append("1")
	else:
	output.append("Other")

	'''Exp8'''
	elif responses_df["Experiment"][i] == "E8":
	# rs = responses_df["Response"][i].strip()
	#print("E8", rs)
	if "something is wrong with the question" in rs:
	output.append("1")
	else:
	output.append("0")

	'''Exp9'''
	elif responses_df["Experiment"][i] == "E9":
	male, female = 0, 0

	# rs = responses_df["Response"][i].strip()
	if "because" in rs:
	rs = rs.replace("because because", "because").split("because")[1]
	else:
	rs = rs
	condition = responses_df["Factor 2"][i].strip()
	rs = rs.split(" ")
	for w in rs:
	if w in male_keyword and female != 1:
	male = 1
	break
	if w in female_keyword and male != 1:
	female = 1
	break
	#print("E9", "condition", condition, "male", male, "female", female)
	if male == 0 and female == 0:
	output.append('Other')
	else:
	if male == 1 and female == 0:
	if condition == "MF":
	output.append("Subject")
	elif condition == "FM":
	output.append("Object")
	else:
	output.append("Other")
	elif female == 1 and male == 0:
	if condition == "MF":
	output.append("Object")
	elif condition == "FM":
	output.append("Subject")
	else:
	output.append("Other")

	'''Exp10'''
	elif responses_df["Experiment"][i] == "E10":
	# rs = responses_df["Response"][i].strip()
	rs = rs.replace(".", "")
	if rs == "yes":
	output.append("1")
	else:
	output.append("0")
	else:
	#print("can;t find the Exp:", responses_df["Experiment"][i])
	output.append("NA")
	# print(output)
	# exit()
	'''LLM'''
	print(len(output))
	import re
	def clean_text(text):
	if isinstance(text, str):
	return re.sub(r'[^\x00-\x7F]+', '', text)
	return text

	responses_df["Experiment"] = responses_df["Experiment"].apply(clean_text)
	responses_df["Question_ID"] = responses_df["Question_ID"].apply(clean_text)
	responses_df["Item"] = responses_df["Item"].apply(clean_text)
	responses_df["Response"] = responses_df["Response"].apply(clean_text)

	output = [str(item) for item in output]

	self.data = pd.DataFrame(list(
	zip(responses_df["Experiment"], responses_df["Question_ID"], responses_df["Item"], responses_df["Response"],output)),
	columns=["Experiment", "Question_ID", "Item", "Response","Coding"])

	return self.data

	def code_results_llm(self, responses_df):
	'''code results from LLM's response'''
	output = []
	'''database for Exp4'''
	item4 = pd.read_csv(envs.ITEM_4_DATA)
	wordpair2code = {}
	for j in range(len(item4['Coding'])):
	wordpair2code[item4['Pair'][j]] = item4['Coding'][j]
	'''verb for Exp5'''
	item5 = pd.read_csv(envs.ITEM_5_DATA)
	# item corresponding to verb, same item id corresponding to verb pair
	item2verb2 = {}
	item2verb1 = {}

	Stimuli1, Stimuli2 = {}, {}
	for j in range(len(item5['Item'])):
	item2verb1[item5['Item'][j]] = item5['Verb1'][j]
	item2verb2[item5['Item'][j]] = item5['Verb2'][j]
	Stimuli1[item5['ID'][j]] = item5['Stimuli-1'][j]
	Stimuli2[item5['ID'][j]] = item5['Stimuli-2'][j]

	male_keyword = ["he", "his", "himself"]
	female_keyword = ["she", "her", "herself"]
	#print(len(responses_df["Experiment"]))
	for i in range(len(responses_df["Experiment"])):


	print(i, "/", len(responses_df["Experiment"]))
	# vote_1_1, vote_1_2, vote_1_3 = 0, 0, 0
	# print()
	if pd.isna(responses_df["Response"][i]):
	output.append("Other")
	continue
	rs = responses_df["Response"][i].strip().lower()
	print(rs)
	rs = rs.replace('"', '').replace(" ", " ").replace('.', '')
	#lines = rs.split("\n")
	#filtered_lines = [line for line in lines if line and not (line.endswith(":") or line.endswith("："))]
	# filtered_lines = [r.split(':', 1)[-1].strip() if ':' in r else r for
	# r in filtered_lines]
	# rs = "\n".join(filtered_lines)
	# rs = rs.strip()
	'''Exp1'''
	if responses_df["Experiment"][i] == "E1":
	rs_lower = rs.lower()
	if "round" in rs_lower and "spiky" in rs_lower:
	output.append("Other")
	elif "round" in rs_lower:
	output.append("Round")
	elif "spiky" in rs_lower:
	output.append("Spiky")
	else:
	output.append("Other")

	'''Exp2'''

	elif responses_df["Experiment"][i] == "E2":
	# rs = responses_df["Response"][i].strip()
	rs = rs.split(' ')
	#print("E2", rs)
	male, female = 0, 0
	for word in rs:
	if word in female_keyword and male == 0:
	female = 1
	output.append("Female")
	break
	if word in male_keyword and female == 0:
	male = 1
	output.append("Male")
	break
	if male == 0 and female == 0:
	output.append("Other")

	'''Exp3'''
	elif responses_df["Experiment"][i] == "E3":
	# rs = responses_df["Response"][i].strip()
	#print("E3", rs)
	pair = responses_df["Factor 2"][i]
	word1, word2 = pair.replace(".", "").split('_')

	if responses_df["Item"][i] == 12:
	output.append("Other")
	else:
	words = rs.split() # split the response into words
	if any(word == word1 for word in words) and any(word == word2 for word in words):
	output.append("Other")
	else:
	if any(word.lower() == word1.lower() for word in words):
	if len(word1) > len(word2):
	output.append("Long")
	else:
	output.append("Short")
	elif any(word.lower() == word2.lower() for word in words):
	if len(word1) > len(word2):
	output.append("Short")
	else:
	output.append("Long")
	else:
	if len(words) > 1:
	# joint the words using " "
	word = " ".join(words)
	if word.lower() == word1.lower():
	if len(word1) > len(word2):
	output.append("Long")
	else:
	output.append("Short")
	elif word.lower() == word2.lower():
	if len(word1) > len(word2):
	output.append("Short")
	else:
	output.append("Long")
	else:
	output.append("Other")
	else:
	output.append("Other")


	'''Exp4'''

	elif responses_df["Experiment"][i] == "E4":
	lines = rs.split("\n")
	filtered_lines = []
	if len(lines) > 1:
	for r in lines[1:]:
	if ':' in r:
	filtered_lines.append(r.split(':', 1)[-1].strip())
	else:
	filtered_lines.append(r)
	filtered_lines.insert(0, lines[0])
	else:
	filtered_lines = lines
	# print(filtered_lines)

	#filtered_lines = [r.split('-', 1)[-1].strip() if '-' in r else r for r in filtered_lines]
	#rs = "\n".join(filtered_lines)

	#filtered_lines = [r.split(':', 1)[-1].strip() if ':' in r else r for r in rs.split(";")]
	#filtered_lines = [r.split('-', 1)[-1].strip() if '-' in r else r for r in filtered_lines]
	rs = ";".join(filtered_lines).strip()
	try:
	meaning_word = rs.split(";")[4].replace(" ", '')
	except IndexError:
	try:
	meaning_word = rs.split("\n")[4].replace(" ", '')
	except IndexError:
	output.append("Other")
	continue
	except Exception as e:
	print(f"Unexpected error: {e}")
	output.append("Other")
	continue

	target = responses_df["Factor 2"][i].strip().lower()
	pair = target + "_" + meaning_word
	#print("E4:", pair)

	if pair in wordpair2code.keys():
	output.append(wordpair2code[pair])
	else:
	output.append("Other")

	'''Exp5'''
	elif responses_df["Experiment"][i] == "E5" or responses_df["Experiment"][i] == "E51":
	# sentence = responses_df["Response"][i].strip()
	item_id = responses_df["Item"][i]
	question_id = responses_df["Question_ID"][i]

	if responses_df["Experiment"][i] == "E51":
	sti1 = Stimuli1[question_id[0:-1]].lower().replace("...", "")
	#sti2 = Stimuli2[question_id[0:-1]].lower().replace("...", "")
	verb = item2verb1[item_id].lower()

	sentence = sti1 + " " + rs.replace(sti1, "")
	#print("E5", verb, sentence)
	if responses_df["Experiment"][i] == "E5":
	#sti1 = Stimuli1[question_id].lower().replace("...", "")
	# print(sti1)
	sti2 = Stimuli2[question_id].lower().replace("...", "")

	verb = item2verb2[item_id].lower()
	sentence = sti2 + " " + rs.replace(sti2, "")
	#print("E5", verb, sentence)

	doc = nlp1(sentence.replace(" ", " "))
	# print(doc)
	# print()
	verb_token = None
	for token in doc:
	# print(token.lemma_)
	if token.lemma_ == verb:
	verb_token = token
	break
	# exit()
	pobj, dative = None, None
	# print(verb_token.children)
	# exit()
	if verb_token is not None:
	for child in verb_token.children:
	# print(child)
	if (child.dep_ == 'dative' and child.pos_ == "ADP") or (
	child.text == "to" and child.dep_ == 'prep' and child.pos_ == "ADP"):
	pobj = child.text
	if child.dep_ == 'dative':
	dative = child.text

	# print("E5", pobj, dative)
	# exit()

	if pobj:
	output.append("PO")
	elif dative:
	output.append("DO")
	else:
	# print("Other", sentence, pobj, dative)
	# exit()
	output.append("Other")



	'''Exp6'''

	elif responses_df["Experiment"][i] == "E6":
	sentence = responses_df["Stimuli 1"][i].strip().lower()
	#print("E6", sentence)
	doc = nlp1(sentence)
	subject = "None"
	obj = "None"
	pobj_list = [] # To collect all prepositional objects

	for token in doc:
	if token.dep_ == "nsubj":
	subject = token.text
	elif token.dep_ == "dobj":
	obj = token.text
	elif token.dep_ == "pobj":
	pobj_list.append(token.text) # Collect prepositional objects

	rs_list = rs.lower().split()
	if subject in rs_list and (obj in rs_list or any(pobj == r for pobj in pobj_list for r in rs_list)):
	output.append("Other")
	elif subject in rs_list:
	output.append("VP")
	elif obj in rs_list or any(pobj == r for pobj in pobj_list for r in rs_list):
	output.append("NP")
	else:
	output.append("Other")

	'''Exp7'''
	elif responses_df["Experiment"][i] == "E7":
	# rs = responses_df["Response"][i].strip().lower()
	rs = rs.replace(".", "").replace(",", "").lower()
	#print("E7", rs)
	if "yes" in rs and "no" in rs:
	output.append("Other")
	elif "no" in rs:
	output.append("0")
	elif "yes" in rs:
	output.append("1")
	else:
	output.append("Other")

	'''Exp8'''
	elif responses_df["Experiment"][i] == "E8":
	# rs = responses_df["Response"][i].strip()
	#print("E8", rs)
	if "something is wrong with the question" in rs:
	output.append("1")
	else:
	output.append("0")

	'''Exp9'''
	elif responses_df["Experiment"][i] == "E9":
	male, female = 0, 0

	# rs = responses_df["Response"][i].strip()
	if "because" in rs:
	rs = rs.replace("because because", "because").split("because")[1]
	else:
	rs = rs
	condition = responses_df["Factor 2"][i].strip()
	rs = rs.split(" ")
	for w in rs:
	if w in male_keyword and female != 1:
	male = 1
	break
	if w in female_keyword and male != 1:
	female = 1
	break
	#print("E9", "condition", condition, "male", male, "female", female)
	if male == 0 and female == 0:
	output.append('Other')
	else:
	if male == 1 and female == 0:
	if condition == "MF":
	output.append("Subject")
	elif condition == "FM":
	output.append("Object")
	else:
	output.append("Other")
	elif female == 1 and male == 0:
	if condition == "MF":
	output.append("Object")
	elif condition == "FM":
	output.append("Subject")
	else:
	output.append("Other")

	'''Exp10'''
	elif responses_df["Experiment"][i] == "E10":
	# rs = responses_df["Response"][i].strip()
	rs = rs.replace(".", "")
	if rs == "yes":
	output.append("1")
	else:
	output.append("0")
	else:
	#print("can;t find the Exp:", responses_df["Experiment"][i])
	output.append("NA")
	# print(output)
	# exit()
	'''LLM'''
	print(len(output))
	import re
	def clean_text(text):
	if isinstance(text, str):
	return re.sub(r'[^\x00-\x7F]+', '', text)
	return text

	responses_df["Experiment"] = responses_df["Experiment"].apply(clean_text)
	responses_df["Question_ID"] = responses_df["Question_ID"].apply(clean_text)
	responses_df["Item"] = responses_df["Item"].apply(clean_text)
	responses_df["Response"] = responses_df["Response"].apply(clean_text)

	output = [str(item) for item in output]

	self.data = pd.DataFrame(list(
	zip(responses_df["Experiment"], responses_df["Question_ID"], responses_df["Item"], responses_df["Response"],output)),
	columns=["Experiment", "Question_ID", "Item", "Response","Coding"])

	return self.data









	def calculate_js_divergence(self, file_path_1, file_path_2):
	"""
	Calculate the Jensen-Shannon divergence for response distributions between two datasets.
	- Extracts E5 and E51 pairs, creates new data based on comparison,
	removes the original E5 and E51, and then calculates the JS divergence between the datasets.

	Parameters:
	file_path_1 (str): Path to the first dataset file (CSV format).
	file_path_2 (str): Path to the second dataset file (CSV format).

	Returns:
	float: The average JS divergence across all common Question_IDs.
	"""
	# Load the datasets
	human_df = pd.read_csv(file_path_1, encoding='ISO-8859-1')
	llm_df = pd.read_csv(file_path_2)

	def create_e5_entries(df):
	new_entries = []
	for i in range(len(df) - 1):
	if 'E51' in df.iloc[i]['Experiment']:
	priming_id = df.iloc[i][0]-1
	priming_row_id = df[df.iloc[:, 0] == priming_id].index[0]
	new_question_id = df.iloc[priming_row_id]['Question_ID']
	label = 1 if df.iloc[i]['Coding'] == df.iloc[priming_row_id]['Coding'] else 0
	new_entries.append({
	'Question_ID': new_question_id,
	'Response': f'{df.iloc[i]["Coding"]}-{df.iloc[priming_row_id]["Coding"]}',
	'Coding': label
	})
	return pd.DataFrame(new_entries)

	# Create new E5 entries for both datasets
	human_e5 = create_e5_entries(human_df)
	llm_e5 = create_e5_entries(llm_df)


	# Remove E5 and E51 entries from both datasets
	human_df = human_df[~human_df['Question_ID'].str.contains('E5')]
	llm_df = llm_df[~llm_df['Question_ID'].str.contains('E5')]

	# Append new E5 entries to the cleaned dataframes
	human_df = pd.concat([human_df, human_e5], ignore_index=True)
	llm_df = pd.concat([llm_df, llm_e5], ignore_index=True)

	### Calculate Average JS Divergence ###

	# Extract the relevant columns for JS divergence calculation
	human_responses = human_df[['Question_ID', 'Coding']]
	llm_responses = llm_df[['Question_ID', 'Coding']]

	# Remove 'Other' responses
	#human_responses = human_responses[human_responses['Coding'] != 'Other']
	#llm_responses = llm_responses[llm_responses['Coding'] != 'Other']

	# Get unique Question_IDs present in both datasets
	common_question_ids = set(human_responses['Question_ID']).intersection(set(llm_responses['Question_ID']))

	# Initialize a dictionary to store JS divergence for each experiment
	js_divergence = {}

	# Calculate JS divergence for each common Question_ID
	for q_id in common_question_ids:
	# Get response distributions for the current Question_ID in both datasets
	human_dist = human_responses[human_responses['Question_ID'] == q_id]['Coding'].value_counts(
	normalize=True)
	llm_dist = llm_responses[llm_responses['Question_ID'] == q_id]['Coding'].value_counts(normalize=True)

	# Reindex the distributions to have the same index, filling missing values with 0
	all_responses = set(human_dist.index).union(set(llm_dist.index))
	human_dist = human_dist.reindex(all_responses, fill_value=0)
	llm_dist = llm_dist.reindex(all_responses, fill_value=0)

	# Calculate JS divergence
	js_div = jensenshannon(human_dist, llm_dist, base=2)
	experiment_id = q_id.split('_')[1]

	if experiment_id not in js_divergence:
	js_divergence[experiment_id] = []
	js_divergence[experiment_id].append(js_div)

	# Calculate the average JS divergence per experiment and the confidence interval
	results = {}
	experiment_averages = []
	for exp, divs in js_divergence.items():
	avg_js_divergence = 1 - np.nanmean(divs)
	ci_lower, ci_upper = bootstrap((divs,), np.nanmean, confidence_level=0.95,
	n_resamples=1000).confidence_interval
	results[exp] = {
	'average_js_divergence': avg_js_divergence,
	'confidence_interval': (1 - ci_upper, 1 - ci_lower) # Adjust for 1 - score
	}
	experiment_averages.append(avg_js_divergence)

	# Calculate the weighted average JS divergence across all experiments
	weighted_js_divergence = np.mean(experiment_averages) # Simple average over experiments

	# Calculate the confidence interval for the overall JS divergence using bootstrap
	overall_ci_lower, overall_ci_upper = bootstrap(
	(experiment_averages,),
	np.nanmean,
	confidence_level=0.95,
	n_resamples=1000
	).confidence_interval

	# Combine all results into one dictionary
	all_results = {
	'overall': {
	'average_js_divergence': weighted_js_divergence,
	'confidence_interval': (overall_ci_lower, overall_ci_upper)
	},
	'per_experiment': results
	}

	return all_results


	def evaluate_humanlike(self, responses_df: pd.DataFrame, human_data_path: object, result_save_path: str) -> object:
	'''
	evaluate humanlike score
	1. code the result
	2. comput the similaritirs between human and model
	process model responses'''

	'''coding human data'''
	# self.huamn_df = pd.read_csv(human_data_path)
	# self.data = self.code_results(self.huamn_df)
	#save_path = human_data_path.replace('.csv','_coding.csv')
	#human_save_path = "./src/datasets/coding_human.xlsx"
	# if save_path is not None:
	# print(f'Save human coding results to {save_path}')
	# fpath = Path(save_path)
	# fpath.parent.mkdir(parents=True, exist_ok=True)
	# self.data.to_csv(fpath)


	'''coding llm data'''
	save_path = result_save_path.replace('.csv','_coding.csv')
	self.llm_df = self.code_results_llm(responses_df)



	if save_path is not None:
	print(f'Save LLM coding results to {save_path}')
	fpath = Path(save_path)
	fpath.parent.mkdir(parents=True, exist_ok=True)
	self.llm_df.to_csv(fpath)

	envs.API.upload_file(
	path_or_fileobj=save_path,#./generation_results/meta-llama/Llama-2-13b-chat-hf_coding.csv
	path_in_repo=f"{save_path.replace('generation_results/','')}",#
	repo_id=envs.RESULTS_REPO,
	repo_type="dataset",
	)
	# file_path_1 = '/Users/simon/Downloads/coding_human.xlsx'
	# file_path_2 = '/Users/simon/Downloads/Meta-Llama-3.1-70B-Instruct_coding.csv'
	avg_js_divergence = self.calculate_js_divergence(human_data_path, save_path)

	return avg_js_divergence