Spaces:

Waflon
/

FAQ_SSI_CHILE

Sleeping

App Files Files Community

FAQ_SSI_CHILE / modelo.py

Waflon

Update modelo.py

44337bd verified almost 2 years ago

raw

history blame contribute delete

3.35 kB

	from langchain.prompts import PromptTemplate
	from langchain.chains.llm import LLMChain
	from langchain.chains.combine_documents.stuff import StuffDocumentsChain
	from langchain.chains import RetrievalQA
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain_openai import ChatOpenAI
	from langchain_community.vectorstores import FAISS #Facebook AI Similarity Search
	from langchain_community.document_loaders import HuggingFaceDatasetLoader
	from langchain_community.embeddings import HuggingFaceEmbeddings

	def get_chain():
	# agregada en la config de hugginface
	#Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
	embeddings = HuggingFaceEmbeddings(
	model_name="sentence-transformers/multi-qa-MiniLM-L6-cos-v1", # Modelo correcto para embeddings que serán usados como QA
	#model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", # Ruta a modelo Pre entrenado
	model_kwargs={'device':'cpu'}, # Opciones de configuracion del modelo
	encode_kwargs={'normalize_embeddings': False} # Opciones de Encoding
	)
	try:
	db = FAISS.load_local("cache", embeddings)
	except:
	#Carga de DATASET
	dataset_name = "Waflon/FAQ"
	page_content_column = "respuestas"
	loader = HuggingFaceDatasetLoader(dataset_name, page_content_column)
	data = loader.load()

	#Dividir en chucks, esto es super importante
	text_splitter = RecursiveCharacterTextSplitter(chunk_size=128, chunk_overlap=32)

	docs = text_splitter.split_documents(data)
	#DB y retriever
	db = FAISS.from_documents(docs, embeddings) # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
	db = FAISS.save_local("cache")

	retriever = db.as_retriever(search_kwargs={"k": 3})

	# prompt_template =
	QA_CHAIN_PROMPT = PromptTemplate.from_template("""
	Usa los siguientes fragmentos de contextos para responder una pregunta al final. Por favor sigue las siguientes reglas:
	1. Si la pregunta requiere vinculos, por favor retornar solamente las vinculos de los vinculos sin respuesta
	2. Si no sabes la respuesta, no inventes una respuesta. Solamente di No pude encontrar la respuesta definitiva, pero, tal vez quieras ver los siguientes vínculos y agregalos a la lista de vínculos.
	3. Si encuentras la respuesta, escribe una respuesta concisa y agrega la lista de víinculos relevantes para derivar la respuesta.

	{contexto}

	Pregunta: {question}
	Respuesta Util:"""
	) # prompt_template defined above

	llm_chain = LLMChain(llm=ChatOpenAI(), prompt=QA_CHAIN_PROMPT, callbacks=None, verbose=True)
	document_prompt = PromptTemplate(
	input_variables=["page_content", "url"],
	template="Contexto:\n{page_content}\nVinculo: {url}",
	)

	combine_documents_chain = StuffDocumentsChain(
	llm_chain=llm_chain,
	document_variable_name="contexto",
	document_prompt=document_prompt,
	callbacks=None,
	)

	chain = RetrievalQA(
	combine_documents_chain=combine_documents_chain,
	callbacks=None,
	verbose=True,
	retriever=retriever,
	)

	return(chain)