Spaces:

lss9566
/

immunochat

Sleeping

App Files Files Community

immunochat / app.py

lss9566

Upload app.py

3980253 verified 5 months ago

raw

history blame contribute delete

12.7 kB

	import streamlit as st
	import tiktoken
	import re
	from loguru import logger

	from langchain.chains import ConversationalRetrievalChain
	from langchain_community.llms import HuggingFacePipeline
	from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

	from langchain.document_loaders import PyPDFLoader
	from langchain.document_loaders import Docx2txtLoader

	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain.embeddings import HuggingFaceEmbeddings

	from langchain.memory import ConversationBufferMemory
	from langchain.vectorstores import FAISS
	from langchain.memory import StreamlitChatMessageHistory

	def preprocess_korean_text(text):
	"""한국어 텍스트 전처리 함수"""
	# 불필요한 특수문자 제거 (한국어, 영어, 숫자, 공백만 유지)
	text = re.sub(r'[^가-힣a-zA-Z0-9\s.,!?]', ' ', text)
	# 연속된 공백을 하나로 통합
	text = re.sub(r'\s+', ' ', text).strip()
	return text

	def main():
	st.set_page_config(
	page_title="한국어 문서 QA 챗봇",
	page_icon="🇰🇷",
	layout="wide"
	)

	st.title("🇰🇷 _한국어 전용 문서 :red[QA 챗봇]_ 📚")
	st.markdown("최고 성능의 한국어 AI 모델로 구동되는 문서 질의응답 시스템")

	if "conversation" not in st.session_state:
	st.session_state.conversation = None

	if "chat_history" not in st.session_state:
	st.session_state.chat_history = None

	if "processComplete" not in st.session_state:
	st.session_state.processComplete = None

	with st.sidebar:
	st.header("⚙️ 설정")

	uploaded_files = st.file_uploader(
	"📁 한국어 문서 업로드",
	type=['pdf','docx'],
	accept_multiple_files=True,
	help="PDF, DOCX 형식의 한국어 문서를 업로드하세요."
	)

	st.subheader("🤖 AI 모델 선택")
	# 최고 성능 한국어 모델들로 교체
	model_options = {
	"🥇 EEVE-Korean-10.8B (최고 성능)": "yanolja/EEVE-Korean-Instruct-10.8B-v1.0",
	"🥈 Llama3-Korean-Bllossom-8B": "MLP-KTLim/llama-3-Korean-Bllossom-8B",
	"🥉 KoAlpaca-Polyglot-12.8B": "beomi/KoAlpaca-Polyglot-12.8B",
	"⚡ Kullm-Polyglot-5.8B (빠름)": "nlpai-lab/kullm-polyglot-5.8b-v2",
	"💎 Korean-Vicuna-13B": "kfkas/Llama-2-ko-7b-Chat"
	}

	selected_model_name = st.selectbox(
	"모델 선택:",
	list(model_options.keys()),
	help="EEVE 모델이 한국어 지시사항 이해에 가장 뛰어납니다."
	)
	selected_model = model_options[selected_model_name]

	st.subheader("📊 임베딩 모델")
	embedding_options = {
	"🇰🇷 KoSBERT (추천)": "jhgan/ko-sroberta-multitask",
	"🔥 KoSimCSE": "BM-K/KoSimCSE-roberta-multitask",
	"⭐ KR-SBERT": "snunlp/KR-SBERT-V40K-klueNLI-augSTS"
	}

	selected_embedding_name = st.selectbox(
	"임베딩 모델:",
	list(embedding_options.keys())
	)
	selected_embedding = embedding_options[selected_embedding_name]

	st.subheader("⚙️ 고급 설정")
	chunk_size = st.slider("청크 크기", 200, 1000, 400, help="한국어는 400-600자가 최적입니다.")
	chunk_overlap = st.slider("청크 겹침", 20, 200, 40, help="겹침이 클수록 문맥 연결성이 향상됩니다.")
	temperature = st.slider("창의성 (Temperature)", 0.1, 1.0, 0.3, help="낮을수록 정확, 높을수록 창의적")

	process = st.button("🚀 문서 처리 시작", type="primary")

	if process:
	if uploaded_files:
	with st.spinner("🔥 최고 성능 한국어 AI로 문서를 분석 중입니다..."):
	try:
	files_text = get_text(uploaded_files)
	text_chunks = get_text_chunks(files_text, chunk_size, chunk_overlap)
	vectorstore = get_vectorstore(text_chunks, selected_embedding)
	st.session_state.conversation = get_conversation_chain(vectorstore, selected_model, temperature)
	st.session_state.processComplete = True
	st.success(f"✅ {len(files_text)}개 문서, {len(text_chunks)}개 청크로 처리 완료!")
	st.balloons()
	except Exception as e:
	st.error(f"❌ 문서 처리 중 오류 발생: {str(e)}")
	else:
	st.error("📁 파일을 먼저 업로드해주세요!")

	if 'messages' not in st.session_state:
	st.session_state['messages'] = [{
	"role": "assistant",
	"content": "안녕하세요! 🇰🇷 한국어 전용 고성능 AI 챗봇입니다.\n\n📚 특징:\n- 최신 한국어 특화 AI 모델 사용\n- 복잡한 지시사항 완벽 이해\n- 정확하고 자연스러운 한국어 답변\n\n📁 문서를 업로드하고 '문서 처리 시작'을 눌러주세요!"
	}]

	# 채팅 인터페이스
	st.subheader("💬 대화")

	for message in st.session_state.messages:
	with st.chat_message(message["role"]):
	st.markdown(message["content"])

	if query := st.chat_input("🤔 문서에 대해 무엇이든 물어보세요... (복잡한 질문도 환영!)"):
	if st.session_state.conversation is None:
	st.error("먼저 파일을 업로드하고 '문서 처리 시작' 버튼을 눌러주세요!")
	st.stop()

	st.session_state.messages.append({"role": "user", "content": query})

	with st.chat_message("user"):
	st.markdown(query)

	with st.chat_message("assistant"):
	with st.spinner("🧠 한국어 AI가 깊이 분석하고 있습니다..."):
	try:
	# 한국어 프롬프트 최적화
	enhanced_query = f"다음 질문에 대해 문서 내용을 바탕으로 정확하고 상세하게 한국어로 답변해주세요: {query}"

	result = st.session_state.conversation({"question": enhanced_query})
	response = result['answer']
	source_documents = result.get('source_documents', [])

	# 답변 후처리
	if response:
	# 불필요한 영어 제거 및 한국어 답변 추출
	response = clean_korean_response(response)
	st.markdown(response)
	else:
	st.markdown("죄송합니다. 해당 질문에 대한 답변을 문서에서 찾을 수 없습니다.")

	if source_documents:
	with st.expander("📖 참고 문서 및 근거"):
	for i, doc in enumerate(source_documents[:3]):
	st.markdown(f"📄 문서 {i+1}: {doc.metadata.get('source', 'Unknown')}")
	with st.container():
	st.text_area(
	f"관련 내용 {i+1}",
	doc.page_content[:400] + "...",
	height=120,
	disabled=True
	)

	st.session_state.messages.append({"role": "assistant", "content": response})
	except Exception as e:
	error_msg = f"❌ 답변 생성 중 오류가 발생했습니다: {str(e)}"
	st.error(error_msg)
	st.session_state.messages.append({"role": "assistant", "content": "죄송합니다. 일시적인 오류가 발생했습니다. 다시 시도해주세요."})

	def clean_korean_response(response):
	"""한국어 답변 정제"""
	# 영어 패턴 제거
	response = re.sub(r'\b[A-Za-z]+\b', '', response)
	# 불필요한 기호 정리
	response = re.sub(r'[\[\]\(\)\{\}]', '', response)
	# 연속 공백 정리
	response = re.sub(r'\s+', ' ', response).strip()
	return response

	def get_text(docs):
	"""문서에서 텍스트 추출 및 전처리"""
	doc_list = []

	for doc in docs:
	file_name = doc.name
	with open(file_name, "wb") as file:
	file.write(doc.getvalue())
	logger.info(f"Uploaded {file_name}")

	try:
	if '.pdf' in doc.name:
	loader = PyPDFLoader(file_name)
	documents = loader.load_and_split()
	elif '.docx' in doc.name:
	loader = Docx2txtLoader(file_name)
	documents = loader.load_and_split()

	# 각 문서의 텍스트 전처리
	for document in documents:
	document.page_content = preprocess_korean_text(document.page_content)
	# 너무 짧은 청크 제거
	if len(document.page_content.strip()) < 50:
	continue

	doc_list.extend([doc for doc in documents if len(doc.page_content.strip()) >= 50])
	except Exception as e:
	st.error(f"파일 {file_name} 처리 중 오류: {str(e)}")

	return doc_list

	def get_text_chunks(text, chunk_size=400, chunk_overlap=40):
	"""한국어 최적화된 텍스트 청킹"""
	text_splitter = RecursiveCharacterTextSplitter(
	chunk_size=chunk_size,
	chunk_overlap=chunk_overlap,
	length_function=len,
	separators=["\n\n", "\n", ".", "!", "?", ";", ":", ",", " ", ""] # 한국어 구분자 최적화
	)
	chunks = text_splitter.split_documents(text)
	return chunks

	def get_vectorstore(text_chunks, embedding_model):
	"""한국어 특화 임베딩 모델을 사용한 벡터 스토어 생성"""
	embeddings = HuggingFaceEmbeddings(
	model_name=embedding_model,
	model_kwargs={'device': 'cpu'},
	encode_kwargs={'normalize_embeddings': True}
	)
	vectordb = FAISS.from_documents(text_chunks, embeddings)
	return vectordb

	def get_conversation_chain(vectorstore, model_name, temperature):
	"""한국어 특화 대화 체인 생성"""
	try:
	# 한국어 특화 토크나이저 및 모델 로딩
	tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

	# 패딩 토큰 설정
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	model = AutoModelForCausalLM.from_pretrained(
	model_name,
	trust_remote_code=True,
	torch_dtype="auto",
	device_map=None # GPU 사용 설정 제거
	)

	# 한국어 최적화 파이프라인
	pipe = pipeline(
	"text-generation",
	model=model,
	tokenizer=tokenizer,
	max_new_tokens=512,
	temperature=temperature,
	do_sample=True,
	top_p=0.9,
	repetition_penalty=1.1,
	device=-1, # CPU 사용
	pad_token_id=tokenizer.eos_token_id
	)

	llm = HuggingFacePipeline(pipeline=pipe)

	# 한국어 특화 검색 설정
	conversation_chain = ConversationalRetrievalChain.from_llm(
	llm=llm,
	chain_type="stuff",
	retriever=vectorstore.as_retriever(
	search_type='mmr',
	search_kwargs={
	'k': 4, # 더 많은 문서 검색
	'fetch_k': 8,
	'lambda_mult': 0.7 # 다양성과 관련성 균형
	}
	),
	memory=ConversationBufferMemory(
	memory_key='chat_history',
	return_messages=True,
	output_key='answer'
	),
	return_source_documents=True,
	verbose=True
	)

	return conversation_chain
	except Exception as e:
	st.error(f"모델 로딩 중 오류: {str(e)}")
	st.info("더 가벼운 모델을 선택하거나 메모리를 확인해주세요.")
	return None

	if __name__ == '__main__':
	main()