Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
|
@@ -14,6 +14,7 @@ from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVL
|
|
| 14 |
import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
|
| 15 |
import json
|
| 16 |
import os
|
|
|
|
| 17 |
|
| 18 |
|
| 19 |
|
|
@@ -66,17 +67,19 @@ def get_json_file(json_docs):
|
|
| 66 |
return [json_string]
|
| 67 |
|
| 68 |
|
|
|
|
| 69 |
# 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
|
| 70 |
def get_text_chunks(documents):
|
|
|
|
| 71 |
text_splitter = RecursiveCharacterTextSplitter(
|
| 72 |
chunk_size=1000, # 청크의 크기를 지정합니다.
|
| 73 |
chunk_overlap=200, # 청크 사이의 중복을 지정합니다.
|
| 74 |
length_function=len # 텍스트의 길이를 측정하는 함수를 지정합니다.
|
| 75 |
)
|
| 76 |
|
| 77 |
-
|
| 78 |
-
|
| 79 |
-
|
| 80 |
|
| 81 |
# 텍스트 청크들로부터 벡터 스토어를 생성하는 함수입니다.
|
| 82 |
def get_vectorstore(text_chunks):
|
|
|
|
| 14 |
import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
|
| 15 |
import json
|
| 16 |
import os
|
| 17 |
+
from langchain.text_splitter import RecursiveCharacterTextSplitter
|
| 18 |
|
| 19 |
|
| 20 |
|
|
|
|
| 67 |
return [json_string]
|
| 68 |
|
| 69 |
|
| 70 |
+
|
| 71 |
# 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
|
| 72 |
def get_text_chunks(documents):
|
| 73 |
+
# RecursiveCharacterTextSplitter를 직접 초기화합니다.
|
| 74 |
text_splitter = RecursiveCharacterTextSplitter(
|
| 75 |
chunk_size=1000, # 청크의 크기를 지정합니다.
|
| 76 |
chunk_overlap=200, # 청크 사이의 중복을 지정합니다.
|
| 77 |
length_function=len # 텍스트의 길이를 측정하는 함수를 지정합니다.
|
| 78 |
)
|
| 79 |
|
| 80 |
+
# 문서를 청크로 나눕니다.
|
| 81 |
+
text_chunks = text_splitter.split_text(documents)
|
| 82 |
+
return text_chunks
|
| 83 |
|
| 84 |
# 텍스트 청크들로부터 벡터 스토어를 생성하는 함수입니다.
|
| 85 |
def get_vectorstore(text_chunks):
|