Spaces:

tony346
/

Basic_RAG_AI_Chatbot_with_chatGPT

Running

App Files Files Community

tony346 commited on Jan 19, 2025

Commit

e5975dd

verified ·

1 Parent(s): 897ec15

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -7

app.py CHANGED Viewed

@@ -14,7 +14,6 @@ from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVL
 import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
 import os
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
     temp_dir = tempfile.TemporaryDirectory() # 임시 디렉토리를 생성합니다.
@@ -25,20 +24,39 @@ def get_pdf_text(pdf_docs):
     pdf_doc = pdf_loader.load() # 텍스트를 추출합니다.
     return pdf_doc # 추출한 텍스트를 반환합니다.
-# 과제
-# 아래 텍스트 추출 함수를 작성
 def get_text_file(docs):
-    pass
 def get_csv_file(docs):
-    pass
 def get_json_file(docs):
-    pass
 # 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
 def get_text_chunks(documents):
     text_splitter = RecursiveCharacterTextSplitter(

 import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
 import os
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
     temp_dir = tempfile.TemporaryDirectory() # 임시 디렉토리를 생성합니다.
     pdf_doc = pdf_loader.load() # 텍스트를 추출합니다.
     return pdf_doc # 추출한 텍스트를 반환합니다.
 def get_text_file(docs):
+    temp_dir = tempfile.TemporaryDirectory()
+    temp_filepath = os.path.join(temp_dir.name, docs.name)
+    with open(temp_filepath, "wb") as f:
+        f.write(docs.getvalue())
+    text_loader = TextLoader(temp_filepath)
+    text_doc = text_loader.load()
+    return text_doc
 def get_csv_file(docs):
+    temp_dir = tempfile.TemporaryDirectory()
+    temp_filepath = os.path.join(temp_dir.name, docs.name)
+    with open(temp_filepath, "wb") as f:
+        f.write(docs.getvalue())
+    csv_loader = CSVLoader(temp_filepath)
+    csv_doc = csv_loader.load()
+    return csv_doc
 def get_json_file(docs):
+    temp_dir = tempfile.TemporaryDirectory()
+    temp_filepath = os.path.join(temp_dir.name, docs.name)
+    with open(temp_filepath, "wb") as f:
+        f.write(docs.getvalue())
+    json_loader = JSONLoader(temp_filepath,
+                                 jq_schema='.scans[].relationships',
+                                 text_content=False)
+    json_doc = json_loader.load()
+    # print('json_doc = ',json_doc)
+    return json_doc
 # 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
 def get_text_chunks(documents):
     text_splitter = RecursiveCharacterTextSplitter(