Spaces:

dgmos
/

ericsson-llm-chatbot

Build error

App Files Files Community

dgmos commited on Oct 4, 2025

Commit

1a381aa

1 Parent(s): 8ec8702

Deploy chatbot update

Browse files

Files changed (1) hide show

app.py +32 -33

app.py CHANGED Viewed

@@ -1,31 +1,27 @@
 import os
 import pdfplumber
-import gradio as gr
-from huggingface_hub import hf_hub_download, login
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_huggingface import HuggingFaceEndpoint, HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
-# 1. Hugging Face 인증
 if "HUGGINGFACEHUB_API_TOKEN" not in os.environ:
-    raise ValueError("❌ HUGGINGFACEHUB_API_TOKEN 환경 변수가 없습니다. Spaces → Settings → Repository secrets 에 추가하세요.")
-login(token=os.getenv("HUGGINGFACEHUB_API_TOKEN"))
-# 2. LLM 모델 설정
-repo_id = "meta-llama/Llama-3.2-3B-Instruct"
 llm = HuggingFaceEndpoint(
-    repo_id=repo_id,
-    huggingfacehub_api_token=os.getenv("HUGGINGFACEHUB_API_TOKEN"),
     temperature=0.7,
     task="text-generation"
 )
-# 3. 대상 데이터셋 Repo 정보
-dataset_repo = "dgmos/ericsson-manuals"
-# 4. 처리할 PDF 파일 리스트
 pdf_files = [
     "(20220324) L2 Switch 운용 매뉴얼_Innovation TF_Ver3.1_OCR.pdf",
     "(20230504) 23년 기술교육 교재 1 (LTE)_가치혁신팀_OCR.pdf",
@@ -68,59 +64,62 @@ pdf_files = [
     "차단기 종류 및 용도_OCR.pdf"
 ]
-# 5. PDF 텍스트 추출
 docs = []
 for fname in pdf_files:
     try:
-        pdf_path = hf_hub_download(repo_id=dataset_repo, repo_type="dataset", filename=fname)
         texts = []
         with pdfplumber.open(pdf_path) as pdf:
-            for page in pdf.pages:
-                content = page.extract_text()
-                if content:
-                    texts.append(content)
-        text = "\n".join(texts).strip()  # 줄바꿈 이스케이프 처리 → 절대 자동 줄바꿈 안 생김
-        if text:
-            docs.append({"page_content": text, "metadata": {"source": fname}})
         else:
             print(f"⚠️ 텍스트 없음: {fname}")
     except Exception as e:
         print(f"🚨 오류 발생: {fname} - {str(e)}")
 if not docs:
     raise ValueError("❌ PDF에서 추출된 텍스트가 없습니다. (docs 리스트 비어있음)")
-print(f"✅ 총 {len(docs)} 개 PDF에서 텍스트 추출 완료")
-# 6. 텍스트 분할
 splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
 texts = splitter.split_documents(docs)
-# 7. 임베딩 + 벡터 DB
 embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/multi-qa-mpnet-base-dot-v1")
 vectorstore = FAISS.from_documents(texts, embeddings)
-# 8. Retrieval QA 체인
 qa_chain = RetrievalQA.from_chain_type(
     llm=llm,
     chain_type="stuff",
     retriever=vectorstore.as_retriever(search_kwargs={"k": 3})
 )
-# 9. 챗봇 함수
 def chatbot(query: str):
     try:
         return qa_chain.run(query)
     except Exception as e:
-        return f"❌ 오류: {str(e)}"
-# 10. Gradio UI
 with gr.Blocks(title="Ericsson 장비 분석 챗봇") as demo:
-    gr.Markdown("# 🚀 Ericsson 3G/LTE/5G 불량/불요파 분석 챗봇")
-    gr.Markdown("Hugging Face Datasets의 PDF 매뉴얼 기반 RAG QA")
     query = gr.Textbox(label="질문 입력 (한국어/영어)", placeholder="예: Spurious Emission 원인은?")
     output = gr.Textbox(label="응답", lines=10)
-    btn = gr.Button("분석 시작")
     btn.click(chatbot, inputs=query, outputs=output)
 if __name__ == "__main__":

 import os
 import pdfplumber
+from huggingface_hub import hf_hub_download
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_huggingface import HuggingFaceEndpoint, HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
+import gradio as gr
+# ✅ 환경 변수 (Secrets에서 자동 주입)
 if "HUGGINGFACEHUB_API_TOKEN" not in os.environ:
+    raise ValueError("❌ HUGGINGFACEHUB_API_TOKEN 이 설정되지 않았습니다. Spaces → Settings → Secrets에서 추가하세요.")
+# ✅ LLM 모델 설정
 llm = HuggingFaceEndpoint(
+    repo_id="meta-llama/Llama-3.2-3B-Instruct",
+    huggingfacehub_api_token=os.environ["HUGGINGFACEHUB_API_TOKEN"],
     temperature=0.7,
     task="text-generation"
 )
+# ✅ Hugging Face Datasets → PDF 다운로드
+repo_id = "dgmos/ericsson-manuals"
 pdf_files = [
     "(20220324) L2 Switch 운용 매뉴얼_Innovation TF_Ver3.1_OCR.pdf",
     "(20230504) 23년 기술교육 교재 1 (LTE)_가치혁신팀_OCR.pdf",
     "차단기 종류 및 용도_OCR.pdf"
 ]
 docs = []
 for fname in pdf_files:
     try:
+        pdf_path = hf_hub_download(repo_id=repo_id, filename=fname, repo_type="dataset")
         texts = []
         with pdfplumber.open(pdf_path) as pdf:
+            for page_num, page in enumerate(pdf.pages, start=1):
+                try:
+                    content = page.extract_text()
+                    if content:
+                        texts.append(content)
+                except Exception as e:
+                    print(f"⚠️ PDF 파싱 오류 (무시): {fname} p.{page_num} - {str(e)}")
+        if texts:
+            docs.append({"page_content": "
+".join(texts)})
+            print(f"✅ 텍스트 추출 성공: {fname}")
         else:
             print(f"⚠️ 텍스트 없음: {fname}")
     except Exception as e:
         print(f"🚨 오류 발생: {fname} - {str(e)}")
+# ✅ 문서 검증
 if not docs:
     raise ValueError("❌ PDF에서 추출된 텍스트가 없습니다. (docs 리스트 비어있음)")
+# ✅ 텍스트 분할
 splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
 texts = splitter.split_documents(docs)
+# ✅ 벡터 DB 구축
 embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/multi-qa-mpnet-base-dot-v1")
 vectorstore = FAISS.from_documents(texts, embeddings)
+# ✅ RAG 체인
 qa_chain = RetrievalQA.from_chain_type(
     llm=llm,
     chain_type="stuff",
     retriever=vectorstore.as_retriever(search_kwargs={"k": 3})
 )
+# ✅ 챗봇 함수
 def chatbot(query: str):
     try:
         return qa_chain.run(query)
     except Exception as e:
+        return f"❌ 오류 발생: {str(e)}"
+# ✅ Gradio UI
 with gr.Blocks(title="Ericsson 장비 분석 챗봇") as demo:
+    gr.Markdown("## 🚀 3G/LTE/5G 장비 불량/불요파 분석 챗봇")
+    gr.Markdown("Hugging Face Dataset에서 OCR PDF 기반 질문 응답 제공")
     query = gr.Textbox(label="질문 입력 (한국어/영어)", placeholder="예: Spurious Emission 원인은?")
     output = gr.Textbox(label="응답", lines=10)
+    btn = gr.Button("분석 시작!")
     btn.click(chatbot, inputs=query, outputs=output)
 if __name__ == "__main__":