Spaces:

tiya1012
/

pdpatest

No application file

App Files Files Community

tiya1012 commited on Sep 1, 2025

Commit

2db260a

verified ·

0 Parent(s):

initial commit

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +14 -0
app.py +116 -0
requirements.txt +5 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Pdpatest
+emoji: 🌍
+colorFrom: indigo
+colorTo: blue
+sdk: gradio
+sdk_version: 5.44.1
+app_file: app.py
+pinned: false
+license: mit
+short_description: pdpa chatbot in Thai
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,116 @@

+# This is a Gradio app that integrates a PDPA Knowledge Base and a chatbot using OpenAI's API.
+import gradio as gr
+import numpy as np
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
+import re
+from typing import List, Tuple
+import requests
+import PyPDF2
+from io import BytesIO
+from openai import OpenAI
+# Initialize the client
+client = OpenAI(
+    api_key="sk-EiLiW1tVzR6ra7LoAvAWRbppMJWnezTanz3AfvvVrGYBEN1b",  # โปรดเก็บ API key ของคุณให้ปลอดภัย ไม่ควร hardcode แบบนี้ในโค้ดจริง
+    base_url="https://api.opentyphoon.ai/v1"
+)
+class PDPAKnowledgeBase:
+    def __init__(self, pdf_url: str):
+        self.pdf_url = pdf_url
+        self.chunks = []
+        # max_features might need adjustment based on PDF content, but 1000 is a reasonable start.
+        self.vectorizer = TfidfVectorizer(stop_words='english', max_features=1000)
+        self.chunk_vectors = None
+        self.load_and_process_pdf()
+    def download_pdf(self) -> bytes:
+        """Download PDF from GitHub URL"""
+        print("📥 กำลังดาวน์โหลด PDPA PDF...")
+        try:
+            response = requests.get(self.pdf_url, timeout=30)
+            response.raise_for_status()
+            print("✅ ดาวน์โหลดสำเร็จ!")
+            return response.content
+        except Exception as e:
+            print(f"❌ ไม่สามารถดาวน์โหลด PDF ได้: {e}")
+            return None
+    def extract_text_from_pdf(self, pdf_content: bytes) -> str:
+        """Extract text from PDF content"""
+        print("📄 กำลังแยกข้อความจาก PDF...")
+        try:
+            pdf_file = BytesIO(pdf_content)
+            pdf_reader = PyPDF2.PdfReader(pdf_file)
+            text = ""
+            for page_num, page in enumerate(pdf_reader.pages):
+                try:
+                    page_text = page.extract_text()
+                    # Add page separator for context if chunks overlap across pages
+                    text += f"\n--- หน้า {page_num + 1} ---\n{page_text}\n"
+                except Exception as e:
+                    print(f"⚠️ ไม่สามารถอ่านหน้า {page_num + 1}: {e}")
+                    continue
+            print(f"✅ แยกข้อความสำเร็จ! จำนวน {len(pdf_reader.pages)} หน้า")
+            return text
+        except Exception as e:
+            print(f"❌ ไม่สามารถแยกข้อความได้: {e}")
+            return ""
+    def chunk_text(self, text: str, chunk_size: int = 1000, overlap: int = 200) -> List[str]:
+        """Split text into overlapping chunks"""
+        print("✂️ กำลังแบ่งข้อความเป็นส่วนๆ...")
+        # Clean text
+        text = re.sub(r'\s+', ' ', text.strip())
+        chunks = []
+        start = 0
+        while start < len(text):
+            end = start + chunk_size
+            # Try to break at sentence end
+            if end < len(text):
+                # Look for sentence endings
+                for i in range(end, max(start + chunk_size - 200, start), -1):
+                    if text[i] in '.!?':
+                        end = i + 1
+                        break
+            chunk = text[start:end].strip()
+            if chunk:
+                chunks.append(chunk)
+            start = end - overlap
+            if start >= len(text):
+                break
+        print(f"✅ แบ่งเป็น {len(chunks)} ส่วน")
+        return chunks
+    def create_embeddings(self, chunks: List[str]):
+        """Create TF-IDF vectors for chunks"""
+        print("🔢 กำลังสร้าง embeddings...")
+        try:
+            self.chunk_vectors = self.vectorizer.fit_transform(chunks)
+            print("✅ สร้าง embeddings สำเร็จ!")
+        except Exception as e:
+            print(f"❌ ไม่สามารถสร้าง embeddings ได้: {e}")
+    def load_and_process_pdf(self):
+        """Download and process the PDF"""
+        pdf_content = self.download_pdf()
+        if not pdf_content:
+            return
+        text = self.extract_text_from_pdf(pdf_content)
+        if not text:
+            return
+        self.chunks = self.chunk_text(text)
+        if self.chunks:
+            self.create_embeddings(self.ch

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+numpy
+scikit-learn
+requests
+PyPDF2
+openai