Spaces:

Reza-galaxy21
/

DatabaseBuilder

Sleeping

App Files Files Community

Reza-galaxy21 commited on Apr 20, 2025

Commit

d3a883a

verified ·

1 Parent(s): ac47be9

Create utils.py

Browse files

Files changed (1) hide show

utils.py +69 -0

utils.py ADDED Viewed

	@@ -0,0 +1,69 @@

+# utils.py
+import os
+import fitz  # PyMuPDF
+import faiss
+import numpy as np
+from openai import OpenAI
+import hashlib
+# تنظیمات API
+openai_api_key = os.getenv("OPENAI_API_KEY")
+# Embedder
+def get_embedding(text, model="text-embedding-ada-002"):
+    from openai import OpenAI
+    client = OpenAI(api_key=openai_api_key)
+    response = client.embeddings.create(input=[text], model=model)
+    return response.data[0].embedding
+# استخراج متن از PDF و بردارسازی
+def extract_text_and_vectors(files):
+    documents = []
+    for file in files:
+        doc = fitz.open(file.name)
+        for page_num, page in enumerate(doc):
+            text = page.get_text()
+            if text.strip():
+                vector = get_embedding(text)
+                documents.append({
+                    "file_name": file.name,
+                    "page_num": page_num + 1,
+                    "text": text,
+                    "vector": np.array(vector).astype("float32"),
+                })
+    return documents
+# ساخت ایندکس FAISS
+def build_faiss_index(documents, dim=1536):
+    index = faiss.IndexFlatL2(dim)
+    vectors = [doc["vector"] for doc in documents]
+    index.add(np.array(vectors))
+    return index
+# جستجو در FAISS
+def search_similar_content(query, documents, index, k=3):
+    query_vector = np.array(get_embedding(query)).astype("float32").reshape(1, -1)
+    D, I = index.search(query_vector, k)
+    results = [documents[i] for i in I[0]]
+    return results
+# فرمت‌دهی پاسخ
+def format_response(results):
+    formatted = []
+    for r in results:
+        snippet = r["text"][:500].strip().replace('\n', ' ')
+        formatted.append(f"""📄 **{r['file_name']}** | صفحه {r['page_num']}\n{text_shorten(snippet)}\n""")
+    return "\n---\n".join(formatted)
+# کمک‌تابع برای خلاصه کردن متن
+def text_shorten(text, max_chars=300):
+    return text if len(text) <= max_chars else text[:max_chars] + "..."
+# لاگ نمونه‌ای از اسناد پردازش‌شده
+def log_debug_info(documents, max_samples=2):
+    info = f"📦 مجموع اسناد پردازش‌شده: {len(documents)}\n\n"
+    for i, doc in enumerate(documents[:max_samples]):
+        info += f"📝 فایل: {doc['file_name']} | صفحه: {doc['page_num']}\n"
+        info += f"متن نمونه: {text_shorten(doc['text'])}\n\n"
+    return info