Spaces:

celalkartoglu
/

turkce-rag-qa-space

Runtime error

App Files Files Community

celalkartoglu commited on Sep 11, 2025

Commit

a78d6c7

verified ·

1 Parent(s): 77f41bd

Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

.gitattributes +1 -0
README.md +7 -11
app.py +68 -0
e5_index.faiss +3 -0
requirements.txt +6 -0
texts.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+e5_index.faiss filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,8 @@
----
-title: Turkce Rag Qa Space
-emoji: 👀
-colorFrom: indigo
-colorTo: purple
-sdk: gradio
-sdk_version: 5.45.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# Türkçe RAG QA (e5 + BERT-SQuAD)
+- Retriever: `intfloat/multilingual-e5-base`
+- Reader: `savasy/bert-base-turkish-squad`
+- İndeks: FAISS (`e5_index.faiss`), metin parçaları: `texts.json`
+- Basit Gradio arayüzü ile soru-cevap.
+**Lisans:** Kullandığınız veri ve pasajların lisansından siz sorumlusunuz.

app.py ADDED Viewed

	@@ -0,0 +1,68 @@

+import json, faiss, os, re
+import numpy as np
+import gradio as gr
+from sentence_transformers import SentenceTransformer
+from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline
+# Artifacts
+INDEX_PATH = "e5_index.faiss"
+TEXTS_PATH = "texts.json"
+# Modeller (HF'den indirilir)
+EMB_NAME = "intfloat/multilingual-e5-base"
+READER_NAME = "savasy/bert-base-turkish-squad"
+# Yükleme
+index = faiss.read_index(INDEX_PATH)
+with open(TEXTS_PATH, "r", encoding="utf-8") as f:
+    texts = json.load(f)
+embedder = SentenceTransformer(EMB_NAME)
+qa_tok = AutoTokenizer.from_pretrained(READER_NAME)
+qa_mod = AutoModelForQuestionAnswering.from_pretrained(READER_NAME)
+qa = pipeline("question-answering", model=qa_mod, tokenizer=qa_tok, device_map="auto")
+def search_semantic(q, k=80):
+    qv = embedder.encode([f"query: {q}"], convert_to_numpy=True, normalize_embeddings=True)
+    D, I = index.search(qv.astype(np.float32), k)
+    return I[0].tolist()
+def finalize_answer(raw_answer, context, max_chars=220):
+    ans = (raw_answer or "").strip()
+    if not ans: return "Bilmiyorum"
+    sents = re.split(r"(?<=[.!?])\s+", context)
+    hit = next((s for s in sents if ans in s), None)
+    text = (hit or ans).strip()
+    text = re.sub(r"\s+", " ", text).strip()
+    if len(text) > max_chars:
+        text = text[:max_chars].rsplit(" ", 1)[0].rstrip() + "…"
+    if not re.search(r"[.!?…]$", text): text += "."
+    return text[0].upper() + text[1:]
+def answer(q, k=80, top_m=12, min_conf=0.10):
+    I = search_semantic(q, k=k)
+    best = {"answer":"Bilmiyorum","score":0.0,"context":""}
+    for j in I[:top_m]:
+        ctx = texts[j]
+        out = qa({"question": q, "context": ctx})
+        ans, sc = out.get("answer","").strip(), float(out.get("score",0.0))
+        if sc > best["score"]:
+            best = {"answer": (ans or "Bilmiyorum"), "score": sc, "context": ctx}
+    if best["score"] < min_conf or not best["answer"]:
+        best["answer"] = "Bilmiyorum"
+    pretty = finalize_answer(best["answer"], best["context"])
+    return pretty, round(best["score"],3)
+with gr.Blocks() as demo:
+    gr.Markdown("# Türkçe RAG QA (e5 + BERT-SQuAD)")
+    inp = gr.Textbox(label="Sorunuzu yazın", placeholder="Verem nedir?")
+    with gr.Row():
+        k = gr.Slider(20, 120, value=80, step=10, label="k (retrieval)")
+        m = gr.Slider(4, 24, value=12, step=1, label="top_m_for_qa")
+        th = gr.Slider(0.05, 0.35, value=0.10, step=0.01, label="min_conf")
+    out_ans = gr.Textbox(label="Cevap")
+    out_sc  = gr.Number(label="Güven", precision=3)
+    btn = gr.Button("Sor")
+    btn.click(answer, inputs=[inp,k,m,th], outputs=[out_ans, out_sc])
+demo.launch()

e5_index.faiss ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f574fbbe622591dd81c9677b3e1a3505e38c50b8c0cd9595046bff2d652eb826
+size 105907245

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+sentence-transformers==2.2.2
+faiss-cpu
+transformers
+accelerate
+torch
+gradio

texts.json ADDED Viewed

The diff for this file is too large to render. See raw diff