Spaces:

mo-456
/

FTCE-chatbot

Sleeping

App Files Files Community

mo-456 commited on Jul 15, 2025

Commit

cdecdab

verified ·

1 Parent(s): 0881287

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -42

app.py CHANGED Viewed

@@ -1,55 +1,50 @@
-import os
-import gradio as gr
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_community.vectorstores import FAISS
 from langchain_community.document_loaders import TextLoader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.chains import RetrievalQA
-from langchain_huggingface import HuggingFaceEndpoint
-# Load knowledge from Arabic text file
 loader = TextLoader("knowledge.txt", encoding="utf-8")
-docs = loader.load()
-# Split documents into chunks
-text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-documents = text_splitter.split_documents(docs)
-# Arabic-capable multilingual sentence embeddings
 embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
-# Create FAISS vector store
-vectorstore = FAISS.from_documents(documents, embeddings)
-# Get token from secret
-token = os.environ.get("HUGGINGFACEHUB_API_TOKEN")
-# Correct way: pass temperature and max_new_tokens explicitly
-llm = HuggingFaceEndpoint(
-    repo_id="tiiuae/falcon-7b-instruct",
-    huggingfacehub_api_token=token,
-    temperature=0.3,
-    max_new_tokens=256
 )
-# Create the RetrievalQA chain
-qa = RetrievalQA.from_chain_type(
-    llm=llm,
-    chain_type="stuff",
-    retriever=vectorstore.as_retriever()
-)
-# Arabic chatbot function
-def answer_question_arabic(question):
-    return qa.run(question)
-# Gradio interface
-iface = gr.Interface(
-    fn=answer_question_arabic,
-    inputs=gr.Textbox(lines=2, placeholder="اكتب سؤالك هنا", label="سؤال"),
-    outputs=gr.Textbox(label="الرد"),
-    title="المساعد الذكي للقطاع الوزاري",
-    description="اكتب أي سؤال متعلق بالخدمات أو الإجراءات داخل القطاع، وسنقدم لك الرد بناءً على قاعدة المعرفة."
-)
-iface.launch()

 from langchain_community.document_loaders import TextLoader
 from langchain.text_splitter import CharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
+from langchain_community.llms import HuggingFacePipeline
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+import gradio as gr
+# 1. Load Arabic plain text
 loader = TextLoader("knowledge.txt", encoding="utf-8")
+documents = loader.load()
+# 2. Split into chunks
+text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=100)
+docs = text_splitter.split_documents(documents)
+# 3. Arabic-compatible embeddings
 embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+# 4. Store chunks in FAISS
+vectorstore = FAISS.from_documents(docs, embeddings)
+retriever = vectorstore.as_retriever()
+# 5. Load Arabic-compatible LLM
+model_name = "remzicam/arabic-llama-cpu"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+generator = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    max_new_tokens=256,
+    temperature=0.7,
+    do_sample=True,
 )
+llm = HuggingFacePipeline(pipeline=generator)
+# 6. Retrieval + QA chain
+qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
+# 7. Gradio Interface
+def answer_question(question):
+    result = qa_chain.run(question)
+    return result[:1500]
+gr.Interface(fn=answer_question, inputs="text", outputs="text", title="🤖 الدليل العربي الذكي").launch()