Spaces:

muddasser
/

Webscrapping_Playwright

Sleeping

App Files Files Community

muddasser commited on Aug 27, 2025

Commit

7229d87

verified ·

1 Parent(s): 2e1fc9a

Upload app.py

Browse files

Files changed (1) hide show

app.py +84 -0

app.py ADDED Viewed

	@@ -0,0 +1,84 @@

+import streamlit as st
+from selenium import webdriver
+from selenium.webdriver.chrome.service import Service
+from webdriver_manager.chrome import ChromeDriverManager
+from selenium.webdriver.chrome.options import Options
+import time
+from sentence_transformers import SentenceTransformer
+import faiss
+import numpy as np
+from transformers import pipeline
+# -------------------------------
+# 1. Setup Selenium (Headless Chrome for Hugging Face/Streamlit)
+# -------------------------------
+def init_driver():
+    chrome_options = Options()
+    chrome_options.add_argument("--headless")
+    chrome_options.add_argument("--disable-gpu")
+    chrome_options.add_argument("--no-sandbox")
+    chrome_options.add_argument("--disable-dev-shm-usage")
+    service = Service(ChromeDriverManager().install())
+    driver = webdriver.Chrome(service=service, options=chrome_options)
+    return driver
+# -------------------------------
+# 2. Scrape website text with Selenium
+# -------------------------------
+def scrape_website(url):
+    driver = init_driver()
+    driver.get(url)
+    time.sleep(3)  # wait for JS to load
+    text = driver.page_source  # raw HTML
+    driver.quit()
+    return text
+# -------------------------------
+# 3. Embed and store in FAISS
+# -------------------------------
+embedder = SentenceTransformer("all-MiniLM-L6-v2")
+dimension = 384
+index = faiss.IndexFlatL2(dimension)
+documents = []
+def add_to_faiss(text):
+    global documents
+    embedding = embedder.encode([text])
+    index.add(np.array(embedding, dtype="float32"))
+    documents.append(text)
+def retrieve(query, k=1):
+    q_emb = embedder.encode([query])
+    D, I = index.search(np.array(q_emb, dtype="float32"), k)
+    return [documents[i] for i in I[0]]
+# -------------------------------
+# 4. QA Model (FLAN-T5-small)
+# -------------------------------
+qa_pipeline = pipeline("text2text-generation", model="google/flan-t5-small")
+def answer_query(query):
+    context_docs = retrieve(query, k=1)
+    context = " ".join(context_docs)
+    prompt = f"Answer the question based on context:\nContext: {context}\nQuestion: {query}"
+    result = qa_pipeline(prompt, max_length=256, do_sample=False)
+    return result[0]['generated_text']
+# -------------------------------
+# 5. Streamlit App
+# -------------------------------
+st.title("🌐 Web Scraping + RAG (Selenium + FLAN-T5-small)")
+url = st.text_input("Enter website URL:")
+if url and st.button("Scrape & Index"):
+    scraped_text = scrape_website(url)
+    add_to_faiss(scraped_text)
+    st.success("✅ Website scraped and indexed successfully!")
+query = st.text_input("Ask a question:")
+if query and st.button("Get Answer"):
+    answer = answer_query(query)
+    st.write("**Answer:**", answer)