Spaces:

MahatirTusher
/

LazyAss-AI-Reader

Sleeping

App Files Files Community

MahatirTusher commited on Apr 22, 2025

Commit

aa8ba53

verified ·

1 Parent(s): 70ccb58

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -42

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import streamlit as st
 from dotenv import load_dotenv
 from langchain_community.document_loaders.url import UnstructuredURLLoader
-from langchain.embeddings import HuggingFaceEmbeddings  # Local embeddings
 from langchain_community.vectorstores.faiss import FAISS
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 import os
@@ -9,7 +9,7 @@ import time
 from langchain_groq import ChatGroq
 from langchain.chains.qa_with_sources.retrieval import RetrievalQAWithSourcesChain
-# Load environment variables (optional, not needed for hardcoded key)
 load_dotenv()
 # Hardcoded Groq API key (NOT RECOMMENDED for production)
@@ -19,11 +19,16 @@ GROQ_API_KEY = "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"
 st.title("News Research Tool 📈")
 st.sidebar.title("News Article URLs")
 # Get URLs from user input
 urls = []
 for i in range(3):
     url = st.sidebar.text_input(f"URL {i+1}")
-    urls.append(url)
 # Button to process URLs
 process_url_clicked = st.sidebar.button("Process URLs")
@@ -45,45 +50,68 @@ def load_faiss_index(path, embeddings):
     return FAISS.load_local(path, embeddings, allow_dangerous_deserialization=True)
 if process_url_clicked:
-    try:
-        loader = UnstructuredURLLoader(urls=urls)
-        main_placeholder.text("Data Loading...Started...✅✅✅")
-        data = loader.load()
-        text_splitter = RecursiveCharacterTextSplitter(
-            separators=['\n\n', '\n', '.', ','],
-            chunk_size=1000
-        )
-        main_placeholder.text("Text Splitter...Started...✅✅✅")
-        docs = text_splitter.split_documents(data)
-        # Use local embeddings (no Hugging Face API token)
-        embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-        vectorstore_openai = FAISS.from_documents(docs, embeddings)
-        main_placeholder.text("Embedding Vector Started Building...✅✅✅")
-        time.sleep(2)
-        save_faiss_index(vectorstore_openai, faiss_index_path)
-    except Exception as e:
-        main_placeholder.error(f"Error processing URLs: {str(e)}")
-query = main_placeholder.text_input("Question: ")
-if query:
-    if os.path.exists(faiss_index_path):
         try:
             embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-            vectorstore = load_faiss_index(faiss_index_path, embeddings)
-            chain = RetrievalQAWithSourcesChain.from_llm(llm=llm, retriever=vectorstore.as_retriever())
-            result = chain({"question": query}, return_only_outputs=True)
-            st.header("Answer")
-            st.write(result["answer"])
-            sources = result.get("sources", "")
-            if sources:
-                st.subheader("Sources:")
-                sources_list = sources.split("\n")
-                for source in sources_list:
-                    st.write(source)
         except Exception as e:
-            main_placeholder.error(f"Error answering query: {str(e)}")

 import streamlit as st
 from dotenv import load_dotenv
 from langchain_community.document_loaders.url import UnstructuredURLLoader
+from langchain.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores.faiss import FAISS
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 import os
 from langchain_groq import ChatGroq
 from langchain.chains.qa_with_sources.retrieval import RetrievalQAWithSourcesChain
+# Load environment variables (optional)
 load_dotenv()
 # Hardcoded Groq API key (NOT RECOMMENDED for production)
 st.title("News Research Tool 📈")
 st.sidebar.title("News Article URLs")
+# Initialize session state for FAISS index
+if "index_created" not in st.session_state:
+    st.session_state.index_created = False
 # Get URLs from user input
 urls = []
 for i in range(3):
     url = st.sidebar.text_input(f"URL {i+1}")
+    if url:
+        urls.append(url)
 # Button to process URLs
 process_url_clicked = st.sidebar.button("Process URLs")
     return FAISS.load_local(path, embeddings, allow_dangerous_deserialization=True)
 if process_url_clicked:
+    if not urls:
+        main_placeholder.error("Please provide at least one valid URL.")
+    else:
         try:
+            main_placeholder.text("Data Loading...Started...✅✅✅")
+            loader = UnstructuredURLLoader(urls=urls)
+            data = loader.load()
+            # Debug: Check loaded data
+            if not data:
+                main_placeholder.error("No content loaded from URLs. Try different URLs.")
+                st.stop()
+            main_placeholder.text("Text Splitter...Started...✅✅✅")
+            text_splitter = RecursiveCharacterTextSplitter(
+                separators=['\n\n', '\n', '.', ','],
+                chunk_size=1000
+            )
+            docs = text_splitter.split_documents(data)
+            # Debug: Check document count
+            main_placeholder.text(f"Split into {len(docs)} document chunks.")
+            main_placeholder.text("Embedding Vector Started Building...✅✅✅")
             embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+            vectorstore_openai = FAISS.from_documents(docs, embeddings)
+            save_faiss_index(vectorstore_openai, faiss_index_path)
+            st.session_state.index_created = True
+            main_placeholder.text("FAISS index saved successfully! ✅✅✅")
+            time.sleep(2)
+            main_placeholder.empty()  # Clear status messages
         except Exception as e:
+            main_placeholder.error(f"Error processing URLs: {str(e)}")
+query = main_placeholder.text_input("Question: ")
+if query:
+    if not st.session_state.index_created or not os.path.exists(faiss_index_path):
+        main_placeholder.error("No FAISS index found. Please process URLs first.")
+    else:
+        with st.spinner("Processing your question..."):
+            try:
+                embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+                vectorstore = load_faiss_index(faiss_index_path, embeddings)
+                chain = RetrievalQAWithSourcesChain.from_llm(llm=llm, retriever=vectorstore.as_retriever())
+                result = chain({"question": query}, return_only_outputs=True)
+                # Debug: Check result
+                if not result.get("answer"):
+                    main_placeholder.warning("No answer generated. Try a different question or URLs.")
+                    st.stop()
+                st.header("Answer")
+                st.write(result["answer"])
+                sources = result.get("sources", "")
+                if sources:
+                    st.subheader("Sources:")
+                    sources_list = sources.split("\n")
+                    for source in sources_list:
+                        st.write(source)
+                else:
+                    st.write("No sources found.")
+            except Exception as e:
+                main_placeholder.error(f"Error answering query: {str(e)}")