Spaces:

Ashkchamp
/

MultiSummarizationApp

Sleeping

App Files Files Community

Ashkchamp commited on Apr 16, 2025

Commit

dbd3c04

verified ·

1 Parent(s): ea01fbf

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -52

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
-# app.py  –  Streamlit Summarizer (dotenv version)
 import os, re, validators, streamlit as st
-from dotenv import load_dotenv                                # ← NEW
 from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, VideoUnavailable
 from langchain.prompts import PromptTemplate
 from langchain.chains.summarize import load_summarize_chain
@@ -9,92 +8,66 @@ from langchain.schema import Document
 from langchain_community.document_loaders import UnstructuredURLLoader
 from langchain.document_loaders import PyPDFLoader
-# ───────────────  load variables from .env  (runs before anything else)
-load_dotenv()                              # looks for .env in project root
-GROQ_KEY = os.getenv("GROQ_API_KEY")       # expect GROQ_API_KEY=xxx in .env
-# ──────────────────────────  STREAMLIT CONFIG  ────────────────────────
 st.set_page_config(page_title="LangChain Summarizer", page_icon="🦜")
 st.title("🦜 LangChain: Summarize YT / Webpage / PDF")
-# ─────────────────────  PLACEHOLDERS / FILE & URL INPUT  ──────────────
-generic_url   = st.text_input("Paste a YouTube / web URL here:")
 uploaded_file = st.file_uploader("…or upload a PDF", type=["pdf"])
-# ──────────────────────────  UTILITY FUNCTIONS  ───────────────────────
-def get_video_id(url: str) -> str | None:
     m = re.search(r"(?:v=|\/)([0-9A-Za-z_-]{11})", url)
     return m.group(1) if m else None
-SUMMARY_PROMPT = PromptTemplate(
-    template="Provide a concise summary (~300 words):\n\nContent:\n{text}",
-    input_variables=["text"],
-)
-def build_llm() -> ChatGroq:
-    """Instantiate ChatGroq once and cache it in session_state."""
     if "llm" not in st.session_state:
         if not GROQ_KEY:
-            raise RuntimeError(
-                "❌ Groq API key not found. "
-                "Add GROQ_API_KEY to a `.env` file or the environment."
-            )
-        st.session_state.llm = ChatGroq(
-            model="deepseek-r1-distill-llama-70b",
-            groq_api_key=GROQ_KEY,
-        )
     return st.session_state.llm
 def summarize(docs):
-    llm   = build_llm()
-    chain = load_summarize_chain(llm, chain_type="stuff", prompt=SUMMARY_PROMPT)
-    return chain({"input_documents": docs})["output_text"]
-# ─────────────────────────────  MAIN ACTION  ──────────────────────────
 if st.button("Summarize"):
     if not GROQ_KEY:
-        st.error("Groq key missing. Set **GROQ_API_KEY** in your `.env`.")
     elif not generic_url and not uploaded_file:
-        st.error("Provide a URL or upload a PDF, then press Summarize.")
     else:
         try:
-            with st.spinner("Fetching and summarizing…"):
-                # ---------- PDF ----------
                 if uploaded_file:
                     tmp_path = f"/tmp/{uploaded_file.name}"
                     with open(tmp_path, "wb") as f:
                         f.write(uploaded_file.read())
                     docs = PyPDFLoader(tmp_path).load()
-                    st.success(summarize(docs))
                     os.remove(tmp_path)
-                # ---------- YouTube ----------
                 elif "youtube" in generic_url or "youtu.be" in generic_url:
                     vid = get_video_id(generic_url)
                     if not vid:
-                        st.error("Couldn’t extract a YouTube video ID 🤔")
                     else:
                         transcript = YouTubeTranscriptApi.get_transcript(vid)
                         text = " ".join(t["text"] for t in transcript)
-                        st.success(summarize([Document(page_content=text)]))
-                # ---------- Plain Webpage ----------
                 else:
                     if not validators.url(generic_url):
-                        st.error("That doesn’t look like a valid URL.")
                     else:
-                        docs = UnstructuredURLLoader(
-                            urls=[generic_url],
-                            ssl_verify=False,
-                            headers={
-                                "User-Agent":
-                                "Mozilla/5.0 (X11; Linux) AppleWebKit/537.36 "
-                                "(KHTML, like Gecko) Chrome/121.0 Safari/537.36"
-                            },
-                        ).load()
                         st.success(summarize(docs))
         except (TranscriptsDisabled, VideoUnavailable) as yt_err:
             st.error(str(yt_err))
         except Exception as e:

 import os, re, validators, streamlit as st
+from dotenv import load_dotenv
 from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, VideoUnavailable
 from langchain.prompts import PromptTemplate
 from langchain.chains.summarize import load_summarize_chain
 from langchain_community.document_loaders import UnstructuredURLLoader
 from langchain.document_loaders import PyPDFLoader
+load_dotenv()
+GROQ_KEY = os.getenv("GROQ_API_KEY")
 st.set_page_config(page_title="LangChain Summarizer", page_icon="🦜")
 st.title("🦜 LangChain: Summarize YT / Webpage / PDF")
+generic_url = st.text_input("Paste a YouTube / web URL here:")
 uploaded_file = st.file_uploader("…or upload a PDF", type=["pdf"])
+MAP_PROMPT = PromptTemplate(template="Write a concise summary of the following:\n\n{text}", input_variables=["text"])
+COMBINE_PROMPT = PromptTemplate(template="Provide an overall summary (~300 words):\n\n{text}", input_variables=["text"])
+def get_video_id(url: str):
     m = re.search(r"(?:v=|\/)([0-9A-Za-z_-]{11})", url)
     return m.group(1) if m else None
+def build_llm():
     if "llm" not in st.session_state:
         if not GROQ_KEY:
+            raise RuntimeError("Groq API key missing")
+        st.session_state.llm = ChatGroq(model="llama3-70b-8192", groq_api_key=GROQ_KEY, timeout=60_000)
     return st.session_state.llm
 def summarize(docs):
+    llm = build_llm()
+    chain = load_summarize_chain(llm, chain_type="map_reduce", map_prompt=MAP_PROMPT, combine_prompt=COMBINE_PROMPT)
+    return chain.invoke({"input_documents": docs})["output_text"]
+def chunk_text(text, size=4000):
+    return [Document(page_content=text[i:i+size]) for i in range(0, len(text), size)]
 if st.button("Summarize"):
     if not GROQ_KEY:
+        st.error("Groq key missing")
     elif not generic_url and not uploaded_file:
+        st.error("Provide a URL or upload a PDF")
     else:
         try:
+            with st.spinner("Processing"):
                 if uploaded_file:
                     tmp_path = f"/tmp/{uploaded_file.name}"
                     with open(tmp_path, "wb") as f:
                         f.write(uploaded_file.read())
                     docs = PyPDFLoader(tmp_path).load()
                     os.remove(tmp_path)
+                    st.success(summarize(docs))
                 elif "youtube" in generic_url or "youtu.be" in generic_url:
                     vid = get_video_id(generic_url)
                     if not vid:
+                        st.error("Invalid YouTube URL")
                     else:
                         transcript = YouTubeTranscriptApi.get_transcript(vid)
                         text = " ".join(t["text"] for t in transcript)
+                        st.success(summarize(chunk_text(text)))
                 else:
                     if not validators.url(generic_url):
+                        st.error("Invalid URL")
                     else:
+                        docs = UnstructuredURLLoader(urls=[generic_url], ssl_verify=False, headers={"User-Agent":"Mozilla/5.0"}).load()
                         st.success(summarize(docs))
         except (TranscriptsDisabled, VideoUnavailable) as yt_err:
             st.error(str(yt_err))
         except Exception as e: