Spaces:

msaid1976
/

Text_Summarization

Running

App Files Files Community

Codex commited on 29 days ago

Commit

494d4ff

1 Parent(s): a05e32e

Harden YouTube transcript loading on Hugging Face

Browse files

Files changed (2) hide show

README.md +9 -0
app.py +86 -3

README.md CHANGED Viewed

@@ -23,3 +23,12 @@ This Space runs a Streamlit app for summarizing:
 Add this secret in the Space settings:
 - `GROQ_API_KEY`

 Add this secret in the Space settings:
 - `GROQ_API_KEY`
+## YouTube On Hugging Face Spaces
+YouTube transcript loading may work locally but fail on Hugging Face Spaces because YouTube frequently blocks or rate-limits datacenter IP ranges. The app now retries transient HTTPS failures and supports proxy configuration through Space secrets:
+- `YOUTUBE_HTTP_PROXY`
+- `YOUTUBE_HTTPS_PROXY`
+You can also use the standard `HTTP_PROXY` and `HTTPS_PROXY` environment variables if that matches your setup.

app.py CHANGED Viewed

@@ -16,12 +16,16 @@ from langchain_core.prompts import PromptTemplate
 from langchain_groq import ChatGroq
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from pypdf import PdfReader
 from requests import RequestException
 from youtube_transcript_api import YouTubeTranscriptApi
 load_dotenv()
 SAMPLE_YOUTUBE_URL = "https://youtu.be/ocBh08fjIfU"
 LANGUAGE_OPTIONS = ["Original", "English", "Arabic", "French", "Bahasa Malay"]
 LANGUAGE_CODE_MAP = {
@@ -36,6 +40,12 @@ LANGUAGE_LABEL_MAP = {
     "French": "French",
     "Bahasa Malay": "Bahasa Melayu",
 }
 st.set_page_config(page_title="Summarize Text From PDF, YouTube, Website", page_icon="📝")
 st.title("📝 Summarize Text From PDF, YouTube, Website")
@@ -75,6 +85,7 @@ transcript_language = "Original"
 with st.sidebar:
     st.header("Options")
     input_source_mode = st.radio(
         "Content source",
         options=["URL", "Upload documents", "Both"],
@@ -111,6 +122,14 @@ with st.sidebar:
         "`stuff` is fastest for short content, `map_reduce` is safer for long content, "
         "and `refine` is useful when building a summary progressively across chunks."
     )
     st.caption(f"Sample YouTube URL: `{SAMPLE_YOUTUBE_URL}`")
     if st.button("Use sample YouTube URL"):
         st.session_state.url_input = SAMPLE_YOUTUBE_URL
@@ -272,9 +291,70 @@ def _translate_documents_with_llm(docs: list[Document], target_language: str) ->
     return translated_docs
 def _resolve_transcript(video_id: str, selected_language: str):
-    api = YouTubeTranscriptApi()
-    transcript_list = api.list(video_id)
     available_transcripts = list(transcript_list)
     if selected_language == "Original":
@@ -322,7 +402,10 @@ def _load_youtube_documents(url: str, selected_language: str) -> list[Document]:
         transcript, transcript_language_label = _resolve_transcript(video_id, "Original")
         should_translate_with_llm = True
-    fetched_transcript = transcript.fetch()
     transcript_text = " ".join(snippet.text.strip() for snippet in fetched_transcript if snippet.text.strip())
     if not transcript_text:
         raise ValueError("No transcript text could be extracted from this video.")

 from langchain_groq import ChatGroq
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from pypdf import PdfReader
+from requests.adapters import HTTPAdapter
 from requests import RequestException
+from requests.exceptions import SSLError
+from urllib3.util.retry import Retry
 from youtube_transcript_api import YouTubeTranscriptApi
 load_dotenv()
+APP_VERSION = "2026-04-23-hf-youtube-fix-2"
 SAMPLE_YOUTUBE_URL = "https://youtu.be/ocBh08fjIfU"
 LANGUAGE_OPTIONS = ["Original", "English", "Arabic", "French", "Bahasa Malay"]
 LANGUAGE_CODE_MAP = {
     "French": "French",
     "Bahasa Malay": "Bahasa Melayu",
 }
+YOUTUBE_PROXY_ENV_VARS = (
+    "YOUTUBE_HTTP_PROXY",
+    "YOUTUBE_HTTPS_PROXY",
+    "HTTP_PROXY",
+    "HTTPS_PROXY",
+)
 st.set_page_config(page_title="Summarize Text From PDF, YouTube, Website", page_icon="📝")
 st.title("📝 Summarize Text From PDF, YouTube, Website")
 with st.sidebar:
     st.header("Options")
+    st.caption(f"App version: `{APP_VERSION}`")
     input_source_mode = st.radio(
         "Content source",
         options=["URL", "Upload documents", "Both"],
         "`stuff` is fastest for short content, `map_reduce` is safer for long content, "
         "and `refine` is useful when building a summary progressively across chunks."
     )
+    if os.getenv("SPACE_ID"):
+        if _has_youtube_proxy_config():
+            st.info("Hugging Face Space detected. YouTube proxy configuration is present.")
+        else:
+            st.warning(
+                "Hugging Face Space detected. YouTube transcript loading may fail without "
+                "a proxy because YouTube often blocks datacenter IPs."
+            )
     st.caption(f"Sample YouTube URL: `{SAMPLE_YOUTUBE_URL}`")
     if st.button("Use sample YouTube URL"):
         st.session_state.url_input = SAMPLE_YOUTUBE_URL
     return translated_docs
+def _has_youtube_proxy_config() -> bool:
+    return any(os.getenv(var_name) for var_name in YOUTUBE_PROXY_ENV_VARS)
+def _build_youtube_http_client() -> requests.Session:
+    session = requests.Session()
+    session.headers.update(
+        {
+            "User-Agent": (
+                "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 "
+                "(KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
+            ),
+            "Accept-Language": "en-US,en;q=0.9",
+            "Accept": "*/*",
+        }
+    )
+    retry_config = Retry(
+        total=3,
+        connect=3,
+        read=3,
+        backoff_factor=1,
+        status_forcelist=[429, 500, 502, 503, 504],
+        allowed_methods=["GET"],
+        raise_on_status=False,
+    )
+    adapter = HTTPAdapter(max_retries=retry_config)
+    session.mount("https://", adapter)
+    session.mount("http://", adapter)
+    if os.getenv("YOUTUBE_CA_BUNDLE"):
+        session.verify = os.getenv("YOUTUBE_CA_BUNDLE")
+    return session
+def _build_youtube_transcript_api() -> YouTubeTranscriptApi:
+    return YouTubeTranscriptApi(http_client=_build_youtube_http_client())
+def _format_youtube_transcript_error(error: Exception) -> str:
+    if isinstance(error, (SSLError, RequestException)):
+        proxy_hint = (
+            " Configure `YOUTUBE_HTTP_PROXY` / `YOUTUBE_HTTPS_PROXY` "
+            "or standard `HTTP_PROXY` / `HTTPS_PROXY` in the Space secrets."
+            if not _has_youtube_proxy_config()
+            else " Check that the configured outbound proxy is reachable from the Space."
+        )
+        return (
+            "[HF-YT-SSL-001] The deployment could not establish a stable HTTPS connection to YouTube. "
+            "This is common on cloud-hosted runtimes such as Hugging Face Spaces because "
+            "YouTube often blocks or interrupts traffic from datacenter IPs."
+            f"{proxy_hint}"
+        )
+    return str(error)
 def _resolve_transcript(video_id: str, selected_language: str):
+    api = _build_youtube_transcript_api()
+    try:
+        transcript_list = api.list(video_id)
+    except Exception as exc:
+        raise RuntimeError(_format_youtube_transcript_error(exc)) from exc
     available_transcripts = list(transcript_list)
     if selected_language == "Original":
         transcript, transcript_language_label = _resolve_transcript(video_id, "Original")
         should_translate_with_llm = True
+    try:
+        fetched_transcript = transcript.fetch()
+    except Exception as exc:
+        raise RuntimeError(_format_youtube_transcript_error(exc)) from exc
     transcript_text = " ".join(snippet.text.strip() for snippet in fetched_transcript if snippet.text.strip())
     if not transcript_text:
         raise ValueError("No transcript text could be extracted from this video.")