Spaces:

sbby
/

YoutubeVideoSummarizer

Sleeping

App Files Files Community

sbby commited on Aug 9, 2025

Commit

eae03cd

verified ·

1 Parent(s): 3e0e1f6

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -33

app.py CHANGED Viewed

@@ -5,55 +5,71 @@ import torch
 import gradio as gr
 from transformers import pipeline
-text_summary = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6", torch_dtype=torch.bfloat16)
-# model_path = ("../Models/models--sshleifer--distilbart-cnn-12-6/snapshots"
-#               "/a4f8f3ea906ed274767e9906dbaede7531d660ff")
-# text_summary = pipeline("summarization", model=model_path,
-#                 torch_dtype=torch.bfloat16)
-def summary (input):
-    output = text_summary(input)
-    return output[0]['summary_text']
 def extract_video_id(url):
-    # Regex to extract the video ID from various YouTube URL formats
     regex = r"(?:youtube\.com\/(?:[^\/\n\s]+\/\S+\/|(?:v|e(?:mbed)?)\/|\S*?[?&]v=)|youtu\.be\/)([a-zA-Z0-9_-]{11})"
     match = re.search(regex, url)
-    if match:
-        return match.group(1)
-    return None
 def get_youtube_transcript(video_url):
     video_id = extract_video_id(video_url)
     if not video_id:
         return "Video ID could not be extracted."
     try:
-        # Fetch the transcript
-        transcript = YouTubeTranscriptApi.get_transcript(video_id)
-        # Format the transcript into plain text
         formatter = TextFormatter()
         text_transcript = formatter.format_transcript(transcript)
-        summary_text = summary(text_transcript)
-        return summary_text
     except Exception as e:
         return f"An error occurred: {e}"
-# Example URL (Replace this with the actual URL when using the script)
-# video_url = "https://youtu.be/5PibknhIsTc"
-# print(get_youtube_transcript(video_url))
-gr.close_all()
-# demo = gr.Interface(fn=summary, inputs="text",outputs="text")
-demo = gr.Interface(fn=get_youtube_transcript,
-                    inputs=[gr.Textbox(label="Input YouTube Url to summarize",lines=1)],
-                    outputs=[gr.Textbox(label="Summarized text",lines=4)],
-                    title="@GenAILearniverse Project 2: YouTube Script Summarizer",
-                    description="THIS APPLICATION WILL BE USED TO SUMMARIZE THE YOUTUBE VIDEO SCRIPT.")
-demo.launch()

 import gradio as gr
 from transformers import pipeline
+# Auto-select device (GPU if available)
+device = 0 if torch.cuda.is_available() else -1
+# Load summarization model
+text_summary = pipeline(
+    "summarization",
+    model="sshleifer/distilbart-cnn-12-6",
+    device=device
+)
+def chunk_text(text, max_chunk_length=800):
+    """
+    Splits text into chunks without breaking sentences.
+    """
+    chunks = []
+    while len(text) > 0:
+        part = text[:max_chunk_length]
+        last_period = part.rfind(".")
+        if last_period != -1:
+            part = text[:last_period + 1]
+        chunks.append(part.strip())
+        text = text[len(part):].strip()
+    return chunks
+def summary(input_text):
+    """
+    Summarizes long text by breaking into chunks and summarizing each.
+    """
+    chunks = chunk_text(input_text)
+    summaries = [text_summary(chunk)[0]['summary_text'] for chunk in chunks]
+    return " ".join(summaries)
 def extract_video_id(url):
+    """
+    Extract YouTube video ID from various formats of YouTube URLs.
+    """
     regex = r"(?:youtube\.com\/(?:[^\/\n\s]+\/\S+\/|(?:v|e(?:mbed)?)\/|\S*?[?&]v=)|youtu\.be\/)([a-zA-Z0-9_-]{11})"
     match = re.search(regex, url)
+    return match.group(1) if match else None
 def get_youtube_transcript(video_url):
+    """
+    Fetch transcript from YouTube and summarize it.
+    """
     video_id = extract_video_id(video_url)
     if not video_id:
         return "Video ID could not be extracted."
     try:
+        # Use .fetch() instead of get_transcript (new API method)
+        transcript = YouTubeTranscriptApi.fetch(video_id)
         formatter = TextFormatter()
         text_transcript = formatter.format_transcript(transcript)
+        return summary(text_transcript)
     except Exception as e:
         return f"An error occurred: {e}"
+# Build Gradio Interface
+demo = gr.Interface(
+    fn=get_youtube_transcript,
+    inputs=[gr.Textbox(label="Input YouTube URL to summarize", lines=1)],
+    outputs=[gr.Textbox(label="Summarized text", lines=6)],
+    title="SBBY Project 2: YouTube Script Summarizer",
+    description="Summarize any YouTube video's transcript into a concise version."
+)
+if __name__ == "__main__":
+    demo.launch()