Spaces:

Sayiqa7
/

Youtube_summarization

Runtime error

App Files Files Community

Sayiqa7 commited on Dec 31, 2024

Commit

7a199b6

verified ·

1 Parent(s): 17d2cf6

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -55

app.py CHANGED Viewed

@@ -464,13 +464,13 @@ courses_data = [
     (5, "Mathematics", "Ms. Smith", "Intermediate")
 ]
 from transformers import pipeline
-# Load Hugging Face summarization pipeline
-summarizer = pipeline("summarization", model="t5-small", tokenizer="t5-small")
 def extract_video_id(url):
     match = re.search(r"(?:v=|\/)([0-9A-Za-z_-]{11})", url)
     return match.group(1) if match else None
 def get_video_metadata(video_id):
     try:
         youtube = build("youtube", "v3", developerKey=YOUTUBE_API_KEY)
@@ -484,78 +484,60 @@ def get_video_metadata(video_id):
                 "description": snippet.get("description", "No description available"),
             }
         return {}
     except Exception as e:
         return {"title": "Error fetching metadata", "description": str(e)}
-def clean_text_for_analysis(text):
-    return " ".join(text.split())
-def get_recommendations(keywords, max_results=5):
-    if not keywords:
-        return "Please provide search keywords"
-    try:
-        response = requests.get(
-            "https://www.googleapis.com/youtube/v3/search",
-            params={
-                "part": "snippet",
-                "q": f"educational {keywords}",
-                "type": "video",
-                "maxResults": max_results,
-                "relevanceLanguage": "en",
-                "key": YOUTUBE_API_KEY
-            }
-        ).json()
-        results = []
-        for item in response.get("items", []):
-            title = item["snippet"]["title"]
-            channel = item["snippet"]["channelTitle"]
-            video_id = item["id"]["videoId"]
-            results.append(f"\ud83d\udcfa {title}\n\ud83d\udc64 {channel}\n\ud83d\udd17 https://youtube.com/watch?v={video_id}\n")
-        return "\n".join(results) if results else "No recommendations found"
-    except Exception as e:
-        return f"Error: {str(e)}"
-def summarize_text(text):
-    try:
-        chunks = [text[i:i+1000] for i in range(0, len(text), 1000)]  # Summarize in chunks
-        summaries = summarizer(chunks, max_length=150, min_length=50, do_sample=False)
-        return " ".join([summary['summary_text'] for summary in summaries])
-    except Exception as e:
-        return f"Error during summarization: {str(e)}"
 def process_youtube_video(url):
     try:
-        thumbnail = None
-        detailed_summary = "No transcript available"
-        sentiment_label = "N/A"
         video_id = extract_video_id(url)
         if not video_id:
             return None, "Invalid YouTube URL", "N/A"
         thumbnail = f"https://img.youtube.com/vi/{video_id}/maxresdefault.jpg"
         try:
             transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
-            transcript = None
-            try:
-                transcript = transcript_list.find_transcript(['en'])
-            except:
-                transcript = transcript_list.find_generated_transcript(['en'])
-            text = " ".join([t['text'] for t in transcript.fetch()])
-            if not text.strip():
-                raise ValueError("Transcript is empty")
-            cleaned_text = clean_text_for_analysis(text)
-            detailed_summary = summarize_text(cleaned_text)
             sentiment = TextBlob(cleaned_text).sentiment
             sentiment_label = f"{'Positive' if sentiment.polarity > 0 else 'Negative' if sentiment.polarity < 0 else 'Neutral'} ({sentiment.polarity:.2f})"
         except (TranscriptsDisabled, NoTranscriptFound):
             metadata = get_video_metadata(video_id)
             detailed_summary = metadata.get("description", "No subtitles available")

     (5, "Mathematics", "Ms. Smith", "Intermediate")
 ]
 from transformers import pipeline
 def extract_video_id(url):
     match = re.search(r"(?:v=|\/)([0-9A-Za-z_-]{11})", url)
     return match.group(1) if match else None
+def clean_text(text):
+    return " ".join(text.split())
 def get_video_metadata(video_id):
     try:
         youtube = build("youtube", "v3", developerKey=YOUTUBE_API_KEY)
                 "description": snippet.get("description", "No description available"),
             }
         return {}
     except Exception as e:
         return {"title": "Error fetching metadata", "description": str(e)}
+def segment_transcript(transcript_text):
+    """Segment transcript into sections like intro, body, and conclusion."""
+    lines = transcript_text.split(". ")
+    intro = ". ".join(lines[:3])  # First 3 lines for intro
+    body = ". ".join(lines[3:-2])  # Middle lines for body
+    conclusion = ". ".join(lines[-2:])  # Last 2 lines for conclusion
+    return {"intro": intro, "body": body, "conclusion": conclusion}
+def summarize_text(text, summarizer):
+    """Summarize text using the provided summarization model."""
+    max_chunk_size = 512
+    chunks = [text[i:i + max_chunk_size] for i in range(0, len(text), max_chunk_size)]
+    summaries = summarizer(chunks, max_length=150, min_length=40, do_sample=False)
+    return " ".join(summary["summary_text"] for summary in summaries)
 def process_youtube_video(url):
     try:
         video_id = extract_video_id(url)
         if not video_id:
             return None, "Invalid YouTube URL", "N/A"
         thumbnail = f"https://img.youtube.com/vi/{video_id}/maxresdefault.jpg"
+        # Load summarization model
+        summarizer = pipeline("summarization", model="t5-small", tokenizer="t5-small")
         try:
+            # Fetch transcript
             transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
+            transcript = transcript_list.find_transcript(['en']).fetch()
+            transcript_text = " ".join([t['text'] for t in transcript])
+            cleaned_text = clean_text(transcript_text)
+            # Segment transcript into sections
+            segments = segment_transcript(cleaned_text)
+            # Summarize each section
+            intro_summary = summarize_text(segments["intro"], summarizer)
+            body_summary = summarize_text(segments["body"], summarizer)
+            conclusion_summary = summarize_text(segments["conclusion"], summarizer)
+            # Sentiment analysis
             sentiment = TextBlob(cleaned_text).sentiment
             sentiment_label = f"{'Positive' if sentiment.polarity > 0 else 'Negative' if sentiment.polarity < 0 else 'Neutral'} ({sentiment.polarity:.2f})"
+            detailed_summary = (
+                f"### Introduction\n{intro_summary}\n\n"
+                f"### Main Body\n{body_summary}\n\n"
+                f"### Conclusion\n{conclusion_summary}"
+            )
         except (TranscriptsDisabled, NoTranscriptFound):
             metadata = get_video_metadata(video_id)
             detailed_summary = metadata.get("description", "No subtitles available")