Final_Assignment_Template

Sleeping

App Files Files Community

Ramja commited on Jun 24, 2025

Commit

fe76cc0

verified ·

1 Parent(s): f0a86d4

Update tools.py

Browse files

Add a tool for youtube transcripts

Files changed (1) hide show

tools.py +48 -0

tools.py CHANGED Viewed

@@ -1,7 +1,55 @@
 from smolagents import DuckDuckGoSearchTool, Tool, VisitWebpageTool
 from langchain_community.agent_toolkits.load_tools import load_tools
 import os
 # Initialize the search tools

 from smolagents import DuckDuckGoSearchTool, Tool, VisitWebpageTool
 from langchain_community.agent_toolkits.load_tools import load_tools
 import os
+from typing import List, Optional
+from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound
+from smolagents import tool
+@tool
+def youtube_transcript_search(
+    video_id: str,
+    query: str,
+    top_k: Optional[int] = 5
+) -> List[dict]:
+    """
+    Search a YouTube transcript for occurrences of a query string.
+    Args:
+        video_id (str): The YouTube video ID (after 'v=' in the URL).
+        query (str): The search term to look for in the transcript (case-insensitive).
+        top_k (Optional[int]): Maximum number of matches to return (default: 5).
+    Returns:
+        List[dict]: A list of up to top_k matches, each a dict with:
+            - 'time': float start time in seconds
+            - 'text_snippet': snippet of transcript containing the query
+    """
+    try:
+        # Fetch transcript (choose auto-generated or manually created)
+        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
+        # prefer generated if manual unavailable
+        transcript = transcript_list.find_manually_created_transcript(['en']) or transcript_list.find_generated_transcript(['en'])
+        segments = transcript.fetch()
+    except (TranscriptsDisabled, NoTranscriptFound) as e:
+        return [{"time": 0.0, "text_snippet": f"No transcript found: {str(e)}"}]
+    # Search query in segments
+    query_lower = query.lower()
+    hits = []
+    for seg in segments:
+        if query_lower in seg["text"].lower():
+            hits.append({
+                "time": seg["start"],
+                "text_snippet": seg["text"]
+            })
+            if len(hits) >= top_k:
+                break
+    if not hits:
+        return [{"time": 0.0, "text_snippet": "No matches found."}]
+    return hits
 # Initialize the search tools