HG_Agent_Course_Final_Assignment

Runtime error

App Files Files Community

Klass777 commited on May 5, 2025

Commit

ff57f72

verified ·

1 Parent(s): e0d5650

add transcribe_audio_file tool

Browse files

Files changed (1) hide show

app.py +54 -1

app.py CHANGED Viewed

@@ -13,6 +13,8 @@ from youtube_transcript_api import YouTubeTranscriptApi
 from youtube_transcript_api._errors import TranscriptsDisabled, NoTranscriptFound, VideoUnavailable
 from urllib.parse import urlparse, parse_qs
 import json
 # (Keep Constants as is)
@@ -20,6 +22,57 @@ import json
 DEFAULT_API_URL = "https://agents-course-unit4-scoring.hf.space"
 @tool
 def get_youtube_transcript(video_url: str) -> str:
     """
@@ -87,7 +140,7 @@ class BasicAgent:
         model = OpenAIServerModel(api_key=os.environ.get("OPENAI_API_KEY"), model_id="gpt-4o")
         self.code_agent = ToolCallingAgent(
-            tools=[PythonInterpreterTool(), DuckDuckGoSearchTool(), VisitWebpageTool(), SpeechToTextTool(),
                    get_youtube_transcript,
                    FinalAnswerTool()],
             model=model,

 from youtube_transcript_api._errors import TranscriptsDisabled, NoTranscriptFound, VideoUnavailable
 from urllib.parse import urlparse, parse_qs
 import json
+import whisper
 # (Keep Constants as is)
 DEFAULT_API_URL = "https://agents-course-unit4-scoring.hf.space"
+@tool
+def transcribe_audio_file(file_path: str) -> str:
+    """
+    Transcribes a local MP3 audio file using Whisper.
+    Args:
+        file_path: Full path to the .mp3 audio file.
+    Returns:
+        A JSON-formatted string containing either the transcript or an error message.
+        {
+            "success": true,
+            "transcript": [
+                {"start": 0.0, "end": 5.2, "text": "Hello and welcome"},
+                ...
+            ]
+        }
+        OR
+        {
+            "success": false,
+            "error": "Reason why transcription failed"
+        }
+    """
+    try:
+        if not os.path.exists(file_path):
+            return json.dumps({"success": False, "error": "File does not exist."})
+        if not file_path.lower().endswith(".mp3"):
+            return json.dumps({"success": False, "error": "Invalid file type. Only MP3 files are supported."})
+        model = whisper.load_model("base")  # You can use 'tiny', 'base', 'small', 'medium', or 'large'
+        result = model.transcribe(file_path, verbose=False, word_timestamps=False)
+        transcript_data = [
+            {
+                "start": segment["start"],
+                "end": segment["end"],
+                "text": segment["text"].strip()
+            }
+            for segment in result["segments"]
+        ]
+        return json.dumps({"success": True, "transcript": transcript_data})
+    except Exception as e:
+        return json.dumps({"success": False, "error": str(e)}})
 @tool
 def get_youtube_transcript(video_url: str) -> str:
     """
         model = OpenAIServerModel(api_key=os.environ.get("OPENAI_API_KEY"), model_id="gpt-4o")
         self.code_agent = ToolCallingAgent(
+            tools=[PythonInterpreterTool(), DuckDuckGoSearchTool(), VisitWebpageTool(), transcribe_audio_file,
                    get_youtube_transcript,
                    FinalAnswerTool()],
             model=model,