Spaces:

Rsnarsna
/

transcript

Sleeping

App Files Files Community

rsnarsna commited on May 31

Commit

f59712d

1 Parent(s): 24cacb3

refactor: Clean up imports and improve file path handling in app.py and gemini_transcript.py; update requirements.txt for new dependencies

Browse files

Files changed (3) hide show

app.py +20 -21
gemini_transcript.py +16 -12
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -1,3 +1,5 @@
 import os
 import json
 import base64
@@ -11,9 +13,8 @@ from pathlib import Path
 from email.mime.text import MIMEText
 from datetime import datetime, timezone
-from fastapi.responses import FileResponse
 from fastapi import FastAPI, Request, HTTPException
-from fastapi.responses import RedirectResponse, HTMLResponse
 from pydantic import BaseModel
 from google_auth_oauthlib.flow import Flow
@@ -32,12 +33,12 @@ from gemini_transcript import TranscriptSummaryPipeline
 os.environ.setdefault("OAUTHLIB_INSECURE_TRANSPORT", "1")
 BASE_DIR                = Path(__file__).resolve().parent
-CLIENT_SECRETS          = os.getenv("CLIENT_SECRETS",          str(BASE_DIR / "client_secret.json"))
-TOKEN_PATH              = os.getenv("GOOGLE_OAUTH_TOKEN_PATH",  str(BASE_DIR / "Google_oauth_token.json"))
-REDIRECT_URI            = os.getenv("REDIRECT_URI",             "http://localhost:8000/auth/callback")
 STATE_FILE              = BASE_DIR / "oauth_states.json"
-DEFAULT_SPREADSHEET_ID  = os.getenv("DEFAULT_SPREADSHEET_ID",  "1XA3vW_guHBT-ktkYvhktmUqcquECBe8exGZAoSQS3Ag")
-DEFAULT_DRIVE_FOLDER_ID = os.getenv("DEFAULT_DRIVE_FOLDER_ID", "1hI6dNXysR_2p9gHkDpsI-iwMExmy2hhR")
 SCOPES = [
     "https://www.googleapis.com/auth/spreadsheets",
@@ -45,10 +46,10 @@ SCOPES = [
     "https://www.googleapis.com/auth/drive.file",
 ]
-BASE_DIR        = Path(".")
-TRANSCRIPT_FILE = BASE_DIR / "output" / "transcript.txt"
-SUMMARY_FILE    = BASE_DIR / "output" / "summary.txt"
-QA_FILE         = BASE_DIR / "output" / "qa.txt"
 SHEETS_HEADERS = [
     "Timestamp",             # A
@@ -274,8 +275,8 @@ def upload_file_to_drive(
 ) -> dict:
     if creds is None:
         creds = require_credentials()
-    svc   = _drive(creds)
-    meta  = {"name": os.path.basename(filepath)}
     if folder_id:
         meta["parents"] = [folder_id]
     media   = MediaFileUpload(filepath, resumable=True)
@@ -556,7 +557,6 @@ def _update_sheet_record(
             print(f"[WARN] Row for job {job_id} not found in sheet.")
             return
-        # Read existing to preserve immutable columns
         existing     = read_sheet(
             DEFAULT_SPREADSHEET_ID,
             f"Sheet1!A{row_num}:N{row_num}",
@@ -613,7 +613,7 @@ def on_startup():
 @app.get("/")
 def root():
-     return FileResponse("index.html")
 @app.get("/health")
@@ -641,9 +641,9 @@ def health():
 @app.get("/auth/start")
 def auth_start():
-    flow        = create_flow()
-    verifier    = secrets.token_urlsafe(64)
-    challenge   = (
         base64.urlsafe_b64encode(hashlib.sha256(verifier.encode()).digest())
         .rstrip(b"=").decode()
     )
@@ -904,7 +904,6 @@ def _run_pipeline(job_id: str, youtube_url: str, email_to: str):
     creds     = load_credentials()
     timestamp = datetime.now(timezone.utc).strftime("%Y-%m-%d %H:%M:%S UTC")
-    # Create initial sheet row immediately
     _create_sheet_record(
         job_id=job_id,
         timestamp=timestamp,
@@ -1063,11 +1062,11 @@ Google Integration API
                 "model_used":  model_used,
                 "drive": {
                     "folder_id":  folder_id,
-                    "summary":    {
                         "web_view_link":        summary_drive.get("webViewLink"),
                         "direct_download_link": summary_link,
                     },
-                    "qa":         {
                         "web_view_link":        qa_drive.get("webViewLink"),
                         "direct_download_link": qa_link,
                     },

+#!/usr/bin/env python3
 import os
 import json
 import base64
 from email.mime.text import MIMEText
 from datetime import datetime, timezone
 from fastapi import FastAPI, Request, HTTPException
+from fastapi.responses import RedirectResponse, HTMLResponse, FileResponse
 from pydantic import BaseModel
 from google_auth_oauthlib.flow import Flow
 os.environ.setdefault("OAUTHLIB_INSECURE_TRANSPORT", "1")
 BASE_DIR                = Path(__file__).resolve().parent
+CLIENT_SECRETS          = os.getenv("CLIENT_SECRETS",           str(BASE_DIR / "client_secret.json"))
+TOKEN_PATH              = os.getenv("GOOGLE_OAUTH_TOKEN_PATH",   str(BASE_DIR / "Google_oauth_token.json"))
+REDIRECT_URI            = os.getenv("REDIRECT_URI",              "http://localhost:8000/auth/callback")
 STATE_FILE              = BASE_DIR / "oauth_states.json"
+DEFAULT_SPREADSHEET_ID  = os.getenv("DEFAULT_SPREADSHEET_ID",   "1XA3vW_guHBT-ktkYvhktmUqcquECBe8exGZAoSQS3Ag")
+DEFAULT_DRIVE_FOLDER_ID = os.getenv("DEFAULT_DRIVE_FOLDER_ID",  "1hI6dNXysR_2p9gHkDpsI-iwMExmy2hhR")
 SCOPES = [
     "https://www.googleapis.com/auth/spreadsheets",
     "https://www.googleapis.com/auth/drive.file",
 ]
+OUTPUT_DIR      = Path(".") / "output"
+TRANSCRIPT_FILE = OUTPUT_DIR / "transcript.txt"
+SUMMARY_FILE    = OUTPUT_DIR / "summary.txt"
+QA_FILE         = OUTPUT_DIR / "qa.txt"
 SHEETS_HEADERS = [
     "Timestamp",             # A
 ) -> dict:
     if creds is None:
         creds = require_credentials()
+    svc  = _drive(creds)
+    meta = {"name": os.path.basename(filepath)}
     if folder_id:
         meta["parents"] = [folder_id]
     media   = MediaFileUpload(filepath, resumable=True)
             print(f"[WARN] Row for job {job_id} not found in sheet.")
             return
         existing     = read_sheet(
             DEFAULT_SPREADSHEET_ID,
             f"Sheet1!A{row_num}:N{row_num}",
 @app.get("/")
 def root():
+    return FileResponse("index.html")
 @app.get("/health")
 @app.get("/auth/start")
 def auth_start():
+    flow      = create_flow()
+    verifier  = secrets.token_urlsafe(64)
+    challenge = (
         base64.urlsafe_b64encode(hashlib.sha256(verifier.encode()).digest())
         .rstrip(b"=").decode()
     )
     creds     = load_credentials()
     timestamp = datetime.now(timezone.utc).strftime("%Y-%m-%d %H:%M:%S UTC")
     _create_sheet_record(
         job_id=job_id,
         timestamp=timestamp,
                 "model_used":  model_used,
                 "drive": {
                     "folder_id":  folder_id,
+                    "summary": {
                         "web_view_link":        summary_drive.get("webViewLink"),
                         "direct_download_link": summary_link,
                     },
+                    "qa": {
                         "web_view_link":        qa_drive.get("webViewLink"),
                         "direct_download_link": qa_link,
                     },

gemini_transcript.py CHANGED Viewed

@@ -11,7 +11,9 @@ import time
 from pathlib import Path
 from typing import Optional, List
 from urllib.parse import urlparse, parse_qs
-# from google import genai
 from youtube_transcript_api import (
     YouTubeTranscriptApi,
@@ -267,10 +269,9 @@ class YouTubeTranscriptFetcher:
 class GeminiSummarizer:
     """Sends transcript to Gemini with model fallback + per-model retry."""
-    # Retry config
-    MAX_RETRIES  = 5
-    BASE_WAIT    = 10    # seconds
-    MAX_WAIT     = 120   # seconds cap
     # Errors → retry same model with backoff
     RETRYABLE    = ["503", "502", "500", "UNAVAILABLE", "SERVICE_UNAVAILABLE"]
@@ -308,7 +309,9 @@ class GeminiSummarizer:
                     response = self.client.models.generate_content(
                         model=model,
                         contents=transcript,
-                        config={"system_instruction": SYSTEM_PROMPT},
                     )
                     logger.info(
                         "✅ Response received from: %s (attempt %d)",
@@ -325,21 +328,19 @@ class GeminiSummarizer:
                             "   [%d/%d] %s — quota/not-found, skipping to next model.",
                             attempt, self.MAX_RETRIES, model,
                         )
-                        break  # skip to next model
                     elif any(k in err for k in self.RETRYABLE):
                         if attempt < self.MAX_RETRIES:
                             logger.warning(
-                                "   [%d/%d] %s — transient error. "
-                                "Retrying in %ds...",
                                 attempt, self.MAX_RETRIES, model, wait,
                             )
                             time.sleep(wait)
                             wait = min(wait * 2, self.MAX_WAIT)
                         else:
                             logger.warning(
-                                "   [%d/%d] %s — max retries reached, "
-                                "trying next model.",
                                 attempt, self.MAX_RETRIES, model,
                             )
@@ -368,6 +369,9 @@ class GeminiSummarizer:
         full, model_used = self._call_api(transcript)
         summary, qa      = self._split(full)
         self.summary_file.write_text(summary, encoding="utf-8")
         self.qa_file.write_text(qa,           encoding="utf-8")
@@ -425,7 +429,7 @@ class TranscriptSummaryPipeline:
 def main():
     if len(sys.argv) < 2:
-        print("Usage: python gemini.py <youtube_url>", file=sys.stderr)
         sys.exit(1)
     pipeline = TranscriptSummaryPipeline(

 from pathlib import Path
 from typing import Optional, List
 from urllib.parse import urlparse, parse_qs
+from google import genai                          # pip install google-genai
+from google.genai import types
 from youtube_transcript_api import (
     YouTubeTranscriptApi,
 class GeminiSummarizer:
     """Sends transcript to Gemini with model fallback + per-model retry."""
+    MAX_RETRIES = 5
+    BASE_WAIT   = 10    # seconds
+    MAX_WAIT    = 120   # seconds cap
     # Errors → retry same model with backoff
     RETRYABLE    = ["503", "502", "500", "UNAVAILABLE", "SERVICE_UNAVAILABLE"]
                     response = self.client.models.generate_content(
                         model=model,
                         contents=transcript,
+                        config=types.GenerateContentConfig(
+                            system_instruction=SYSTEM_PROMPT,
+                        ),
                     )
                     logger.info(
                         "✅ Response received from: %s (attempt %d)",
                             "   [%d/%d] %s — quota/not-found, skipping to next model.",
                             attempt, self.MAX_RETRIES, model,
                         )
+                        break
                     elif any(k in err for k in self.RETRYABLE):
                         if attempt < self.MAX_RETRIES:
                             logger.warning(
+                                "   [%d/%d] %s — transient error. Retrying in %ds...",
                                 attempt, self.MAX_RETRIES, model, wait,
                             )
                             time.sleep(wait)
                             wait = min(wait * 2, self.MAX_WAIT)
                         else:
                             logger.warning(
+                                "   [%d/%d] %s — max retries reached, trying next model.",
                                 attempt, self.MAX_RETRIES, model,
                             )
         full, model_used = self._call_api(transcript)
         summary, qa      = self._split(full)
+        self.summary_file.parent.mkdir(parents=True, exist_ok=True)
+        self.qa_file.parent.mkdir(parents=True, exist_ok=True)
         self.summary_file.write_text(summary, encoding="utf-8")
         self.qa_file.write_text(qa,           encoding="utf-8")
 def main():
     if len(sys.argv) < 2:
+        print("Usage: python gemini_transcript.py <youtube_url>", file=sys.stderr)
         sys.exit(1)
     pipeline = TranscriptSummaryPipeline(

requirements.txt CHANGED Viewed

@@ -4,4 +4,6 @@ google-api-python-client
 google-auth-httplib2
 google-auth-oauthlib
 requests
-youtube_transcript_api

 google-auth-httplib2
 google-auth-oauthlib
 requests
+youtube_transcript_api
+google-generativeai
+google-genai