Spaces:

thomasanto7001
/

SmartScribe

Sleeping

App Files Files Community

thomasanto7001 commited on Jun 7, 2025

Commit

f3aa119

verified ·

1 Parent(s): 0fe9459

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -19

app.py CHANGED Viewed

@@ -6,12 +6,13 @@ import os
 import re
 import random
 import subprocess
 from sklearn.feature_extraction.text import TfidfVectorizer
-from sklearn.metrics.pairwise import cosine_similarity
 from nltk.tokenize import sent_tokenize
 from nltk.corpus import stopwords
-nltk.download('punkt_tab')
 nltk.download('stopwords')
 stop_words = set(stopwords.words('english'))
@@ -31,17 +32,37 @@ def extract_audio(video_path):
 def transcribe_audio(audio_path):
     model = whisper.load_model("base")
-    result = model.transcribe(audio_path)
-    return result["text"]
-def generate_summary(text, max_len=130):
-    summarizer = pipeline("summarization")
-    sentences = sent_tokenize(text)
-    chunks = [' '.join(sentences[i:i+10]) for i in range(0, len(sentences), 10)]
-    summary = ""
-    for chunk in chunks:
-        summary += summarizer(chunk, max_length=max_len, min_length=30, do_sample=False)[0]["summary_text"] + " "
-    return summary.strip()
 def generate_summary(text, max_len=130, min_len=30):
     summarizer = pipeline("summarization")
@@ -52,7 +73,7 @@ def generate_summary(text, max_len=130, min_len=30):
     for chunk in chunks:
         input_len = len(chunk.split())
         dynamic_max_len = min(max_len, max(20, input_len // 2))
-        dynamic_min_len = min(min_len, dynamic_max_len - 5)  # Ensure min_len < max_len
         result = summarizer(
             chunk,
@@ -94,13 +115,20 @@ def process_video(video_path, selected_services):
     results = {}
     print("🔧 Extracting audio...")
     audio_path = extract_audio(video_path)
-    transcription = transcribe_audio(audio_path) if "Transcription" in selected_services else None
-    if transcription:
-        results["transcription"] = transcription
         if "Summary" in selected_services:
-            results["summary"] = generate_summary(transcription)
         if "Subtitles" in selected_services:
-            results["subtitles"] = generate_subtitles(transcription)
         if "Quiz" in selected_services:
-            results["quiz"] = generate_quiz(transcription)
     return results

 import re
 import random
 import subprocess
+import datetime
 from sklearn.feature_extraction.text import TfidfVectorizer
 from nltk.tokenize import sent_tokenize
 from nltk.corpus import stopwords
+# Download necessary NLTK data
+nltk.download('punkt')
 nltk.download('stopwords')
 stop_words = set(stopwords.words('english'))
 def transcribe_audio(audio_path):
     model = whisper.load_model("base")
+    result = model.transcribe(audio_path, word_timestamps=True)  # includes segment timestamps
+    return result  # full result with segments
+def format_timestamp(seconds):
+    """Convert seconds to SRT timestamp format."""
+    td = datetime.timedelta(seconds=float(seconds))
+    return str(td)[:12].replace('.', ',')
+def generate_subtitles(transcription):
+    """
+    Generate subtitles in a format similar to SRT using Whisper's segment output.
+    Assumes transcription is a dict containing a 'segments' key with timestamps.
+    """
+    if not transcription or 'segments' not in transcription:
+        raise ValueError("Transcription must include 'segments'.")
+    subtitles = []
+    for idx, segment in enumerate(transcription['segments'], start=1):
+        start = format_timestamp(segment['start'])
+        end = format_timestamp(segment['end'])
+        text = segment['text'].strip()
+        subtitle = {
+            "index": idx,
+            "start": start,
+            "end": end,
+            "text": text
+        }
+        subtitles.append(subtitle)
+    return subtitles
 def generate_summary(text, max_len=130, min_len=30):
     summarizer = pipeline("summarization")
     for chunk in chunks:
         input_len = len(chunk.split())
         dynamic_max_len = min(max_len, max(20, input_len // 2))
+        dynamic_min_len = min(min_len, dynamic_max_len - 5)
         result = summarizer(
             chunk,
     results = {}
     print("🔧 Extracting audio...")
     audio_path = extract_audio(video_path)
+    transcription_result = transcribe_audio(audio_path) if "Transcription" in selected_services else None
+    transcription_text = transcription_result["text"] if transcription_result else None
+    if transcription_result:
+        results["transcription"] = transcription_text
         if "Summary" in selected_services:
+            results["summary"] = generate_summary(transcription_text)
         if "Subtitles" in selected_services:
+            results["subtitles"] = generate_subtitles(transcription_result)
         if "Quiz" in selected_services:
+            results["quiz"] = generate_quiz(transcription_text)
     return results