Spaces:

burhan112
/

AI-Lecture-Summarizer

Sleeping

App Files Files Community

burhan112 commited on Feb 11, 2025

Commit

e5b9ade

verified ·

1 Parent(s): 891eb65

Update app.py

Browse files

Files changed (1) hide show

app.py +86 -32

app.py CHANGED Viewed

@@ -3,61 +3,112 @@ import whisper
 from transformers import pipeline
 import gradio as gr
 import concurrent.futures
-# ✅ Load models once (Prevents reloading in every function call)
-print("Loading models...")
-whisper_model = whisper.load_model("small")
-summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-question_generator = pipeline("text2text-generation", model="google/flan-t5-large")
-print("Models loaded successfully!")
 def transcribe_audio(audio_path):
     print("Transcribing audio...")
-    result = whisper_model.transcribe(audio_path)
-    return result["text"]
 def summarize_text(text):
     print("Summarizing text using BART...")
-    text_chunks = [text[i:i+1024] for i in range(0, len(text), 1024)]
-    summaries = summarizer(text_chunks, max_length=200, min_length=50, do_sample=False)
-    return " ".join([s['summary_text'] for s in summaries])
 def generate_questions(text):
     print("Generating questions using FLAN-T5...")
-    text_chunks = [text[i:i+1024] for i in range(0, len(text), 1024)]
     questions = []
-    with concurrent.futures.ThreadPoolExecutor() as executor:
         future_questions = [
             executor.submit(
                 lambda chunk: question_generator(
-                    f"You are an AI tutor. Your task is to generate **insightful, topic-specific** questions based on the following passage. Ensure that the questions are relevant to the **key concepts, definitions, and explanations** present in the text. Avoid generic questions.\n\nPassage:\n{chunk}",
-                    max_length=120, num_return_sequences=3, do_sample=True
                 ),
                 chunk
             ) for chunk in text_chunks
         ]
         for future in future_questions:
-            generated = future.result()
-            questions.extend([q['generated_text'] for q in generated])
     return "\n".join(questions)
 def process_audio(audio_path):
-    with concurrent.futures.ThreadPoolExecutor() as executor:
-        transcribe_future = executor.submit(transcribe_audio, audio_path)
-        transcript = transcribe_future.result()
-        summarize_future = executor.submit(summarize_text, transcript)
-        questions_future = executor.submit(generate_questions, transcript)
-        summary = summarize_future.result()
-        questions = questions_future.result()
     combined_text = f"📝 Transcription:\n{transcript}\n\n📜 Summary:\n{summary}\n\n🤔 Practice Questions:\n{questions}"
     file_path = "lecture_summary.txt"
     with open(file_path, "w", encoding="utf-8") as f:
         f.write(combined_text)
@@ -66,6 +117,9 @@ def process_audio(audio_path):
 def gradio_interface(audio):
     return process_audio(audio)
 with gr.Blocks(css="""
     #submit-btn, #download-btn {
         background-color: blue !important;
@@ -106,4 +160,4 @@ with gr.Blocks(css="""
     download_button.click(lambda x: x, inputs=[download_btn], outputs=[download_btn])
-demo.launch(share=True)

 from transformers import pipeline
 import gradio as gr
 import concurrent.futures
+import os  # For environment variables
+print("Starting up...")
+# *** Model Loading - CPU Optimized & Size Considerations ***
+try:
+    # Option 1: Try "tiny" model.  Significantly faster on CPU, but lower accuracy.
+    whisper_model = whisper.load_model("tiny")
+    print("Using whisper 'tiny' model.")
+except Exception as e:
+    print(f"Error loading whisper 'tiny' model: {e}.  Trying 'small'.")
+    try:
+        whisper_model = whisper.load_model("small")
+        print("Using whisper 'small' model.")
+    except Exception as e2:
+        print(f"Error loading whisper 'small' model: {e2}.  Whisper will not work.")
+        whisper_model = None  # Disable whisper functionality
+try:
+    summarizer = pipeline("summarization", model="facebook/bart-large-cnn", device=-1)  # device=-1 forces CPU
+    question_generator = pipeline("text2text-generation", model="google/flan-t5-large", device=-1) # device=-1 forces CPU
+    print("Summarizer and Question Generator loaded successfully.")
+except Exception as e:
+    print(f"Error loading Summarizer or Question Generator: {e}")
+    summarizer = None
+    question_generator = None
+    print("Summarization and Question Generation will not work.")
+print("Models loaded (or failed gracefully).")
+# *** Transcription ***
 def transcribe_audio(audio_path):
     print("Transcribing audio...")
+    if whisper_model is None:
+        return "Error: Whisper model failed to load."
+    try:
+        result = whisper_model.transcribe(audio_path)
+        return result["text"]
+    except Exception as e:
+        print(f"Error transcribing audio: {e}")
+        return f"Error during transcription: {e}"
+# *** Summarization ***
 def summarize_text(text):
+    if summarizer is None:
+        return "Error: Summarizer model failed to load."
     print("Summarizing text using BART...")
+    # Chunk the text into smaller parts, even smaller than before for CPU
+    text_chunks = [text[i:i + 768] for i in range(0, len(text), 768)]  # More aggressive chunking
+    try:
+        summaries = summarizer(text_chunks, max_length=150, min_length=30, do_sample=False)  # Reduce length
+        return " ".join([s['summary_text'] for s in summaries])
+    except Exception as e:
+        print(f"Error during summarization: {e}")
+        return f"Error during summarization: {e}"
+# *** Question Generation ***
 def generate_questions(text):
+    if question_generator is None:
+        return "Error: Question Generation model failed to load."
     print("Generating questions using FLAN-T5...")
+    # Even smaller chunks for question generation (CPU is struggling)
+    text_chunks = [text[i:i + 512] for i in range(0, len(text), 512)]
     questions = []
+    with concurrent.futures.ThreadPoolExecutor(max_workers=os.cpu_count()) as executor: # Explicitly limit threads
         future_questions = [
             executor.submit(
                 lambda chunk: question_generator(
+                    f"You are an AI tutor. Your task is to generate **insightful, topic-specific** questions based on the following passage. Ensure that the questions are relevant to the **key concepts, definitions, and explanations** present in the text. Avoid generic questions.\n\nPassage:\n{chunk}",
+                    max_length=80, num_return_sequences=2, do_sample=True  # Reduce length and sequences
                 ),
                 chunk
             ) for chunk in text_chunks
         ]
         for future in future_questions:
+            try:
+                generated = future.result()
+                questions.extend([q['generated_text'] for q in generated])
+            except Exception as e:
+                print(f"Error generating questions for a chunk: {e}")
+                questions.append(f"Error generating questions: {e}")  # Report the error
     return "\n".join(questions)
+# *** Main Processing Function ***
 def process_audio(audio_path):
+    transcript = transcribe_audio(audio_path)
+    summary = summarize_text(transcript)
+    questions = generate_questions(transcript)
     combined_text = f"📝 Transcription:\n{transcript}\n\n📜 Summary:\n{summary}\n\n🤔 Practice Questions:\n{questions}"
     file_path = "lecture_summary.txt"
     with open(file_path, "w", encoding="utf-8") as f:
         f.write(combined_text)
 def gradio_interface(audio):
     return process_audio(audio)
+# *** Gradio Interface ***
 with gr.Blocks(css="""
     #submit-btn, #download-btn {
         background-color: blue !important;
     download_button.click(lambda x: x, inputs=[download_btn], outputs=[download_btn])
+demo.launch(share=True)