Spaces:

rbbist
/

Research_Paper_Summarization_Multi_Agent_System

Sleeping

App Files Files Community

rbbist commited on Apr 13, 2025

Commit

f771a3a

verified ·

1 Parent(s): 307dfc2

Create app.py

Browse files

Files changed (1) hide show

app.py +93 -0

app.py ADDED Viewed

	@@ -0,0 +1,93 @@

+# app.py
+import os
+import uuid
+import tempfile
+from typing import List
+from fastapi import FastAPI, UploadFile, File, Form
+from fastapi.responses import FileResponse
+from pydantic import BaseModel
+import fitz  # PyMuPDF
+import requests
+import openai
+from transformers import pipeline
+import torch
+from gtts import gTTS
+import shutil
+# ---------- CONFIG ----------
+openai.api_key = os.getenv("OPENAI_API_KEY")  # Set this as HF secret
+def summarize_text(text: str) -> str:
+    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+    return summarizer(text, max_length=200, min_length=30, do_sample=False)[0]['summary_text']
+# ---------- FASTAPI SETUP ----------
+app = FastAPI(title="Research Paper Summarization App")
+class SummaryRequest(BaseModel):
+    topic: str
+    urls: List[str] = []
+# ---------- HELPERS ----------
+def extract_text_from_pdf(pdf_path: str) -> str:
+    doc = fitz.open(pdf_path)
+    text = ""
+    for page in doc:
+        text += page.get_text()
+    return text
+def classify_topic(text: str, topics: List[str]) -> str:
+    classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
+    result = classifier(text[:1000], candidate_labels=topics)
+    return result['labels'][0]
+def generate_audio(text: str, output_path: str):
+    tts = gTTS(text)
+    tts.save(output_path)
+# ---------- ROUTES ----------
+@app.post("/upload")
+def upload_paper(file: UploadFile = File(...), topics: str = Form(...)):
+    temp_dir = tempfile.mkdtemp()
+    file_path = os.path.join(temp_dir, file.filename)
+    with open(file_path, "wb") as f:
+        f.write(file.file.read())
+    text = extract_text_from_pdf(file_path)
+    topic_list = [t.strip() for t in topics.split(",")]
+    classified_topic = classify_topic(text, topic_list)
+    summary = summarize_text(text)
+    audio_path = os.path.join(temp_dir, "summary.mp3")
+    generate_audio(summary, audio_path)
+    result = {
+        "topic": classified_topic,
+        "summary": summary,
+        "audio_file": audio_path
+    }
+    return FileResponse(audio_path, media_type="audio/mpeg", filename="summary.mp3")
+@app.post("/summarize_urls")
+def summarize_from_urls(req: SummaryRequest):
+    summaries = []
+    for url in req.urls:
+        try:
+            response = requests.get(url)
+            if not response.ok:
+                continue
+            text = response.text
+            summary = summarize_text(text)
+            summaries.append(summary)
+        except Exception as e:
+            summaries.append(f"Error: {str(e)}")
+    combined_summary = "\n".join(summaries)
+    return {"topic": req.topic, "combined_summary": combined_summary}
+@app.get("/")
+def root():
+    return {"message": "Welcome to the Research Paper Summarization API!"}