Spaces:

Iskabore
/

multilingual-text-summarizer

Sleeping

Iskabore commited on May 7, 2025

Commit

9057a10

1 Parent(s): 5f53c31

create summarizer module

Files changed (4) hide show

summarizer/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ INPUT_MIN_SIZE = 17

summarizer/models.py ADDED Viewed

+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+# Load French summarizer
+fr_model_name = "plguillou/t5-base-fr-sum-cnndm"
+tokenizer_fr = AutoTokenizer.from_pretrained(fr_model_name)
+model_fr = AutoModelForSeq2SeqLM.from_pretrained(fr_model_name)
+summarizer_fr = pipeline("summarization", model=model_fr, tokenizer=tokenizer_fr)
+# Load English summarizer
+en_model_name = "facebook/bart-large-cnn"
+tokenizer_en = AutoTokenizer.from_pretrained(en_model_name)
+model_en = AutoModelForSeq2SeqLM.from_pretrained(en_model_name)
+summarizer_en = pipeline("summarization", model=model_en, tokenizer=tokenizer_en)

summarizer/summarize.py ADDED Viewed

+from summarizer import INPUT_MIN_SIZE
+from summarizer.models import summarizer_fr, summarizer_en
+from summarizer.utils import detect_language, read_file
+def generate_summary(text=None, file=None, min_length=30, max_length=100, do_sample=False):
+    content = text or ""
+    if file:
+        content = read_file(file)
+    content = content.strip()
+    if not content or len(content.split()) < INPUT_MIN_SIZE:
+        return "⚠️ Input too short or empty."
+    # Model selection based on language detection
+    lang = detect_language(content)
+    if lang == "fr":
+        summarizer = summarizer_fr
+    elif lang == "en":
+        summarizer = summarizer_en
+    else:
+        return f"❌ Unsupported language: {lang}"
+    try:
+        summary = summarizer(content, min_length=min_length, max_length=max_length, do_sample=do_sample)
+        return summary[0]["summary_text"]
+    except Exception as e:
+        return f"❌ Error: {str(e)}"

summarizer/utils.py ADDED Viewed

+import PyPDF2
+import os
+from langdetect import detect
+def read_txt_file(filepath: str) -> str:
+    """Read content from a .txt file."""
+    try:
+        with open(filepath, "r", encoding="utf-8") as f:
+            content = f.read()
+        return content
+    except Exception as e:
+        print(f"❌ Error reading TXT file: {e}")
+        return ""
+def read_pdf_file(filepath: str) -> str:
+    """Extract text from a PDF file using PyPDF2."""
+    try:
+        with open(filepath, "rb") as file:
+            pdf_reader = PyPDF2.PdfReader(file)
+            text = ""
+            for page_num in range(len(pdf_reader.pages)):
+                page = pdf_reader.pages[page_num]
+                text += page.extract_text()
+        return text.strip()
+    except Exception as e:
+        print(f"❌ Error reading PDF file: {e}")
+        return ""
+def read_file(filepath: str) -> str:
+    """Read a file (txt or pdf) and return its content as text."""
+    if os.path.splitext(filepath)[1].lower() == ".txt":
+        return read_txt_file(filepath)
+    elif os.path.splitext(filepath)[1].lower() == ".pdf":
+        return read_pdf_file(filepath)
+    else:
+        print(f"❌ Unsupported file type: {filepath}")
+        return ""
+def detect_language(text: str) -> str:
+    """Detect the language of the given text using langdetect."""
+    try:
+        return detect(text)
+    except Exception:
+        return "unknown"