Spaces:

clementBE
/

Audio_transcrib_base

Paused

clementBE commited on Sep 29, 2025

Commit

49df268

verified ·

1 Parent(s): eb1aa3b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,6 +11,13 @@ from pydub import AudioSegment
 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.lex_rank import LexRankSummarizer
 # --- Model definitions ---
 MODEL_SIZES = {
@@ -40,6 +47,9 @@ def get_model_pipeline(model_name, progress):
 # --- Extractive summary ---
 def extractive_summary(text, sentences_count=7):
     parser = PlaintextParser.from_string(text, Tokenizer("french"))
     summarizer = LexRankSummarizer()
     summary = summarizer(parser.document, sentences_count)

 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.lex_rank import LexRankSummarizer
+import nltk
+# --- Ensure NLTK punkt tokenizer is downloaded ---
+try:
+    nltk.data.find("tokenizers/punkt")
+except LookupError:
+    nltk.download("punkt")
 # --- Model definitions ---
 MODEL_SIZES = {
 # --- Extractive summary ---
 def extractive_summary(text, sentences_count=7):
+    """
+    Summarize the text using LexRank (extractive summarization)
+    """
     parser = PlaintextParser.from_string(text, Tokenizer("french"))
     summarizer = LexRankSummarizer()
     summary = summarizer(parser.document, sentences_count)