Spaces:

SorrelC
/

KeywordExtraction-Explorer-Tool

Sleeping

App Files Files Community

SorrelC commited on Jul 16, 2025

Commit

62a9b35

verified ·

1 Parent(s): 4d6534f

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -39

app.py CHANGED Viewed

@@ -6,13 +6,13 @@ import re
 import time
 warnings.filterwarnings('ignore')
-# Reliable model names and descriptions (PKE removed for compatibility)
 KEYWORD_MODELS = {
     'yake_yake': 'YAKE - Yet Another Keyword Extractor (statistical)',
     'keybert_all-mpnet-base-v2': 'KeyBERT MPNet - BERT-based semantic similarity',
     'keybert_all-MiniLM-L6-v2': 'KeyBERT MiniLM - Lightweight BERT-based extraction',
     'keybert_paraphrase-mpnet-base-v2': 'KeyBERT Paraphrase - Optimized for paraphrase detection',
-    'rakun_rakun': 'RaKUn - Rapid Automatic Keyword Extraction'
 }
 # Color palette for keywords based on scores
@@ -32,6 +32,7 @@ KEYWORD_COLORS = [
 class KeywordExtractionManager:
     def __init__(self):
         self.keybert_models = {}
     def load_keybert_model(self, model_name):
         """Load KeyBERT model"""
@@ -47,6 +48,29 @@ class KeywordExtractionManager:
                 return None
         return self.keybert_models[model_name]
     def extract_keywords(self, text, model_name, num_keywords=10, ngram_range=(1, 3), progress=None):
         """Extract keywords using the specified model"""
         try:
@@ -58,8 +82,8 @@ class KeywordExtractionManager:
                 return self.extract_yake_keywords(text, num_keywords, ngram_range, progress)
             elif model_name.startswith('keybert_'):
                 return self.extract_keybert_keywords(text, model_name, num_keywords, ngram_range, progress)
-            elif model_name.startswith('rakun_'):
-                return self.extract_rakun_keywords(text, num_keywords, progress)
             else:
                 raise ValueError(f"Unknown model: {model_name}")
@@ -144,51 +168,36 @@ class KeywordExtractionManager:
             print("KeyBERT library not found. Using fallback keyword extraction...")
             return self.fallback_keyword_extraction(text, num_keywords)
-    def extract_rakun_keywords(self, text, num_keywords, progress):
-        """Extract keywords using RaKUn"""
         try:
-            from rakun import RakunDetector
             if progress:
-                progress(0.5, desc="Processing with RaKUn...")
-            # Initialize RaKUn
-            hyperparameters = {
-                "distance_threshold": 3,
-                "num_keywords": num_keywords,
-                "pair_diff_length": 2,
-                "stopwords": "english",
-                "bigram_count_threshold": 2,
-                "num_tokens": [1, 2, 3]
-            }
-            keyword_detector = RakunDetector(hyperparameters)
             if progress:
                 progress(0.7, desc="Extracting keywords...")
-            keywords = keyword_detector.find_keywords(text)
             # Format results
             results = []
-            for keyword_data in keywords[:num_keywords]:
-                if isinstance(keyword_data, tuple):
-                    keyword, score = keyword_data
-                else:
-                    # If no score available, assign based on rank
-                    keyword = keyword_data
-                    score = 1.0 / (keywords.index(keyword_data) + 1)
                 results.append({
                     'keyword': keyword,
                     'score': score,
-                    'model': 'RaKUn'
                 })
             return results
         except ImportError:
-            print("RaKUn library not found. Using fallback keyword extraction...")
             return self.fallback_keyword_extraction(text, num_keywords)
     def fallback_keyword_extraction(self, text, num_keywords=10):
@@ -387,10 +396,11 @@ def process_text(text, selected_model, num_keywords, ngram_min, ngram_max, progr
     # Create summary
     avg_score = sum(k['score'] for k in keywords) / len(keywords)
     summary = f"""
     ## 📊 Analysis Summary
     - **Keywords extracted:** {len(keywords)}
-    - **Model used:** {selected_model.replace('yake_', '').replace('keybert_', 'KeyBERT-').replace('rakun_', '').title()}
     - **Average relevance score:** {avg_score:.4f}
     - **N-gram range:** {ngram_min}-{ngram_max} words
     """
@@ -405,7 +415,7 @@ def create_interface():
         gr.Markdown("""
         # Keyword Extraction Explorer Tool
-        Extract the most important keywords and phrases from your text using various algorithms! This tool uses modern keyword extraction methods including YAKE, KeyBERT, and RaKUn for comprehensive analysis.
         ### How to use:
         1. **📝 Enter your text** in the text area below
@@ -495,8 +505,8 @@ def create_interface():
                         <dd style="display: inline; margin-left: 5px;">Optimized for paraphrase detection - great for similar concept extraction</dd>
                     </div>
                     <div style="margin-bottom: 8px;">
-                        <dt style="font-weight: bold; display: inline; color: #FF5722;">RaKUn:</dt>
-                        <dd style="display: inline; margin-left: 5px;">Graph-based rapid extraction - efficient for large texts</dd>
                     </div>
                 </dl>
             </div>
@@ -549,7 +559,7 @@ def create_interface():
                 ],
                 [
                     "Charles Darwin arrived at the Galápagos Islands aboard HMS Beagle in September 1835. During his five-week visit, Darwin collected specimens of finches, tortoises, and mockingbirds. His observations of these species' variations across different islands later contributed to his theory of evolution by natural selection, published in 'On the Origin of Species' in 1859.",
-                    "keybert_all-MiniLM-L6-v2",
                     10,
                     1,
                     3
@@ -581,9 +591,9 @@ def create_interface():
                         Minimal keyword extraction with BERT ↗
                     </a>
                 </li>
-                <li><strong>RaKUn:</strong>
-                    <a href="https://github.com/SkBlaz/rakun" target="_blank" style="color: #1976d2;">
-                        Rapid Automatic Keyword Extraction ↗
                     </a>
                 </li>
                 <li><strong>Sentence Transformers:</strong>

 import time
 warnings.filterwarnings('ignore')
+# Reliable model names and descriptions
 KEYWORD_MODELS = {
     'yake_yake': 'YAKE - Yet Another Keyword Extractor (statistical)',
     'keybert_all-mpnet-base-v2': 'KeyBERT MPNet - BERT-based semantic similarity',
     'keybert_all-MiniLM-L6-v2': 'KeyBERT MiniLM - Lightweight BERT-based extraction',
     'keybert_paraphrase-mpnet-base-v2': 'KeyBERT Paraphrase - Optimized for paraphrase detection',
+    'rake_nltk': 'RAKE-NLTK - Rapid Automatic Keyword Extraction'
 }
 # Color palette for keywords based on scores
 class KeywordExtractionManager:
     def __init__(self):
         self.keybert_models = {}
+        self.rake_extractor = None
     def load_keybert_model(self, model_name):
         """Load KeyBERT model"""
                 return None
         return self.keybert_models[model_name]
+    def load_rake_extractor(self):
+        """Load RAKE extractor"""
+        if self.rake_extractor is None:
+            try:
+                from rake_nltk import Rake
+                import nltk
+                # Download required NLTK data
+                try:
+                    nltk.data.find('corpora/stopwords')
+                except LookupError:
+                    nltk.download('stopwords', quiet=True)
+                try:
+                    nltk.data.find('tokenizers/punkt')
+                except LookupError:
+                    nltk.download('punkt', quiet=True)
+                self.rake_extractor = Rake()
+                print("✓ RAKE extractor loaded successfully")
+            except Exception as e:
+                print(f"Error loading RAKE extractor: {str(e)}")
+                return None
+        return self.rake_extractor
     def extract_keywords(self, text, model_name, num_keywords=10, ngram_range=(1, 3), progress=None):
         """Extract keywords using the specified model"""
         try:
                 return self.extract_yake_keywords(text, num_keywords, ngram_range, progress)
             elif model_name.startswith('keybert_'):
                 return self.extract_keybert_keywords(text, model_name, num_keywords, ngram_range, progress)
+            elif model_name.startswith('rake_'):
+                return self.extract_rake_keywords(text, num_keywords, progress)
             else:
                 raise ValueError(f"Unknown model: {model_name}")
             print("KeyBERT library not found. Using fallback keyword extraction...")
             return self.fallback_keyword_extraction(text, num_keywords)
+    def extract_rake_keywords(self, text, num_keywords, progress):
+        """Extract keywords using RAKE"""
         try:
             if progress:
+                progress(0.5, desc="Processing with RAKE...")
+            rake_extractor = self.load_rake_extractor()
+            if rake_extractor is None:
+                return self.fallback_keyword_extraction(text, num_keywords)
             if progress:
                 progress(0.7, desc="Extracting keywords...")
+            # Extract keywords
+            rake_extractor.extract_keywords_from_text(text)
+            keywords_with_scores = rake_extractor.get_ranked_phrases_with_scores()
             # Format results
             results = []
+            for score, keyword in keywords_with_scores[:num_keywords]:
                 results.append({
                     'keyword': keyword,
                     'score': score,
+                    'model': 'RAKE-NLTK'
                 })
             return results
         except ImportError:
+            print("RAKE-NLTK library not found. Using fallback keyword extraction...")
             return self.fallback_keyword_extraction(text, num_keywords)
     def fallback_keyword_extraction(self, text, num_keywords=10):
     # Create summary
     avg_score = sum(k['score'] for k in keywords) / len(keywords)
+    model_display = selected_model.replace('yake_', '').replace('keybert_', 'KeyBERT-').replace('rake_', 'RAKE-').title()
     summary = f"""
     ## 📊 Analysis Summary
     - **Keywords extracted:** {len(keywords)}
+    - **Model used:** {model_display}
     - **Average relevance score:** {avg_score:.4f}
     - **N-gram range:** {ngram_min}-{ngram_max} words
     """
         gr.Markdown("""
         # Keyword Extraction Explorer Tool
+        Extract the most important keywords and phrases from your text using various algorithms! This tool uses modern keyword extraction methods including YAKE, KeyBERT, and RAKE for comprehensive analysis.
         ### How to use:
         1. **📝 Enter your text** in the text area below
                         <dd style="display: inline; margin-left: 5px;">Optimized for paraphrase detection - great for similar concept extraction</dd>
                     </div>
                     <div style="margin-bottom: 8px;">
+                        <dt style="font-weight: bold; display: inline; color: #FF5722;">RAKE-NLTK:</dt>
+                        <dd style="display: inline; margin-left: 5px;">Classic keyword extraction algorithm - fast and reliable for phrase extraction</dd>
                     </div>
                 </dl>
             </div>
                 ],
                 [
                     "Charles Darwin arrived at the Galápagos Islands aboard HMS Beagle in September 1835. During his five-week visit, Darwin collected specimens of finches, tortoises, and mockingbirds. His observations of these species' variations across different islands later contributed to his theory of evolution by natural selection, published in 'On the Origin of Species' in 1859.",
+                    "rake_nltk",
                     10,
                     1,
                     3
                         Minimal keyword extraction with BERT ↗
                     </a>
                 </li>
+                <li><strong>RAKE-NLTK:</strong>
+                    <a href="https://github.com/csurfer/rake-nltk" target="_blank" style="color: #1976d2;">
+                        Rapid Automatic Keyword Extraction with NLTK ↗
                     </a>
                 </li>
                 <li><strong>Sentence Transformers:</strong>