Spaces:

SorrelC
/

KeywordExtraction-Explorer-Tool

Sleeping

App Files Files Community

SorrelC commited on Jul 15, 2025

Commit

5311f88

verified ·

1 Parent(s): 05d6a22

Create app.py

Browse files

Files changed (1) hide show

app.py +141 -0

app.py ADDED Viewed

	@@ -0,0 +1,141 @@

+import gradio as gr
+import pke
+import nltk
+import re
+nltk.download('stopwords')
+# Models to offer
+AVAILABLE_MODELS = [
+    "kw_pke_multipartiterank",
+    "kw_pke_singlerank",
+    "kw_pke_tfidf",
+    "kw_pke_topicrank",
+    "kw_pke_textrank",
+    "kw_pke_positionrank"
+]
+def extract_keywords_pke(text, model_choice, num_keywords):
+    extractor = None
+    if model_choice == "kw_pke_multipartiterank":
+        extractor = pke.unsupervised.MultipartiteRank()
+    elif model_choice == "kw_pke_singlerank":
+        extractor = pke.unsupervised.SingleRank()
+    elif model_choice == "kw_pke_tfidf":
+        extractor = pke.unsupervised.TfIdf()
+    elif model_choice == "kw_pke_topicrank":
+        extractor = pke.unsupervised.TopicRank()
+    elif model_choice == "kw_pke_textrank":
+        extractor = pke.unsupervised.TextRank()
+    elif model_choice == "kw_pke_positionrank":
+        extractor = pke.unsupervised.PositionRank()
+    else:
+        return ["Error: Unknown model"]
+    extractor.load_document(input=text, language='en', normalization=None)
+    if model_choice == "kw_pke_tfidf":
+        extractor.candidate_selection(n=3)
+    else:
+        extractor.candidate_selection()
+    extractor.candidate_weighting()
+    keywords = [kw for kw, score in extractor.get_n_best(n=num_keywords)]
+    return keywords
+def highlight_keywords(text, keywords):
+    if not keywords:
+        return text
+    highlighted = text
+    for kw in sorted(keywords, key=lambda k: -len(k)):
+        pattern = re.compile(re.escape(kw), re.IGNORECASE)
+        highlighted = pattern.sub(
+            f'<mark style="background-color:#FFD54F; padding:2px 4px; border-radius:4px;">{kw}</mark>',
+            highlighted
+        )
+    return highlighted
+def process_text(text, model_choice, num_keywords):
+    if not text.strip():
+        return "❌ Please enter text to analyse.", "", ""
+    keywords = extract_keywords_pke(text, model_choice, num_keywords)
+    highlighted_html = highlight_keywords(text, keywords)
+    summary = f"""
+    ## 📊 Keyword Extraction Summary
+    - **Model Used:** {model_choice}
+    - **Keywords Found:** {len(keywords)}
+    - **Displayed in Context Below**
+    """
+    keyword_list_html = "<ul>" + "".join([f"<li>{kw}</li>" for kw in keywords]) + "</ul>"
+    return summary, highlighted_html, keyword_list_html
+def create_interface():
+    with gr.Blocks(title="Keyword Explorer Tool") as demo:
+        gr.Markdown("# 🔑 Keyword Explorer Tool\n\nExtract and explore keywords using multiple extraction models.")
+        text_input = gr.Textbox(label="📝 Text to Analyse", placeholder="Paste your text here...", lines=8)
+        with gr.Row():
+            model_dropdown = gr.Dropdown(
+                choices=AVAILABLE_MODELS,
+                value=AVAILABLE_MODELS[0],
+                label="Select Keyword Extraction Model"
+            )
+            num_keywords_slider = gr.Slider(
+                minimum=5,
+                maximum=50,
+                value=10,
+                step=1,
+                label="Number of Keywords"
+            )
+        analyse_btn = gr.Button("🚀 Extract Keywords")
+        with gr.Row():
+            summary_output = gr.Markdown(label="Summary")
+        with gr.Row():
+            highlighted_output = gr.HTML(label="Highlighted Text")
+        with gr.Row():
+            gr.Markdown("### 📋 Extracted Keywords List")
+            keyword_list_output = gr.HTML(label="Keywords List")
+        analyse_btn.click(
+            fn=process_text,
+            inputs=[text_input, model_dropdown, num_keywords_slider],
+            outputs=[summary_output, highlighted_output, keyword_list_output]
+        )
+        gr.HTML("""
+        <hr style="margin-top: 40px; margin-bottom: 20px;">
+        <div style="background-color: #f8f9fa; padding: 20px; border-radius: 8px; margin-top: 20px; text-align: center;">
+            <p style="font-size: 14px; line-height: 1.8; margin: 0;">
+                This <strong>Keyword Explorer Tool</strong> was created as part of the
+                <a href="https://digitalscholarship.web.ox.ac.uk/" target="_blank" style="color: #1976d2;">
+                    Digital Scholarship at Oxford (DiSc)
+                </a>
+                funded research project:
+                <em>Extracting Keywords from Crowdsourced Collections</em>.
+            </p>
+        </div>
+        """)
+    return demo
+if __name__ == "__main__":
+    demo = create_interface()
+    demo.launch()