Spaces:

rapacious
/

NLTK

Paused

App Files Files Community

rapacious commited on Feb 24, 2025

Commit

7701918

verified ·

1 Parent(s): 9abb0fc

Create app.py

Browse files

Files changed (1) hide show

app.py +151 -0

app.py ADDED Viewed

	@@ -0,0 +1,151 @@

+import gradio as gr
+import nltk
+from nltk.tokenize import sent_tokenize, word_tokenize
+from nltk.corpus import stopwords, wordnet, brown
+from nltk.stem import PorterStemmer, WordNetLemmatizer
+from nltk import pos_tag, ne_chunk, ngrams
+from nltk.collocations import BigramCollocationFinder
+from nltk.classify import NaiveBayesClassifier
+from nltk.corpus import movie_reviews
+import random
+# Tải các tài nguyên cần thiết
+nltk.download('punkt')
+nltk.download('punkt_tab')
+nltk.download('averaged_perceptron_tagger')
+nltk.download('maxent_ne_chunker')
+nltk.download('words')
+nltk.download('stopwords')
+nltk.download('wordnet')
+nltk.download('brown')
+nltk.download('movie_reviews')
+# Khởi tạo các công cụ
+stemmer = PorterStemmer()
+lemmatizer = WordNetLemmatizer()
+stop_words = set(stopwords.words('english'))
+# Hàm huấn luyện classifier đơn giản
+def train_classifier():
+    pos_reviews = [({"word": word}, 'positive') for word in movie_reviews.words('pos')[:100]]
+    neg_reviews = [({"word": word}, 'negative') for word in movie_reviews.words('neg')[:100]]
+    train_set = pos_reviews + neg_reviews
+    random.shuffle(train_set)
+    return NaiveBayesClassifier.train(train_set)
+classifier = train_classifier()
+# Hàm chính xử lý các chức năng
+def nlp_tool(input_text, function):
+    if not input_text:
+        return "Vui lòng nhập văn bản!"
+    if function == "Sentence Tokenization":
+        return "\n".join(sent_tokenize(input_text))
+    elif function == "Word Tokenization":
+        return "\n".join(word_tokenize(input_text))
+    elif function == "Part-of-Speech Tagging":
+        words = word_tokenize(input_text)
+        return "\n".join([f"{word}: {tag}" for word, tag in pos_tag(words)])
+    elif function == "Stemming":
+        words = word_tokenize(input_text)
+        return "\n".join([stemmer.stem(word) for word in words])
+    elif function == "Lemmatization":
+        words = word_tokenize(input_text)
+        return "\n".join([lemmatizer.lemmatize(word) for word in words])
+    elif function == "Remove Stop Words":
+        words = word_tokenize(input_text)
+        return "\n".join([word for word in words if word.lower() not in stop_words])
+    elif function == "Named Entity Recognition":
+        words = word_tokenize(input_text)
+        pos_tags = pos_tag(words)
+        entities = ne_chunk(pos_tags)
+        return str(entities)
+    elif function == "Text Classification":
+        words = word_tokenize(input_text)
+        result = classifier.classify({word: True for word in words})
+        return f"Sentiment: {result}"
+    elif function == "N-grams (Bigrams)":
+        words = word_tokenize(input_text)
+        bigrams = list(ngrams(words, 2))
+        return "\n".join([f"{w1} - {w2}" for w1, w2 in bigrams])
+    elif function == "Collocations":
+        words = word_tokenize(input_text)
+        finder = BigramCollocationFinder.from_words(words)
+        collocations = finder.nbest(nltk.collocations.BigramAssocMeasures().pmi, 5)
+        return "\n".join([f"{w1} - {w2}" for w1, w2 in collocations])
+    elif function == "WordNet Synsets":
+        words = word_tokenize(input_text)
+        first_word = words[0] if words else ""
+        synsets = wordnet.synsets(first_word)
+        if synsets:
+            return f"Definition: {synsets[0].definition()}\nExamples: {synsets[0].examples()}"
+        return "Không tìm thấy từ trong WordNet!"
+    elif function == "Sample from Brown Corpus":
+        return " ".join(brown.words()[:50])
+    return "Chức năng chưa được triển khai!"
+# Tạo giao diện Gradio
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown(
+        """
+        # Công cụ xử lý ngôn ngữ tự nhiên với NLTK
+        Nhập văn bản và chọn chức năng để khám phá các khả năng của NLTK!
+        """
+    )
+    with gr.Row():
+        with gr.Column(scale=1):
+            input_text = gr.Textbox(
+                label="Nhập văn bản",
+                placeholder="Ví dụ: I love coding in Python.",
+                lines=5
+            )
+            function_dropdown = gr.Dropdown(
+                label="Chọn chức năng",
+                choices=[
+                    "Sentence Tokenization",
+                    "Word Tokenization",
+                    "Part-of-Speech Tagging",
+                    "Stemming",
+                    "Lemmatization",
+                    "Remove Stop Words",
+                    "Named Entity Recognition",
+                    "Text Classification",
+                    "N-grams (Bigrams)",
+                    "Collocations",
+                    "WordNet Synsets",
+                    "Sample from Brown Corpus"
+                ],
+                value="Sentence Tokenization"
+            )
+            submit_btn = gr.Button("Xử lý", variant="primary")
+        with gr.Column(scale=2):
+            output_text = gr.Textbox(
+                label="Kết quả",
+                lines=10,
+                interactive=False
+            )
+    # Kết nối nút bấm với hàm xử lý
+    submit_btn.click(
+        fn=nlp_tool,
+        inputs=[input_text, function_dropdown],
+        outputs=output_text
+    )
+# Chạy giao diện
+demo.launch()