Spaces:

rapacious
/

NLTK

Paused

rapacious commited on Feb 24, 2025

Commit

3b6e119

verified ·

1 Parent(s): 927ef75

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,11 @@
 import gradio as gr
 import nltk
 from nltk.tokenize import sent_tokenize, word_tokenize
-from nltk.corpus import stopwords, wordnet, brown
 from nltk.stem import PorterStemmer, WordNetLemmatizer
 from nltk import pos_tag, ne_chunk, ngrams
 from nltk.collocations import BigramCollocationFinder
 from nltk.classify import NaiveBayesClassifier
-from nltk.corpus import movie_reviews
 import random
 # Tải các tài nguyên cần thiết
@@ -25,10 +24,15 @@ stemmer = PorterStemmer()
 lemmatizer = WordNetLemmatizer()
 stop_words = set(stopwords.words('english'))
-# Hàm huấn luyện classifier đơn giản
 def train_classifier():
-    pos_reviews = [({"word": word}, 'positive') for word in movie_reviews.words('pos')[:100]]
-    neg_reviews = [({"word": word}, 'negative') for word in movie_reviews.words('neg')[:100]]
     train_set = pos_reviews + neg_reviews
     random.shuffle(train_set)
     return NaiveBayesClassifier.train(train_set)

 import gradio as gr
 import nltk
 from nltk.tokenize import sent_tokenize, word_tokenize
+from nltk.corpus import stopwords, wordnet, brown, movie_reviews
 from nltk.stem import PorterStemmer, WordNetLemmatizer
 from nltk import pos_tag, ne_chunk, ngrams
 from nltk.collocations import BigramCollocationFinder
 from nltk.classify import NaiveBayesClassifier
 import random
 # Tải các tài nguyên cần thiết
 lemmatizer = WordNetLemmatizer()
 stop_words = set(stopwords.words('english'))
+# Hàm huấn luyện classifier sửa lại
 def train_classifier():
+    # Lấy danh sách file từ thư mục pos và neg
+    pos_files = movie_reviews.fileids('pos')[:50]  # Giới hạn 50 file để nhanh hơn
+    neg_files = movie_reviews.fileids('neg')[:50]
+    # Tạo tập huấn luyện
+    pos_reviews = [({word: True for word in movie_reviews.words(fileid)}, 'positive') for fileid in pos_files]
+    neg_reviews = [({word: True for word in movie_reviews.words(fileid)}, 'negative') for fileid in neg_files]
     train_set = pos_reviews + neg_reviews
     random.shuffle(train_set)
     return NaiveBayesClassifier.train(train_set)