Spaces:

student2222333051
/

sentiment-analysis-app

Sleeping

App Files Files Community

student2222333051 commited on Dec 1, 2025

Commit

5d20e6b

verified ·

1 Parent(s): b95ce36

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -57

app.py CHANGED Viewed

@@ -20,31 +20,32 @@ from tensorflow.keras.layers import Embedding, LSTM, Dense
 from transformers import pipeline
-nltk.download("stopwords")
-nltk.download("wordnet")
-# ------------------------------------
-# 1. Language detection
-# ------------------------------------
 def detect_language(text):
     try:
         lang = langdetect.detect(text)
         if lang == "ru":
             return "Russian"
-        if lang == "en":
             return "English"
-        if lang == "kk":
             return "Kazakh"
-        return "Unknown"
     except:
         return "Unknown"
-# ------------------------------------
-# 2. Text cleaning
-# ------------------------------------
 stop_words_en = set(stopwords.words("english"))
 lemm = WordNetLemmatizer()
@@ -56,11 +57,9 @@ def clean_text(text):
     tokens = [lemm.lemmatize(w) for w in tokens if w not in stop_words_en]
     return " ".join(tokens)
-# ------------------------------------
-# 3. Create small demo dataset
-# ------------------------------------
 data = {
     "text": [
         "I love this movie!",
@@ -72,7 +71,7 @@ data = {
         "I am happy.",
         "I am angry."
     ],
-    "label": [1, 0, 1, 1, 0, 1, 1, 0]
 }
 df = pd.DataFrame(data)
@@ -83,22 +82,18 @@ y = df["label"]
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)
-# ------------------------------------
-# 4. Logistic Regression
-# ------------------------------------
 tfidf = TfidfVectorizer()
 X_train_tfidf = tfidf.fit_transform(X_train)
 log_reg = LogisticRegression()
 log_reg.fit(X_train_tfidf, y_train)
-# ------------------------------------
-# 5. LSTM model
-# ------------------------------------
 tokenizer = Tokenizer()
 tokenizer.fit_on_texts(X_train)
@@ -107,36 +102,31 @@ max_len = 20
 X_train_pad = pad_sequences(X_train_seq, maxlen=max_len)
 lstm = Sequential()
-lstm.add(Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=32, input_length=max_len))
 lstm.add(LSTM(32))
 lstm.add(Dense(1, activation="sigmoid"))
 lstm.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
 lstm.fit(X_train_pad, y_train, epochs=3, batch_size=4, verbose=0)
-# ------------------------------------
-# 6. BERT model
-# ------------------------------------
-bert_model = pipeline("sentiment-analysis",
-                      model="nlptown/bert-base-multilingual-uncased-sentiment")
-# ------------------------------------
-# 7. Prediction function (for interface)
-# ------------------------------------
 def analyze_text(text):
-    # Auto language detect
     lang = detect_language(text)
-    # Clean for LR and LSTM
     cleaned = clean_text(text)
-    tfidf_vec = tfidf.transform([cleaned])
     # Logistic Regression
-    pred_lr = log_reg.predict(tfidf_vec)[0]
     label_lr = "Positive 😊" if pred_lr == 1 else "Negative 😡"
     # LSTM
@@ -147,20 +137,18 @@ def analyze_text(text):
     # BERT
     res = bert_model(text)[0]["label"]
-    label_bert = "Positive 😊" if res in ["4 stars", "5 stars"] else "Negative 😡"
     return {
-        "Detected language / Определенный язык": lang,
         "Logistic Regression": label_lr,
         "LSTM (Keras)": label_lstm,
         "BERT": label_bert
     }
-# ------------------------------------
-# 8. Gradio Interface
-# ------------------------------------
 ui = gr.Interface(
     fn=analyze_text,
     inputs=gr.Textbox(label="Enter text / Введите текст"),

 from transformers import pipeline
+# -----------------------------
+# 1. NLTK деректерін жүктеу
+# -----------------------------
+nltk.download('stopwords')
+nltk.download('wordnet')
+# -----------------------------
+# 2. Тіл анықтау
+# -----------------------------
 def detect_language(text):
     try:
         lang = langdetect.detect(text)
         if lang == "ru":
             return "Russian"
+        elif lang == "en":
             return "English"
+        elif lang == "kk":
             return "Kazakh"
+        else:
+            return "Unknown"
     except:
         return "Unknown"
+# -----------------------------
+# 3. Текстті тазалау
+# -----------------------------
 stop_words_en = set(stopwords.words("english"))
 lemm = WordNetLemmatizer()
     tokens = [lemm.lemmatize(w) for w in tokens if w not in stop_words_en]
     return " ".join(tokens)
+# -----------------------------
+# 4. Demo Dataset
+# -----------------------------
 data = {
     "text": [
         "I love this movie!",
         "I am happy.",
         "I am angry."
     ],
+    "label": [1,0,1,1,0,1,1,0]
 }
 df = pd.DataFrame(data)
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)
+# -----------------------------
+# 5. Logistic Regression
+# -----------------------------
 tfidf = TfidfVectorizer()
 X_train_tfidf = tfidf.fit_transform(X_train)
 log_reg = LogisticRegression()
 log_reg.fit(X_train_tfidf, y_train)
+# -----------------------------
+# 6. LSTM Model
+# -----------------------------
 tokenizer = Tokenizer()
 tokenizer.fit_on_texts(X_train)
 X_train_pad = pad_sequences(X_train_seq, maxlen=max_len)
 lstm = Sequential()
+lstm.add(Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=32))  # input_length алып тасталды
 lstm.add(LSTM(32))
 lstm.add(Dense(1, activation="sigmoid"))
 lstm.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
 lstm.fit(X_train_pad, y_train, epochs=3, batch_size=4, verbose=0)
+# -----------------------------
+# 7. BERT Pipeline (CPU)
+# -----------------------------
+bert_model = pipeline(
+    "sentiment-analysis",
+    model="nlptown/bert-base-multilingual-uncased-sentiment",
+    device=-1  # CPU режимінде
+)
+# -----------------------------
+# 8. Prediction function
+# -----------------------------
 def analyze_text(text):
     lang = detect_language(text)
     cleaned = clean_text(text)
     # Logistic Regression
+    vec = tfidf.transform([cleaned])
+    pred_lr = log_reg.predict(vec)[0]
     label_lr = "Positive 😊" if pred_lr == 1 else "Negative 😡"
     # LSTM
     # BERT
     res = bert_model(text)[0]["label"]
+    label_bert = "Positive 😊" if res in ["4 stars","5 stars"] else "Negative 😡"
     return {
+        "Detected Language": lang,
         "Logistic Regression": label_lr,
         "LSTM (Keras)": label_lstm,
         "BERT": label_bert
     }
+# -----------------------------
+# 9. Gradio Interface
+# -----------------------------
 ui = gr.Interface(
     fn=analyze_text,
     inputs=gr.Textbox(label="Enter text / Введите текст"),