Spaces:

Cybertron-nlp
/

News-Sentiment-and-Classification

Sleeping

App Files Files Community

dhiyaadli123 commited on Jun 13, 2025

Commit

9dbe682

1 Parent(s): 65154f5

feat: Add final working application code and model

Browse files

Files changed (13) hide show

.gitattributes +1 -0
.gradio/certificate.pem +31 -0
app.py +113 -0
finetuned_model_deberta_multitask/added_tokens.json +3 -0
finetuned_model_deberta_multitask/config.json +37 -0
finetuned_model_deberta_multitask/model.safetensors +3 -0
finetuned_model_deberta_multitask/special_tokens_map.json +15 -0
finetuned_model_deberta_multitask/spm.model +3 -0
finetuned_model_deberta_multitask/tokenizer.json +0 -0
finetuned_model_deberta_multitask/tokenizer_config.json +59 -0
finetuned_model_deberta_multitask/training_args.bin +3 -0
finetuned_model_deberta_multitask/tugas_besar_nlp +1 -0
requirements.txt +4 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+finetuned_model_deberta_multitask/model.safetensors filter=lfs diff=lfs merge=lfs -text

.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

app.py ADDED Viewed

	@@ -0,0 +1,113 @@

+import gradio as gr
+from transformers import AutoTokenizer, DebertaV2Config, DebertaV2Model, PreTrainedModel
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import re
+# ==============================================================================
+# SECTION 1: TEXT CLEANING
+# ==============================================================================
+def clean_teks(text):
+    text = text.lower()
+    text = re.sub(r"http\S+|www\S+|https\S+", "", text)
+    text = re.sub(r"[^a-zA-Z0-9\s]", "", text)
+    text = re.sub(r"\s+", " ", text).strip()
+    return text
+# ==============================================================================
+# SECTION 2: MODEL DEFINITION
+# ==============================================================================
+class DebertaV3ForMultiTask(PreTrainedModel):
+    config_class = DebertaV2Config
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_sentiment_labels = config.num_sentiment_labels
+        self.num_type_labels = config.num_type_labels
+        self.deberta = DebertaV2Model(config)
+        self.dropout = nn.Dropout(config.hidden_dropout_prob)
+        self.sentiment_classifier = nn.Linear(config.hidden_size, self.num_sentiment_labels)
+        self.type_classifier = nn.Linear(config.hidden_size, self.num_type_labels)
+        self.init_weights()
+    def forward(self, input_ids=None, attention_mask=None, **kwargs):
+        outputs = self.deberta(input_ids=input_ids, attention_mask=attention_mask)
+        hidden_state = outputs.last_hidden_state[:, 0]
+        pooled_output = self.dropout(hidden_state)
+        sentiment_logits = self.sentiment_classifier(pooled_output)
+        type_logits = self.type_classifier(pooled_output)
+        return {
+            "sentiment": sentiment_logits,
+            "type": type_logits,
+        }
+# ==============================================================================
+# SECTION 3: LOAD MODEL & TOKENIZER
+# ==============================================================================
+MODEL_PATH = "./finetuned_model_deberta_multitask"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
+model = DebertaV3ForMultiTask.from_pretrained(MODEL_PATH)
+model.eval()
+SENTIMENT_LABELS = ['negative', 'neutral', 'positive']
+CATEGORY_LABELS = ['Business', 'Entertainment', 'General', 'Health', 'Science', 'Sports', 'Technology']
+# ==============================================================================
+# SECTION 4: PREDICTION FUNCTION
+# ==============================================================================
+def predict(text):
+    if not text or text.isspace():
+        return {}, {}, "No input provided", "No input provided"
+    cleaned_text = clean_teks(text)
+    inputs = tokenizer(cleaned_text, return_tensors="pt", truncation=True, max_length=256, padding=True)
+    with torch.no_grad():
+        outputs = model(**inputs)
+        sentiment_logits = outputs["sentiment"]
+        type_logits = outputs["type"]
+        sentiment_probs = F.softmax(sentiment_logits, dim=1)[0]
+        type_probs = F.softmax(type_logits, dim=1)[0]
+        sentiment_confidences = {label: round(prob.item(), 4) for label, prob in zip(SENTIMENT_LABELS, sentiment_probs)}
+        category_confidences = {label: round(prob.item(), 4) for label, prob in zip(CATEGORY_LABELS, type_probs)}
+        best_sentiment = SENTIMENT_LABELS[torch.argmax(sentiment_probs)]
+        best_category = CATEGORY_LABELS[torch.argmax(type_probs)]
+    return sentiment_confidences, category_confidences, f"{best_sentiment} ({sentiment_confidences[best_sentiment]:.2%})", f"{best_category} ({category_confidences[best_category]:.2%})"
+# ==============================================================================
+# SECTION 5: GRADIO UI
+# ==============================================================================
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("## 📰 News Sentiment and Category Classification")
+    text_input = gr.Textbox(placeholder="Enter news text here...", label="Input Text", lines=5)
+    submit_button = gr.Button("Analyze", variant="primary")
+    with gr.Row():
+        with gr.Column():
+            gr.Markdown("### 🔎 Predicted Sentiment")
+            sentiment_label = gr.Text(label="Predicted Sentiment")
+            sentiment_output = gr.Label(label="Sentiment Probabilities", num_top_classes=3)
+        with gr.Column():
+            gr.Markdown("### 🗂️ Predicted News Category")
+            category_label = gr.Text(label="Predicted Category")
+            category_output = gr.Label(label="Category Probabilities", num_top_classes=len(CATEGORY_LABELS))
+    submit_button.click(fn=predict, inputs=text_input, outputs=[sentiment_output, category_output, sentiment_label, category_label])
+    gr.Examples(
+        [
+            ["Stanley Kubrick's estate has led the tributes to Shelley Duvall."],
+            ["Lignetics Inc. recently acquired the fiber energy products wood pellets business unit from Revelyst."],
+            ["An overcrowded California men’s prison was running on emergency generator power for a third day Tuesday."]
+        ],
+        inputs=text_input
+    )
+if __name__ == "__main__":
+    demo.launch() # No need for share=True when deploying

finetuned_model_deberta_multitask/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

finetuned_model_deberta_multitask/config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "architectures": [
+    "DebertaV3ForMultiTask"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "num_sentiment_labels": 3,
+  "num_type_labels": 7,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

finetuned_model_deberta_multitask/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9c2e5f98351f19c3decad9b937f026187c03c40ad85e44c944b5a0f6f2470f
+size 565260832

finetuned_model_deberta_multitask/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

finetuned_model_deberta_multitask/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

finetuned_model_deberta_multitask/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

finetuned_model_deberta_multitask/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

finetuned_model_deberta_multitask/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e4e8a1e0f273b34d9ebf5c37af4061a59c09f998def78a4b1ecf00f008dd637
+size 5304

finetuned_model_deberta_multitask/tugas_besar_nlp ADDED Viewed

	@@ -0,0 +1 @@


1	+ /content/drive/.shortcut-targets-by-id/1KOIMCqyf3HZb7FwGsTp3OfBTawGcdWMR/tugas_besar_nlp

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+transformers
+torch
+sentencepiece
+gradio