Spaces:

ananthvk
/

imdb-sentiment-analyzer

Sleeping

App Files Files Community

ananthvk commited on Mar 15

Commit

e1fbc2d

0 Parent(s):

add code + models

Browse files

Files changed (10) hide show

.gitattributes +35 -0
app.py +21 -0
model/config.json +29 -0
model/model.safetensors +3 -0
model/tokenizer.json +0 -0
model/tokenizer_config.json +14 -0
model/training_args.bin +3 -0
requirements-local.txt +55 -0
requirements.txt +55 -0
train.py +98 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,21 @@

+from transformers import pipeline
+import gradio as gr
+classifier = pipeline("text-classification", model="model")
+def detect_sentiment(text):
+    pred = classifier(text)
+    if len(pred) > 0:
+        pred = pred[0]
+        if pred['label'] == 'LABEL_1':
+            pred['label'] = "positive"
+        else:
+            pred['label'] = "negative"
+        return {pred['label'] : pred['score']}
+    return "Internal error"
+review = gr.Textbox()
+label = gr.Label()
+inter = gr.Interface(fn=detect_sentiment, inputs=review, outputs=label)
+inter.launch(inline=False)

model/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 256,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 4,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30522
+}

model/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eb775b9b1c93a1a39b1349fad782c1f9e8d177d377a04b67767f57fb90f47d1
+size 44692592

model/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47f425273f344ada539744ea93f17586d413b4d7d87f3ae6b26b884ccc75f266
+size 5201

requirements-local.txt ADDED Viewed

	@@ -0,0 +1,55 @@

+aiofiles==24.1.0
+annotated-doc==0.0.4
+annotated-types==0.7.0
+anyio==4.12.1
+brotli==1.2.0
+certifi==2026.2.25
+click==8.3.1
+fastapi==0.135.1
+ffmpy==1.0.0
+filelock==3.25.2
+fsspec==2026.2.0
+gradio==6.9.0
+gradio_client==2.3.0
+groovy==0.1.2
+h11==0.16.0
+hf-xet==1.4.2
+httpcore==1.0.9
+httpx==0.28.1
+huggingface_hub==1.7.1
+idna==3.11
+Jinja2==3.1.6
+markdown-it-py==4.0.0
+MarkupSafe==3.0.3
+mdurl==0.1.2
+numpy==2.4.3
+orjson==3.11.7
+packaging==26.0
+pandas==3.0.1
+pillow==12.1.1
+pydantic==2.12.5
+pydantic_core==2.41.5
+pydub==0.25.1
+Pygments==2.19.2
+python-dateutil==2.9.0.post0
+python-multipart==0.0.22
+pytz==2026.1.post1
+PyYAML==6.0.3
+regex==2026.2.28
+rich==14.3.3
+safehttpx==0.1.7
+safetensors==0.7.0
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.17.0
+starlette==0.52.1
+tokenizers==0.22.2
+tomlkit==0.13.3
+tqdm==4.67.3
+transformers==5.3.0
+typer==0.24.1
+typing-inspection==0.4.2
+typing_extensions==4.15.0
+uvicorn==0.41.0
+torch @ https://download.pytorch.org/whl/cpu/torch-2.10.0%2Bcpu-cp312-cp312-manylinux_2_28_x86_64.whl#sha256=ee40b8a4b4b2cf0670c6fd4f35a7ef23871af956fecb238fbf5da15a72650b1d
+torchvision @ https://download.pytorch.org/whl/cpu/torchvision-0.25.0%2Bcpu-cp312-cp312-manylinux_2_28_x86_64.whl#sha256=c1be164e93c68b2dbf460fd58975377c892dbcf3358fb72941709c3857351bba

requirements.txt ADDED Viewed

	@@ -0,0 +1,55 @@

+aiofiles==24.1.0
+annotated-doc==0.0.4
+annotated-types==0.7.0
+anyio==4.12.1
+brotli==1.2.0
+certifi==2026.2.25
+click==8.3.1
+fastapi==0.135.1
+ffmpy==1.0.0
+filelock==3.25.2
+fsspec==2026.2.0
+gradio==6.9.0
+gradio_client==2.3.0
+groovy==0.1.2
+h11==0.16.0
+hf-xet==1.4.2
+httpcore==1.0.9
+httpx==0.28.1
+huggingface_hub==1.7.1
+idna==3.11
+Jinja2==3.1.6
+markdown-it-py==4.0.0
+MarkupSafe==3.0.3
+mdurl==0.1.2
+numpy==2.4.3
+orjson==3.11.7
+packaging==26.0
+pandas==3.0.1
+pillow==12.1.1
+pydantic==2.12.5
+pydantic_core==2.41.5
+pydub==0.25.1
+Pygments==2.19.2
+python-dateutil==2.9.0.post0
+python-multipart==0.0.22
+pytz==2026.1.post1
+PyYAML==6.0.3
+regex==2026.2.28
+rich==14.3.3
+safehttpx==0.1.7
+safetensors==0.7.0
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.17.0
+starlette==0.52.1
+tokenizers==0.22.2
+tomlkit==0.13.3
+tqdm==4.67.3
+transformers==5.3.0
+typer==0.24.1
+typing-inspection==0.4.2
+typing_extensions==4.15.0
+uvicorn==0.41.0
+torch
+torchvision

train.py ADDED Viewed

	@@ -0,0 +1,98 @@

+# -*- coding: utf-8 -*-
+"""FastAI_04_NLP_IMDB_MoviesDataset.ipynb
+Automatically generated by Colab.
+"""
+# Set your KAGGLE_API_TOKEN
+# !pip install kagglehub "kagglehub[pandas-datasets]" "transformers[torch]"
+import kagglehub
+from kagglehub import KaggleDatasetAdapter
+from datasets import Dataset, DatasetDict
+from transformers import AutoModelForSequenceClassification, AutoTokenizer
+from transformers import TrainingArguments, Trainer
+file_path = "IMDB Dataset.csv"
+model = 'prajjwal1/bert-mini'
+bs = 64
+epochs = 4
+lr = 5e-5
+args = TrainingArguments(
+    'outputs',
+    learning_rate=lr,
+    warmup_ratio=0.1,
+    lr_scheduler_type='cosine',
+    fp16=True,
+    eval_strategy="epoch",
+    per_device_train_batch_size=bs,
+    per_device_eval_batch_size=bs*2,
+    num_train_epochs=epochs,
+    weight_decay=0.01,
+    report_to='none'
+)
+df = kagglehub.dataset_load(
+  KaggleDatasetAdapter.PANDAS,
+  "lakshmi25npathi/imdb-dataset-of-50k-movie-reviews",
+  file_path,
+)
+df["sentiment"] = df["sentiment"].replace({
+    "negative": 0,
+    "positive": 1
+})
+df['review'] = df['review'].str.lower()
+ds = Dataset.from_pandas(df)
+tokz = AutoTokenizer.from_pretrained(model)
+tokenized_ds = ds.map(lambda x: tokz(x["review"], truncation=True, max_length=512), batched=True)
+tokenized_ds = tokenized_ds.rename_columns({'sentiment': 'labels', 'review': 'input'})
+dataset_dict = tokenized_ds.train_test_split(0.30, seed=2026)
+mdl = AutoModelForSequenceClassification.from_pretrained(model, num_labels=2)
+trainer = Trainer(
+    mdl,
+    args,
+    train_dataset=dataset_dict['train'],
+    eval_dataset=dataset_dict['test'],
+    processing_class=tokz
+)
+trainer.train()
+# To free GPU memory
+# ===================
+#del dataset_dict
+#del trainer
+#del mdl
+#import gc
+#gc.collect()
+#import torch
+#torch.cuda.empty_cache()
+#torch.cuda.ipc_collect()
+#!nvidia-smi
+# Save the model
+trainer.save_model("imdb_sentiment")
+tokz.save_pretrained("imdb_sentiment")
+#from google.colab import drive
+#drive.mount('/content/drive')
+#!cp -r ./imdb_sentiment/ /content/drive/MyDrive/imdb_sentiment
+# Check the accuracy (since we did not specify compute_accuracy while training)
+# TODO: Add this while training the next time
+from sklearn.metrics import accuracy_score
+import numpy as np
+predictions = trainer.predict(dataset_dict['test'])
+preds = np.argmax(predictions.predictions, axis=1)
+labels = predictions.label_ids
+acc = accuracy_score(labels, preds)
+print("Validation Accuracy:", acc)