Spaces:

Mahmoud-Dev
/

DistilBERT-Sentiment-Training

Sleeping

App Files Files Community

Mahmoud-Dev commited on 16 days ago

Commit

4744848

verified ·

1 Parent(s): 95b5c45

Test: Simple Gradio app to verify functionality

Browse files

Files changed (1) hide show

app.py +4 -98

app.py CHANGED Viewed

@@ -1,103 +1,9 @@
 import gradio as gr
-import torch
-from datasets import load_dataset
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
-# Global variables for caching
-dataset = None
-tokenizer = None
-model = None
-tokenized_dataset = None
-def load_resources():
-    global dataset, tokenizer, model, tokenized_dataset
-    if dataset is not None:
-        return
-    try:
-        dataset = load_dataset('arbml/Arabic_Sentiment_Twitter_Corpus')
-    except:
-        dataset = load_dataset('asas-ai/Arabic_Sentiment_Twitter_Corpus')
-    tokenizer = AutoTokenizer.from_pretrained('distilbert-base-multilingual-cased')
-    model = AutoModelForSequenceClassification.from_pretrained('distilbert-base-multilingual-cased', num_labels=3)
-def preprocess_function(examples):
-    text_column = 'tweet' if 'tweet' in examples else 'text'
-    encoding = tokenizer(examples[text_column], truncation=True, padding='max_length', max_length=128)
-    if 'label' in examples:
-        encoding['labels'] = examples['label']
-    elif 'sentiment' in examples:
-        encoding['labels'] = examples['sentiment']
-    return encoding
-def train_model(epochs, batch_size, learning_rate):
-    try:
-        load_resources()
-        global tokenized_dataset
-        if tokenized_dataset is None:
-            tokenized_dataset = dataset.map(preprocess_function, batched=True, remove_columns=dataset['train'].column_names)
-        training_args = TrainingArguments(
-            output_dir='./results',
-            num_train_epochs=int(epochs),
-            per_device_train_batch_size=int(batch_size),
-            per_device_eval_batch_size=int(batch_size),
-            learning_rate=float(learning_rate),
-            weight_decay=0.01,
-            save_strategy='epoch',
-            logging_steps=50,
-        )
-        trainer = Trainer(
-            model=model,
-            args=training_args,
-            train_dataset=tokenized_dataset['train'],
-            eval_dataset=tokenized_dataset.get('validation', tokenized_dataset['train']),
-        )
-        trainer.train()
-        return f"Training completed successfully! Model saved in ./results"
-    except Exception as e:
-        return f"Error during training: {str(e)}"
-with gr.Blocks(title="DistilBERT Arabic Sentiment Training") as demo:
-    gr.Markdown("# DistilBERT Arabic Sentiment Training")
-    gr.Markdown("Fine-tune DistilBERT on Arabic sentiment analysis (Saudi dialect)")
-    gr.Markdown("### Model Information:")
-    gr.Markdown("- **Base Model**: distilbert-base-multilingual-cased (67M parameters)")
-    gr.Markdown("- **Task**: Text Classification (Multilingual)")
-    gr.Markdown("- **Dataset**: arbml/Arabic_Sentiment_Twitter_Corpus (58.8k examples)")
-    gr.Markdown("- **Language**: Arabic (Saudi & Gulf dialects)")
-    with gr.Row():
-        with gr.Column():
-            gr.Markdown("### Training Settings")
-            epochs = gr.Slider(minimum=1, maximum=10, value=3, step=1, label="Epochs")
-            batch_size = gr.Slider(minimum=8, maximum=64, value=32, step=8, label="Batch Size")
-            learning_rate = gr.Slider(minimum=1e-5, maximum=1e-3, value=2e-5, step=1e-5, label="Learning Rate")
-        with gr.Column():
-            gr.Markdown("### Training Status")
-            output_text = gr.Textbox(label="Output", lines=10, interactive=False)
-    train_button = gr.Button("Start Training", variant="primary")
-    train_button.click(
-        fn=train_model,
-        inputs=[epochs, batch_size, learning_rate],
-        outputs=output_text
-    )
-    gr.Markdown("### Training Details:")
-    gr.Markdown("- **Hardware**: Free GPU (Hugging Face Spaces)")
-    gr.Markdown("- **Expected Time**: 5-10 minutes (GPU) or 15-20 minutes (CPU)")
-    gr.Markdown("- **Output Directory**: ./results")
-    gr.Markdown("- **Usage**: Arabic text only")
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+def greet(name):
+    return f"Hello {name}!"
+iface = gr.Interface(fn=greet, inputs="text", outputs="text")
 if __name__ == "__main__":
+    iface.launch()