DetectiveShadow
/

QuestBoard

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "9064caea",
+   "metadata": {},
+   "source": [
+    "# Fine-Tuning AI Models on Personal Datasets with Hugging Face\n",
+    "\n",
+    "This notebook guides students through fine-tuning AI models for **sentiment analysis, chatbot responses, and image classification** using their own datasets uploaded to Hugging Face.\n",
+    "\n",
+    "## Install Necessary Libraries\n",
+    "```python\n",
+    "!pip install transformers datasets torch torchvision\n",
+    "```\n",
+    "\n",
+    "## Import Libraries\n",
+    "```python\n",
+    "from transformers import AutoModelForSequenceClassification, AutoModelForCausalLM, TrainingArguments, Trainer, AutoTokenizer, ViTForImageClassification, ViTFeatureExtractor\n",
+    "from datasets import load_dataset\n",
+    "import torch\n",
+    "import numpy as np\n",
+    "from sklearn.metrics import accuracy_score\n",
+    "from PIL import Image\n",
+    "from torchvision import transforms\n",
+    "```\n",
+    "\n",
+    "## Load Dataset from Hugging Face\n",
+    "```python\n",
+    "dataset_name = \"your-huggingface-username/your-dataset-name\"\n",
+    "dataset = load_dataset(dataset_name)\n",
+    "```\n",
+    "\n",
+    "## Fine-Tuning Sentiment Analysis Model (Good/Average/Bad)\n",
+    "```python\n",
+    "model_name = \"bert-base-uncased\"\n",
+    "tokenizer = AutoTokenizer.from_pretrained(model_name)\n",
+    "\n",
+    "def tokenize_function(examples):\n",
+    "    return tokenizer(examples[\"text\"], padding=\"max_length\", truncation=True)\n",
+    "\n",
+    "tokenized_datasets = dataset.map(tokenize_function, batched=True)\n",
+    "\n",
+    "model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)\n",
+    "\n",
+    "training_args = TrainingArguments(\n",
+    "    output_dir=\"./results\",\n",
+    "    evaluation_strategy=\"epoch\",\n",
+    "    save_strategy=\"epoch\",\n",
+    "    learning_rate=2e-5,\n",
+    "    per_device_train_batch_size=8,\n",
+    "    per_device_eval_batch_size=8,\n",
+    "    num_train_epochs=3,\n",
+    "    weight_decay=0.01,\n",
+    ")\n",
+    "\n",
+    "def compute_metrics(eval_pred):\n",
+    "    logits, labels = eval_pred\n",
+    "    predictions = np.argmax(logits, axis=-1)\n",
+    "    return {\"accuracy\": accuracy_score(labels, predictions)}\n",
+    "\n",
+    "trainer = Trainer(\n",
+    "    model=model,\n",
+    "    args=training_args,\n",
+    "    train_dataset=tokenized_datasets[\"train\"],\n",
+    "    eval_dataset=tokenized_datasets[\"test\"],\n",
+    "    compute_metrics=compute_metrics,\n",
+    ")\n",
+    "\n",
+    "trainer.train()\n",
+    "trainer.save_model(\"./fine_tuned_model\")\n",
+    "\n",
+    "def test_model(text):\n",
+    "    inputs = tokenizer(text, return_tensors=\"pt\", truncation=True, padding=True)\n",
+    "    with torch.no_grad():\n",
+    "        logits = model(**inputs).logits\n",
+    "    prediction = torch.argmax(logits, dim=-1).item()\n",
+    "    label_map = {0: \"Good\", 1: \"Average\", 2: \"Bad\"}\n",
+    "    return label_map[prediction]\n",
+    "\n",
+    "print(test_model(\"I feel great about my work today!\"))\n",
+    "```\n",
+    "\n",
+    "## Fine-Tuning Chatbot Model (DialoGPT)\n",
+    "```python\n",
+    "chatbot_model_name = \"microsoft/DialoGPT-small\"\n",
+    "chatbot_model = AutoModelForCausalLM.from_pretrained(chatbot_model_name)\n",
+    "chatbot_tokenizer = AutoTokenizer.from_pretrained(chatbot_model_name)\n",
+    "\n",
+    "def train_chatbot():\n",
+    "    chatbot_datasets = dataset.map(lambda x: chatbot_tokenizer(x['question'], x['answer'], truncation=True, padding=True), batched=True)\n",
+    "    trainer = Trainer(\n",
+    "        model=chatbot_model,\n",
+    "        args=training_args,\n",
+    "        train_dataset=chatbot_datasets[\"train\"],\n",
+    "        eval_dataset=chatbot_datasets[\"test\"],\n",
+    "    )\n",
+    "    trainer.train()\n",
+    "    chatbot_model.save_pretrained(\"./fine_tuned_chatbot\")\n",
+    "\n",
+    "def test_chatbot(prompt):\n",
+    "    inputs = chatbot_tokenizer(prompt, return_tensors=\"pt\")\n",
+    "    response = chatbot_model.generate(**inputs, max_length=100)\n",
+    "    return chatbot_tokenizer.decode(response[0], skip_special_tokens=True)\n",
+    "\n",
+    "print(test_chatbot(\"Tell me about my family history.\"))\n",
+    "```\n",
+    "\n",
+    "## Fine-Tuning Image Classification Model (ViT)\n",
+    "```python\n",
+    "image_model_name = \"google/vit-base-patch16-224-in21k\"\n",
+    "feature_extractor = ViTFeatureExtractor.from_pretrained(image_model_name)\n",
+    "image_model = ViTForImageClassification.from_pretrained(image_model_name, num_labels=2)\n",
+    "\n",
+    "def preprocess_image(image_path):\n",
+    "    image = Image.open(image_path).convert(\"RGB\")\n",
+    "    return feature_extractor(images=image, return_tensors=\"pt\")\n",
+    "\n",
+    "def train_image_model():\n",
+    "    image_datasets = dataset.map(lambda x: {'pixel_values': preprocess_image(x['image'])}, batched=True)\n",
+    "    trainer = Trainer(\n",
+    "        model=image_model,\n",
+    "        args=training_args,\n",
+    "        train_dataset=image_datasets[\"train\"],\n",
+    "        eval_dataset=image_datasets[\"test\"],\n",
+    "    )\n",
+    "    trainer.train()\n",
+    "    image_model.save_pretrained(\"./fine_tuned_image_model\")\n",
+    "\n",
+    "def test_image(image_path):\n",
+    "    inputs = preprocess_image(image_path)\n",
+    "    with torch.no_grad():\n",
+    "        logits = image_model(**inputs).logits\n",
+    "    prediction = torch.argmax(logits, dim=-1).item()\n",
+    "    label_map = {0: \"Attentive\", 1: \"Distracted\"}\n",
+    "    return label_map[prediction]\n",
+    "\n",
+    "print(test_image(\"path_to_student_zoom_image.jpg\"))\n",
+    "```\n",
+    "\n",
+    "This notebook provides students with an end-to-end guide for **customizing AI models** with their **own datasets**. 🚀\n"
+   ]
+  }
+ ],
+ "metadata": {},
+ "nbformat": 4,
+ "nbformat_minor": 5
+}