Upload 4 files

Browse files

Files changed (4) hide show

TeluguFineTunedModel.ipynb +0 -0
telugufinetunedmodel.py +142 -0
train-00000-of-00001.parquet +3 -0
validation-00000-of-00001.parquet +3 -0

TeluguFineTunedModel.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

telugufinetunedmodel.py ADDED Viewed

	@@ -0,0 +1,142 @@

+# -*- coding: utf-8 -*-
+"""TeluguFineTunedModel.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1e6ZAY9LbNyAe__urbLAqPmxGQex8d8aw
+"""
+from huggingface_hub import notebook_login
+notebook_login()
+!pip install unsloth
+from unsloth import FastLanguageModel
+import torch
+from transformers import AutoModelForSequenceClassification, AutoTokenizer, TrainingArguments, Trainer
+from datasets import Dataset, DatasetDict
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import accuracy_score, precision_recall_fscore_support
+df = pd.read_csv("Telugu.csv")  # Replace "your_dataset.csv" with your filename
+df = df.dropna() # remove null values
+df = df.rename(columns={"text_column": "text", "label_column": "label"}) # rename colums
+print(df.head())  # Inspect the first few rows
+from google.colab import drive
+try:
+  drive.flush_and_unmount()
+  print('Drive unmounted')
+except ValueError:
+  pass
+# Remount the drive
+drive.mount('/content/drive')
+df = pd.read_csv("/content/Telugu.csv") # replace with your path in Google Drive
+df = df.dropna() # remove null values
+df = df.rename(columns={"text_column": "text", "label_column": "label"}) # rename colums
+print(df.head())
+dataset = Dataset.from_pandas(df)
+dataset = dataset.train_test_split(test_size=0.2, seed=42)  # 80% train, 20% validation.  seed for reproducibility
+model_name = "bert-base-multilingual-cased"  # Or try "xlm-roberta-base" if that's faster
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+def tokenized_function(examples):
+  tokenized_datasets = dataset.map(preprocess_function, batched=True)
+  return tokenized_datasets
+def tokenize_fn(examples):
+    inputs = [ex for ex in examples['te']]
+    targets = [ex for ex in examples['en']]
+    model_inputs = tokenizer(inputs, max_length=128, truncation=True, padding="max_length")
+    labels = tokenizer(targets, max_length=128, truncation=True, padding="max_length").input_ids
+    model_inputs["labels"] = labels
+    return model_inputs
+tokenized_dataset = dataset.map(tokenize_fn, batched=True)
+def compute_metrics(pred):
+    labels = pred.label_ids
+    preds = pred.predictions.argmax(-1)
+    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
+    acc = accuracy_score(labels, preds)
+    return {
+        'accuracy': acc,
+        'f1': f1,
+        'precision': precision,
+        'recall': recall
+    }
+model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
+!pip install peft
+from peft import LoraConfig, get_peft_model
+# ... (rest of your code)
+lora_config = LoraConfig(
+    r=16,
+    lora_alpha=32,
+    target_modules=["query", "key", "value", "dense"],
+    lora_dropout=0.05,
+    bias="none",
+    task_type="SEQ_CLS", # Specify task type as sequence classification
+)
+model = get_peft_model(model, lora_config) # Use peft.get_peft_model directly
+from peft import LoraConfig, get_peft_model
+# ... (rest of your code)
+lora_config = LoraConfig(
+    r=16,
+    lora_alpha=32,
+    target_modules=["query", "key", "value", "dense"],
+    lora_dropout=0.05,
+    bias="none",
+    task_type="SEQ_CLS",  # Specify task type as sequence classification
+)
+model = get_peft_model(model, lora_config)  # Use peft.get_peft_model directly
+training_args = TrainingArguments(
+    output_dir="./results",
+    learning_rate=2e-5,
+    per_device_train_batch_size=32,
+    per_device_eval_batch_size=32,
+    num_train_epochs=3,
+    weight_decay=0.01,
+    evaluation_strategy="epoch",
+    save_strategy="epoch",
+    load_best_model_at_end=True,
+    metric_for_best_model="f1", # Use F1 score to determine the best model
+    report_to="none" # Disable WANDB to avoid login issues
+)
+tokenized_datasets = dataset.map(tokenize_fn, batched=True)
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_datasets["train"],
+    eval_dataset=tokenized_datasets["test"],
+    tokenizer=tokenizer,
+    compute_metrics=compute_metrics,
+)
+trainer.save_model("./my_colloquial_telugu_model")
+from huggingface_hub import notebook_login
+notebook_login()
+import os
+# Replace "YOUR_HUGGING_FACE_TOKEN" with the actual token you copied
+os.environ["ML_project_token"] = "ML_project_token"

train-00000-of-00001.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16bd7d210710f152d20e9fa349c643c678d3aa09efb3afadb6898fa0d600a0f5
+size 17192

validation-00000-of-00001.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d54570ed960f96dff1356307a1b0b3990d319c0dec0bfd1d7f109db2bb0059e
+size 9085