Spaces:

ayush2917
/

Ubuntu-Customer-Centre-Inquiries

No application file

ayush2917 commited on Apr 18, 2025

Commit

2eb5a40

verified ·

1 Parent(s): b013e35

Update src/feature_engineering.py

Files changed (1) hide show

src/feature_engineering.py CHANGED Viewed

@@ -1,19 +1,19 @@
 # src/feature_engineering.py
 from transformers import DistilBertTokenizer
-import torch
-from src.config import MAX_LENGTH
 import logging
 def setup_logging():
-    logging.basicConfig(filename="logs/app.log", level=logging.INFO,
                         format="%(asctime)s - %(levelname)s - %(message)s")
-def tokenize_texts(texts):
     """Tokenize texts using DistilBERT tokenizer."""
     setup_logging()
-    tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased")
     logging.info("Tokenizing texts")
-    encodings = tokenizer(
-        texts.tolist(), truncation=True, padding=True, max_length=MAX_LENGTH, return_tensors="pt"
-    )
-    return encodings

 # src/feature_engineering.py
 from transformers import DistilBertTokenizer
 import logging
+from src.config import MODEL_NAME, MAX_LENGTH, LOG_FILE
 def setup_logging():
+    logging.basicConfig(filename=LOG_FILE, level=logging.INFO,
                         format="%(asctime)s - %(levelname)s - %(message)s")
+def tokenize_texts(dataset, tokenizer=None):
     """Tokenize texts using DistilBERT tokenizer."""
     setup_logging()
+    if tokenizer is None:
+        tokenizer = DistilBertTokenizer.from_pretrained(MODEL_NAME)
     logging.info("Tokenizing texts")
+    def tokenize_function(examples):
+        return tokenizer(examples["text"], truncation=True, padding=True, max_length=MAX_LENGTH)
+    tokenized_dataset = dataset.map(tokenize_function, batched=True)
+    return tokenized_dataset, tokenizer