Spaces:

Oranblock
/

marblex

Sleeping

Oranblock commited on Jul 25, 2024

Commit

d6bb7e9

verified ·

1 Parent(s): 163907f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 import json
 import logging
 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
 from sklearn.metrics import accuracy_score, precision_recall_fscore_support
@@ -58,7 +59,9 @@ def setup_training():
     # Tokenize the dataset
     logging.info("Tokenizing the dataset")
     def tokenize_function(examples):
-        return tokenizer(examples[config['text_column']], padding="max_length", truncation=True)
     tokenized_datasets = dataset.map(tokenize_function, batched=True)
     logging.info("Dataset tokenization completed")

 import os
 import json
 import logging
+import numpy as np
 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
 from sklearn.metrics import accuracy_score, precision_recall_fscore_support
     # Tokenize the dataset
     logging.info("Tokenizing the dataset")
     def tokenize_function(examples):
+        # Concatenate all feature columns into a single input
+        features = np.stack([examples[col] for col in config['text_columns']], axis=1)
+        return tokenizer(features.tolist(), padding="max_length", truncation=True)
     tokenized_datasets = dataset.map(tokenize_function, batched=True)
     logging.info("Dataset tokenization completed")