Spaces:

Oranblock
/

marblex

Sleeping

Oranblock commited on Jul 25, 2024

Commit

af5b0b6

verified ·

1 Parent(s): 249cbf3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -40,6 +40,11 @@ def setup_training():
     # Print dataset structure
     logging.info(f"Dataset columns: {dataset['train'].column_names}")
     logging.info(f"Dataset loaded. Train size: {len(dataset['train'])}, Test size: {len(dataset['test'])}")
     # Load tokenizer and model
@@ -47,7 +52,7 @@ def setup_training():
     tokenizer = AutoTokenizer.from_pretrained(config['model_name'])
     model = AutoModelForSequenceClassification.from_pretrained(
         config['model_name'],
-        num_labels=len(dataset['train'].features[config['target_column']].names)
     )
     # Tokenize the dataset

     # Print dataset structure
     logging.info(f"Dataset columns: {dataset['train'].column_names}")
+    # Determine the number of unique labels
+    unique_labels = dataset['train'].unique(config['target_column'])
+    num_labels = len(unique_labels)
+    logging.info(f"Number of unique labels: {num_labels}")
     logging.info(f"Dataset loaded. Train size: {len(dataset['train'])}, Test size: {len(dataset['test'])}")
     # Load tokenizer and model
     tokenizer = AutoTokenizer.from_pretrained(config['model_name'])
     model = AutoModelForSequenceClassification.from_pretrained(
         config['model_name'],
+        num_labels=num_labels
     )
     # Tokenize the dataset