Roboproch commited on
Commit
1e7f99b
·
unverified ·
1 Parent(s): da34ea1

Commenti e pulizia dataset.py

Browse files
Files changed (1) hide show
  1. src/dataset.py +3 -8
src/dataset.py CHANGED
@@ -3,22 +3,17 @@ import pandas as pd
3
 
4
  class LoadDataset :
5
  """
6
- Classe utilizzata per scaricare il dataset e rendere disponibili set di train e set di test
7
  """
8
 
9
  def __init__(self) :
10
  # Import del dataset da Hugging Face
11
- # Prendo solo 200 record per problemi di timeout in fase di caricamento su HuggingFace di un dataset troppo grosso
12
- self.ds = load_dataset("SetFit/tweet_sentiment_extraction", split="train", streaming=True).take(10)
13
 
14
  # Per comodità trasformo il dataset in un dataframe di pandas
15
- # df = ds.to_pandas()
16
  self.df = pd.DataFrame(list(self.ds))
17
 
18
  # Identifico feature e target
19
  self.X = self.df['text'].tolist()
20
  self.y = self.df['label_text'].tolist()
21
-
22
- # Considero solo una parte del dataset per motivi prestazionali
23
- #X = X.tolist()
24
- #y = y.tolist()
 
3
 
4
  class LoadDataset :
5
  """
6
+ Scarica il dataset da Hugging Face e ne rende disponibili feature (tweet) e target (sentiment sottoforma di testo)
7
  """
8
 
9
  def __init__(self) :
10
  # Import del dataset da Hugging Face
11
+ # Prendo solo 200 record per problemi di timeout in fase di caricamento su HuggingFace di un dataset troppo grande
12
+ self.ds = load_dataset("SetFit/tweet_sentiment_extraction", split="train", streaming=True).take(200)
13
 
14
  # Per comodità trasformo il dataset in un dataframe di pandas
 
15
  self.df = pd.DataFrame(list(self.ds))
16
 
17
  # Identifico feature e target
18
  self.X = self.df['text'].tolist()
19
  self.y = self.df['label_text'].tolist()