Spaces:
Runtime error
Runtime error
Commenti e pulizia dataset.py
Browse files- src/dataset.py +3 -8
src/dataset.py
CHANGED
|
@@ -3,22 +3,17 @@ import pandas as pd
|
|
| 3 |
|
| 4 |
class LoadDataset :
|
| 5 |
"""
|
| 6 |
-
|
| 7 |
"""
|
| 8 |
|
| 9 |
def __init__(self) :
|
| 10 |
# Import del dataset da Hugging Face
|
| 11 |
-
# Prendo solo 200 record per problemi di timeout in fase di caricamento su HuggingFace di un dataset troppo
|
| 12 |
-
self.ds = load_dataset("SetFit/tweet_sentiment_extraction", split="train", streaming=True).take(
|
| 13 |
|
| 14 |
# Per comodità trasformo il dataset in un dataframe di pandas
|
| 15 |
-
# df = ds.to_pandas()
|
| 16 |
self.df = pd.DataFrame(list(self.ds))
|
| 17 |
|
| 18 |
# Identifico feature e target
|
| 19 |
self.X = self.df['text'].tolist()
|
| 20 |
self.y = self.df['label_text'].tolist()
|
| 21 |
-
|
| 22 |
-
# Considero solo una parte del dataset per motivi prestazionali
|
| 23 |
-
#X = X.tolist()
|
| 24 |
-
#y = y.tolist()
|
|
|
|
| 3 |
|
| 4 |
class LoadDataset :
|
| 5 |
"""
|
| 6 |
+
Scarica il dataset da Hugging Face e ne rende disponibili feature (tweet) e target (sentiment sottoforma di testo)
|
| 7 |
"""
|
| 8 |
|
| 9 |
def __init__(self) :
|
| 10 |
# Import del dataset da Hugging Face
|
| 11 |
+
# Prendo solo 200 record per problemi di timeout in fase di caricamento su HuggingFace di un dataset troppo grande
|
| 12 |
+
self.ds = load_dataset("SetFit/tweet_sentiment_extraction", split="train", streaming=True).take(200)
|
| 13 |
|
| 14 |
# Per comodità trasformo il dataset in un dataframe di pandas
|
|
|
|
| 15 |
self.df = pd.DataFrame(list(self.ds))
|
| 16 |
|
| 17 |
# Identifico feature e target
|
| 18 |
self.X = self.df['text'].tolist()
|
| 19 |
self.y = self.df['label_text'].tolist()
|
|
|
|
|
|
|
|
|
|
|
|