Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
|
@@ -19,7 +19,7 @@ BASELINE_PATH = os.getenv("MODEL_PATH", "baseline_pipe.pkl")
|
|
| 19 |
|
| 20 |
|
| 21 |
def train_small_baseline(save_path: str = BASELINE_PATH,
|
| 22 |
-
|
| 23 |
"""
|
| 24 |
Treina um baseline pequeno usando uma amostra do dataset amazon_polarity.
|
| 25 |
Usado apenas se baseline_pipe.pkl nao existir no Space.
|
|
@@ -27,8 +27,13 @@ def train_small_baseline(save_path: str = BASELINE_PATH,
|
|
| 27 |
from datasets import load_dataset
|
| 28 |
import pandas as pd
|
| 29 |
|
| 30 |
-
|
| 31 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 32 |
|
| 33 |
pipe = Pipeline(
|
| 34 |
[
|
|
@@ -42,6 +47,7 @@ def train_small_baseline(save_path: str = BASELINE_PATH,
|
|
| 42 |
return pipe
|
| 43 |
|
| 44 |
|
|
|
|
| 45 |
def load_or_bootstrap_baseline():
|
| 46 |
"""
|
| 47 |
Se existir baseline_pipe.pkl, carrega.
|
|
|
|
| 19 |
|
| 20 |
|
| 21 |
def train_small_baseline(save_path: str = BASELINE_PATH,
|
| 22 |
+
max_samples: int = 10000):
|
| 23 |
"""
|
| 24 |
Treina um baseline pequeno usando uma amostra do dataset amazon_polarity.
|
| 25 |
Usado apenas se baseline_pipe.pkl nao existir no Space.
|
|
|
|
| 27 |
from datasets import load_dataset
|
| 28 |
import pandas as pd
|
| 29 |
|
| 30 |
+
# Carrega o split de treino inteiro
|
| 31 |
+
ds = load_dataset("amazon_polarity", split="train")
|
| 32 |
+
|
| 33 |
+
# Embaralha e pega apenas max_samples exemplos (para ficar leve)
|
| 34 |
+
ds_small = ds.shuffle(seed=42).select(range(min(max_samples, len(ds))))
|
| 35 |
+
|
| 36 |
+
df = pd.DataFrame({"text": ds_small["content"], "label": ds_small["label"]})
|
| 37 |
|
| 38 |
pipe = Pipeline(
|
| 39 |
[
|
|
|
|
| 47 |
return pipe
|
| 48 |
|
| 49 |
|
| 50 |
+
|
| 51 |
def load_or_bootstrap_baseline():
|
| 52 |
"""
|
| 53 |
Se existir baseline_pipe.pkl, carrega.
|