ProfRod100 commited on
Commit
8ed82c4
Β·
verified Β·
1 Parent(s): 1c2502c

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +9 -3
app.py CHANGED
@@ -19,7 +19,7 @@ BASELINE_PATH = os.getenv("MODEL_PATH", "baseline_pipe.pkl")
19
 
20
 
21
  def train_small_baseline(save_path: str = BASELINE_PATH,
22
- sample_split: str = "train[:0.5%]"):
23
  """
24
  Treina um baseline pequeno usando uma amostra do dataset amazon_polarity.
25
  Usado apenas se baseline_pipe.pkl nao existir no Space.
@@ -27,8 +27,13 @@ def train_small_baseline(save_path: str = BASELINE_PATH,
27
  from datasets import load_dataset
28
  import pandas as pd
29
 
30
- ds = load_dataset("amazon_polarity", split=sample_split)
31
- df = pd.DataFrame({"text": ds["content"], "label": ds["label"]})
 
 
 
 
 
32
 
33
  pipe = Pipeline(
34
  [
@@ -42,6 +47,7 @@ def train_small_baseline(save_path: str = BASELINE_PATH,
42
  return pipe
43
 
44
 
 
45
  def load_or_bootstrap_baseline():
46
  """
47
  Se existir baseline_pipe.pkl, carrega.
 
19
 
20
 
21
  def train_small_baseline(save_path: str = BASELINE_PATH,
22
+ max_samples: int = 10000):
23
  """
24
  Treina um baseline pequeno usando uma amostra do dataset amazon_polarity.
25
  Usado apenas se baseline_pipe.pkl nao existir no Space.
 
27
  from datasets import load_dataset
28
  import pandas as pd
29
 
30
+ # Carrega o split de treino inteiro
31
+ ds = load_dataset("amazon_polarity", split="train")
32
+
33
+ # Embaralha e pega apenas max_samples exemplos (para ficar leve)
34
+ ds_small = ds.shuffle(seed=42).select(range(min(max_samples, len(ds))))
35
+
36
+ df = pd.DataFrame({"text": ds_small["content"], "label": ds_small["label"]})
37
 
38
  pipe = Pipeline(
39
  [
 
47
  return pipe
48
 
49
 
50
+
51
  def load_or_bootstrap_baseline():
52
  """
53
  Se existir baseline_pipe.pkl, carrega.