Spaces:

Madras1
/

AetherMap

Running

App Files Files Community

Madras1 commited on Dec 19, 2025

Commit

f23dc10

verified ·

1 Parent(s): 7613840

Upload app.py

Browse files

Files changed (1) hide show

app.py +25 -8

app.py CHANGED Viewed

@@ -161,12 +161,31 @@ def preparar_textos(file_bytes: bytes, n_samples: int) -> List[str]:
     textos = [s for line in linhas if (s := line.strip()) and len(s.split()) > 3]
     return textos[:n_samples]
-def preparar_textos_csv(file_bytes: bytes, text_column: str, n_samples: int) -> List[str]:
-    """Prepara textos de arquivo CSV extraindo coluna especificada."""
     try:
-        df = pd.read_csv(io.BytesIO(file_bytes), encoding="utf-8")
     except UnicodeDecodeError:
-        df = pd.read_csv(io.BytesIO(file_bytes), encoding="latin-1")
     if text_column not in df.columns:
         available = ", ".join(df.columns.tolist()[:10])
@@ -179,13 +198,11 @@ def preparar_textos_csv(file_bytes: bytes, text_column: str, n_samples: int) ->
 def get_csv_columns(file_bytes: bytes) -> List[str]:
     """Retorna lista de colunas de um arquivo CSV."""
-    try:
-        df = pd.read_csv(io.BytesIO(file_bytes), nrows=0, encoding="utf-8")
-    except UnicodeDecodeError:
-        df = pd.read_csv(io.BytesIO(file_bytes), nrows=0, encoding="latin-1")
     return df.columns.tolist()
 def processar_pipeline(textos: List[str]) -> (pd.DataFrame, np.ndarray):
     logging.info(f"Iniciando pipeline para {len(textos)} textos...")
     model = load_retriever()

     textos = [s for line in linhas if (s := line.strip()) and len(s.split()) > 3]
     return textos[:n_samples]
+def detect_csv_separator(file_bytes: bytes) -> str:
+    """Detecta separador do CSV (vírgula ou ponto-e-vírgula)."""
+    sample = file_bytes[:4096].decode("utf-8", errors="ignore")
+    first_line = sample.split('\n')[0]
+    # Conta ocorrências de cada separador na primeira linha
+    commas = first_line.count(',')
+    semicolons = first_line.count(';')
+    return ';' if semicolons > commas else ','
+def read_csv_smart(file_bytes: bytes, nrows=None) -> pd.DataFrame:
+    """Lê CSV com detecção automática de separador e encoding."""
+    sep = detect_csv_separator(file_bytes)
     try:
+        df = pd.read_csv(io.BytesIO(file_bytes), sep=sep, encoding="utf-8", nrows=nrows)
     except UnicodeDecodeError:
+        df = pd.read_csv(io.BytesIO(file_bytes), sep=sep, encoding="latin-1", nrows=nrows)
+    return df
+def preparar_textos_csv(file_bytes: bytes, text_column: str, n_samples: int) -> List[str]:
+    """Prepara textos de arquivo CSV extraindo coluna especificada."""
+    df = read_csv_smart(file_bytes)
     if text_column not in df.columns:
         available = ", ".join(df.columns.tolist()[:10])
 def get_csv_columns(file_bytes: bytes) -> List[str]:
     """Retorna lista de colunas de um arquivo CSV."""
+    df = read_csv_smart(file_bytes, nrows=0)
     return df.columns.tolist()
 def processar_pipeline(textos: List[str]) -> (pd.DataFrame, np.ndarray):
     logging.info(f"Iniciando pipeline para {len(textos)} textos...")
     model = load_retriever()