Spaces:

Eric2mangel
/

DF_Loader_Benchmark

Sleeping

App Files Files Community

Eric2mangel commited on Dec 7, 2025

Commit

2fb7700

verified ·

1 Parent(s): d2a5985

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -37

app.py CHANGED Viewed

@@ -2,8 +2,6 @@ import streamlit as st
 import pandas as pd
 import duckdb
 import polars as pl
 import time
 import os
 import matplotlib.pyplot as plt
@@ -11,18 +9,29 @@ import numpy as np
 import tempfile
 from io import BytesIO
-print("=== APP STARTING ===")  # Ça apparaîtra dans les logs
-st.write("Hello, world!")  # Un truc simple pour tester
 # Configuration de la page Streamlit
 st.set_page_config(
     page_title="Comparaison de vitesse de chargement des données",
     layout="wide"
 )
 # --- FONCTION DE CHARGEMENT TECHNIQUE ---
 def load_file_and_measure_time(file_path, library, file_ext, read_kwargs):
     try:
@@ -76,21 +85,14 @@ def load_file_and_measure_time(file_path, library, file_ext, read_kwargs):
 # --- FONCTION POUR CHARGER DEPUIS UN BUFFER UPLOADÉ ---
 def load_from_buffer(uploaded_file, library, file_ext, read_kwargs):
-    """Charge un fichier depuis un buffer Streamlit et mesure le temps"""
     try:
-        # Créer un fichier temporaire
         with tempfile.NamedTemporaryFile(delete=False, suffix=file_ext) as tmp_file:
             tmp_file.write(uploaded_file.getvalue())
             tmp_path = tmp_file.name
-        # Utiliser la fonction existante avec le fichier temporaire
         load_time, row_count = load_file_and_measure_time(tmp_path, library, file_ext, read_kwargs)
-        # Nettoyer le fichier temporaire
         os.unlink(tmp_path)
         return load_time, row_count
     except Exception as e:
         return f"Erreur: {e}", 0
@@ -103,57 +105,51 @@ if 'file_ext' not in st.session_state:
 if 'uploaded_buffer' not in st.session_state:
     st.session_state.uploaded_buffer = None
-st.title("⚡ Comparaison de vitesse de chargement des données")
 st.markdown("Téléchargez un fichier **CSV, Excel ou Parquet** pour comparer **Pandas**, **PyArrow**, **DuckDB** et **Polars**.")
 # --- SIDEBAR ---
-st.sidebar.header("⚙️ Paramètres du fichier")
 # Boutons de démo
-st.sidebar.subheader("🧪 Fichiers de test (30Mo)")
 c1, c2 = st.sidebar.columns(2)
-if c1.button("📄 Faker Text"):
     if os.path.exists("faker_text.csv"):
         st.session_state.target_file = "faker_text.csv"
         st.session_state.file_ext = ".csv"
-        # Vérification des dimensions
         try:
             test_df = pd.read_csv("faker_text.csv", nrows=5)
-            st.sidebar.info(f"✅ Fichier détecté : {len(pd.read_csv('faker_text.csv'))} lignes, {len(test_df.columns)} colonnes")
         except:
             pass
     else:
-        st.sidebar.error("❌ Fichier faker_text.csv introuvable à la racine")
-if c2.button("📊 Numeric Only"):
     if os.path.exists("numeric_only.csv"):
         st.session_state.target_file = "numeric_only.csv"
         st.session_state.file_ext = ".csv"
-        # Vérification des dimensions
         try:
             test_df = pd.read_csv("numeric_only.csv", nrows=5)
-            st.sidebar.info(f"✅ Fichier détecté : {len(pd.read_csv('numeric_only.csv'))} lignes, {len(test_df.columns)} colonnes")
         except:
             pass
     else:
-        st.sidebar.error("❌ Fichier numeric_only.csv introuvable à la racine")
 # Uploader manuel
 uploaded_file = st.sidebar.file_uploader("Ou choisissez un fichier", type=["csv", "parquet", "xlsx", "xls"])
 if uploaded_file is not None:
     try:
         file_ext = os.path.splitext(uploaded_file.name)[1].lower()
-        # Stockage du buffer dans session_state
         st.session_state.uploaded_buffer = uploaded_file
-        st.session_state.target_file = "uploaded_file"  # Marqueur pour savoir qu'on a un upload
         st.session_state.file_ext = file_ext
-        # Afficher la taille du fichier uploadé
         file_size_mb = uploaded_file.size / (1024 * 1024)
-        st.sidebar.success(f"✅ Fichier uploadé : {uploaded_file.name} ({file_size_mb:.2f} Mo)")
     except Exception as e:
-        st.sidebar.error(f"❌ Erreur lors de l'upload : {str(e)}")
 # --- ACTIONS ET AFFICHAGE ---
 if st.session_state.target_file is not None:
@@ -169,18 +165,15 @@ if st.session_state.target_file is not None:
     run_comparison = st.sidebar.button("Lancer la comparaison")
     if run_comparison:
-        st.subheader("⏱️ Résultats de la vitesse de chargement")
         libraries = {'Pandas (Baseline)': 'pandas', 'PyArrow': 'pyarrow', 'DuckDB': 'duckdb', 'Polars': 'polars'}
         results = []
         for lib_name, lib_key in libraries.items():
             with st.spinner(f"Test en cours : **{lib_name}**..."):
-                # Choix de la fonction selon la source
                 if st.session_state.target_file == "uploaded_file" and st.session_state.uploaded_buffer is not None:
-                    # Fichier uploadé : passer directement l'objet uploaded_file
                     load_time, row_count = load_from_buffer(st.session_state.uploaded_buffer, lib_key, st.session_state.file_ext, read_kwargs)
                 else:
-                    # Fichier de test : utiliser le chemin
                     load_time, row_count = load_file_and_measure_time(st.session_state.target_file, lib_key, st.session_state.file_ext, read_kwargs)
             results.append({'Librairie': lib_name, 'Temps de chargement (s)': load_time, 'Nombre de lignes': row_count})
@@ -188,7 +181,7 @@ if st.session_state.target_file is not None:
         valid_counts = results_df[results_df['Nombre de lignes'] > 0]['Nombre de lignes']
         if not valid_counts.empty:
-            st.markdown(f"**Nombre de lignes détectées :** **{int(valid_counts.iloc[0]):,}**".replace(',', ' '))
         chart_data = results_df[results_df['Temps de chargement (s)'].apply(lambda x: isinstance(x, (int, float)))]

 import pandas as pd
 import duckdb
 import polars as pl
 import time
 import os
 import matplotlib.pyplot as plt
 import tempfile
 from io import BytesIO
+print("=== APP STARTING ===")
+st.write("Hello, world!")
 # Configuration de la page Streamlit
 st.set_page_config(
     page_title="Comparaison de vitesse de chargement des données",
     layout="wide"
 )
+# === CSS UNIQUEMENT POUR LES DEUX BOUTONS DE TEST (même hauteur) ===
+st.markdown("""
+<style>
+    div[data-testid="column"]:nth-child(1) button[kind="secondary"] {
+        height: 5rem !important;
+        min-height: 5rem !important;
+    }
+    div[data-testid="column"]:nth-child(2) button[kind="secondary"] {
+        height: 5rem !important;
+        min-height: 5rem !important;
+    }
+</style>
+""", unsafe_allow_html=True)
 # --- FONCTION DE CHARGEMENT TECHNIQUE ---
 def load_file_and_measure_time(file_path, library, file_ext, read_kwargs):
     try:
 # --- FONCTION POUR CHARGER DEPUIS UN BUFFER UPLOADÉ ---
 def load_from_buffer(uploaded_file, library, file_ext, read_kwargs):
     try:
         with tempfile.NamedTemporaryFile(delete=False, suffix=file_ext) as tmp_file:
             tmp_file.write(uploaded_file.getvalue())
             tmp_path = tmp_file.name
         load_time, row_count = load_file_and_measure_time(tmp_path, library, file_ext, read_kwargs)
         os.unlink(tmp_path)
         return load_time, row_count
     except Exception as e:
         return f"Erreur: {e}", 0
 if 'uploaded_buffer' not in st.session_state:
     st.session_state.uploaded_buffer = None
+st.title("Comparaison de vitesse de chargement des données")
 st.markdown("Téléchargez un fichier **CSV, Excel ou Parquet** pour comparer **Pandas**, **PyArrow**, **DuckDB** et **Polars**.")
 # --- SIDEBAR ---
+st.sidebar.header("Paramètres du fichier")
 # Boutons de démo
+st.sidebar.subheader("Fichiers de test (30Mo)")
 c1, c2 = st.sidebar.columns(2)
+if c1.button("Faker Text"):
     if os.path.exists("faker_text.csv"):
         st.session_state.target_file = "faker_text.csv"
         st.session_state.file_ext = ".csv"
         try:
             test_df = pd.read_csv("faker_text.csv", nrows=5)
+            st.sidebar.info(f"Fichier détecté : {len(pd.read_csv('faker_text.csv'))} lignes, {len(test_df.columns)} colonnes")
         except:
             pass
     else:
+        st.sidebar.error("Fichier faker_text.csv introuvable à la racine")
+if c2.button("Numeric Only"):
     if os.path.exists("numeric_only.csv"):
         st.session_state.target_file = "numeric_only.csv"
         st.session_state.file_ext = ".csv"
         try:
             test_df = pd.read_csv("numeric_only.csv", nrows=5)
+            st.sidebar.info(f"Fichier détecté : {len(pd.read_csv('numeric_only.csv'))} lignes, {len(test_df.columns)} colonnes")
         except:
             pass
     else:
+        st.sidebar.error("Fichier numeric_only.csv introuvable à la racine")
 # Uploader manuel
 uploaded_file = st.sidebar.file_uploader("Ou choisissez un fichier", type=["csv", "parquet", "xlsx", "xls"])
 if uploaded_file is not None:
     try:
         file_ext = os.path.splitext(uploaded_file.name)[1].lower()
         st.session_state.uploaded_buffer = uploaded_file
+        st.session_state.target_file = "uploaded_file"
         st.session_state.file_ext = file_ext
         file_size_mb = uploaded_file.size / (1024 * 1024)
+        st.sidebar.success(f"Fichier uploadé : {uploaded_file.name} ({file_size_mb:.2f} Mo)")
     except Exception as e:
+        st.sidebar.error(f"Erreur lors de l'upload : {str(e)}")
 # --- ACTIONS ET AFFICHAGE ---
 if st.session_state.target_file is not None:
     run_comparison = st.sidebar.button("Lancer la comparaison")
     if run_comparison:
+        st.subheader("Résultats de la vitesse de chargement")
         libraries = {'Pandas (Baseline)': 'pandas', 'PyArrow': 'pyarrow', 'DuckDB': 'duckdb', 'Polars': 'polars'}
         results = []
         for lib_name, lib_key in libraries.items():
             with st.spinner(f"Test en cours : **{lib_name}**..."):
                 if st.session_state.target_file == "uploaded_file" and st.session_state.uploaded_buffer is not None:
                     load_time, row_count = load_from_buffer(st.session_state.uploaded_buffer, lib_key, st.session_state.file_ext, read_kwargs)
                 else:
                     load_time, row_count = load_file_and_measure_time(st.session_state.target_file, lib_key, st.session_state.file_ext, read_kwargs)
             results.append({'Librairie': lib_name, 'Temps de chargement (s)': load_time, 'Nombre de lignes': row_count})
         valid_counts = results_df[results_df['Nombre de lignes'] > 0]['Nombre de lignes']
         if not valid_counts.empty:
+            st.markdown(f"**Nombre de lignes détectées :** **{int(valid_counts.iloc[0]):,}**")
         chart_data = results_df[results_df['Temps de chargement (s)'].apply(lambda x: isinstance(x, (int, float)))]