Spaces:

yonkoyonks
/

csvBot

Build error

App Files Files Community

yonkoyonks commited on Oct 16, 2025

Commit

f057e48

verified ·

1 Parent(s): 7a5fdf7

Update utils.py

Browse files

Files changed (1) hide show

utils.py +29 -19

utils.py CHANGED Viewed

@@ -16,15 +16,29 @@ def summarize_dataframe(df: pd.DataFrame, max_rows: int = 30) -> str:
 def query_agent(df: pd.DataFrame, query: str) -> str:
     query_lower = query.lower()
     try:
         if "most common" in query_lower or "most frequent" in query_lower:
-            for col in df.columns:
-                if col.lower() in query_lower:
-                    value = df[col].mode()[0]
-                    return f"The most common value in column '{col}' is '{value}'."
     except Exception as e:
         print("Direct analysis failed:", e)
     data_text = summarize_dataframe(df)
     prompt = f"""
 You are a data analysis assistant with expertise in statistics and data interpretation.
@@ -40,33 +54,29 @@ Question:
 Answer (with explanation):
 """
-    # ✅ Explicitly specify provider (avoids StopIteration)
     client = InferenceClient(
         provider="hf-inference",
-        token=os.environ.get("HUGGINGFACE_API_KEY")
     )
     try:
         response = client.text_generation(
             prompt,
-            model="google/gemma-2b-it",
             max_new_tokens=1024,
             temperature=0.7,
         )
-    except TypeError:
-        response = client.text_generation(
-            model="google/gemma-2b-it",
-            inputs=prompt,
-            parameters={"max_new_tokens": 1024, "temperature": 0.7},
-        )
     if isinstance(response, str):
-        answer = response
     elif isinstance(response, dict) and "generated_text" in response:
-        answer = response["generated_text"]
     elif isinstance(response, list) and len(response) > 0 and "generated_text" in response[0]:
-        answer = response[0]["generated_text"]
     else:
-        answer = str(response)
-    return answer

 def query_agent(df: pd.DataFrame, query: str) -> str:
     query_lower = query.lower()
+    # ----------------- Direct Analysis for Most Common -----------------
     try:
         if "most common" in query_lower or "most frequent" in query_lower:
+            # Look for multiple columns in query
+            cols_in_query = [col for col in df.columns if col.lower() in query_lower]
+            if len(cols_in_query) == 1:
+                col = cols_in_query[0]
+                value = df[col].mode()[0]
+                return f"The most common value in column '{col}' is '{value}'."
+            elif len(cols_in_query) > 1:
+                # Compute most common combination of values across the columns
+                combo_series = df[cols_in_query].apply(lambda row: tuple(row), axis=1)
+                most_common_combo = combo_series.mode()[0]
+                combo_str = ", ".join(f"{col}={val}" for col, val in zip(cols_in_query, most_common_combo))
+                return f"The most common combination of values is: {combo_str}"
     except Exception as e:
         print("Direct analysis failed:", e)
+    # ----------------- Use LLM if direct analysis fails -----------------
     data_text = summarize_dataframe(df)
     prompt = f"""
 You are a data analysis assistant with expertise in statistics and data interpretation.
 Answer (with explanation):
 """
+    # Initialize client with explicit provider
     client = InferenceClient(
+        model="google/gemma-2b-it",
         provider="hf-inference",
+        token=os.environ.get("HUGGINGFACE_API_KEY"),
     )
     try:
         response = client.text_generation(
             prompt,
             max_new_tokens=1024,
             temperature=0.7,
         )
+    except Exception as e:
+        print("Model call failed:", e)
+        return "⚠️ Sorry, the model could not generate an answer. Please try again."
+    # Extract text safely
     if isinstance(response, str):
+        return response
     elif isinstance(response, dict) and "generated_text" in response:
+        return response["generated_text"]
     elif isinstance(response, list) and len(response) > 0 and "generated_text" in response[0]:
+        return response[0]["generated_text"]
     else:
+        return str(response)