Spaces:

Chand11
/

Product-AI

Sleeping

App Files Files Community

Chand11 commited on Apr 28

Commit

90f1636

verified ·

1 Parent(s): bb58e23

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -161

app.py CHANGED Viewed

@@ -1,140 +1,74 @@
 import gradio as gr
 import pandas as pd
 import matplotlib.pyplot as plt
-# ---------- READ FILE ----------
-def read_raw(file):
-    try:
-        if file.name.endswith(".xlsx"):
-            return pd.read_excel(file.name, header=None)
-        else:
-            return pd.read_csv(file.name, header=None, engine="python")
-    except:
-        return None
-# ---------- DETECT HEADER ----------
-def find_header(df_raw):
-    for i, row in df_raw.iterrows():
-        row_text = " ".join(row.astype(str)).lower()
-        # strong detection for webinar reports
-        if (
-            "time in session" in row_text and
-            "join time" in row_text and
-            "leave time" in row_text
-        ):
-            return i
-        # fallback detection for course datasets
-        if "course" in row_text and ("nps" in row_text or "completion" in row_text):
-            return i
-    return None
-# ---------- CONVERT WEBINAR ----------
-def convert_webinar(file):
     try:
-        df_raw = read_raw(file)
-        if df_raw is None:
-            return None
-        header_index = find_header(df_raw)
-        if header_index is None:
-            return None
-        # read structured part
         if file.name.endswith(".xlsx"):
-            df = pd.read_excel(file.name, skiprows=header_index)
         else:
-            df = pd.read_csv(file.name, skiprows=header_index, engine="python")
-        df.columns = df.columns.str.strip()
-        # find time column dynamically
-        time_col = None
-        for col in df.columns:
-            if "time in session" in col.lower():
-                time_col = col
-                break
-        if time_col is None:
-            return None
-        df[time_col] = pd.to_numeric(df[time_col], errors="coerce")
-        df = df.dropna()
-        if df.empty:
-            return None
-        total = len(df)
-        completed = df[df[time_col] > 60]
-        completion = (len(completed) / total) * 100
-        avg_time = df[time_col].mean()
-        # simulate metrics
-        if avg_time > 150:
-            satisfaction, nps = 4.6, 75
-        elif avg_time > 100:
-            satisfaction, nps = 4.2, 65
-        elif avg_time > 60:
-            satisfaction, nps = 3.9, 55
-        else:
-            satisfaction, nps = 3.5, 40
-        return pd.DataFrame({
-            "Course Name": ["Webinar Course"],
-            "NPS Score": [nps],
-            "Completion Rate (%)": [round(completion, 2)],
-            "Satisfaction (1-5)": [satisfaction]
-        })
-    except:
-        return None
-# ---------- CLEAN COURSE DATA ----------
-def clean_course(file):
-    try:
-        if file.name.endswith(".xlsx"):
-            df = pd.read_excel(file.name)
-        else:
-            df = pd.read_csv(file.name)
-        df.columns = df.columns.str.strip().str.lower()
-        rename_map = {}
-        for col in df.columns:
-            if "course" in col:
-                rename_map[col] = "Course Name"
-            elif "nps" in col:
-                rename_map[col] = "NPS Score"
-            elif "completion" in col:
-                rename_map[col] = "Completion Rate (%)"
-            elif "satisfaction" in col or "rating" in col:
-                rename_map[col] = "Satisfaction (1-5)"
-        df = df.rename(columns=rename_map)
-        required = ["Course Name", "NPS Score", "Completion Rate (%)", "Satisfaction (1-5)"]
-        for col in required:
-            if col not in df.columns:
-                df[col] = None
-        for col in required[1:]:
-            df[col] = df[col].astype(str).str.replace('%', '', regex=False)
-            df[col] = df[col].astype(str).str.replace('/5', '', regex=False)
-            df[col] = pd.to_numeric(df[col], errors="coerce")
         df = df.dropna()
         return df
     except:
-        return pd.DataFrame()
 # ---------- CHARTS ----------
@@ -142,7 +76,7 @@ def charts(df):
     fig1, ax1 = plt.subplots()
     ax1.bar(df["Course Name"], df["Health Score"])
     plt.xticks(rotation=45, ha="right")
-    plt.title("Course Health Score")
     fig2, ax2 = plt.subplots()
     ax2.bar(df["Course Name"], df["Completion Rate (%)"])
@@ -154,54 +88,11 @@ def charts(df):
 # ---------- MAIN ----------
 def process(file):
-    try:
-        if file is None:
-            return (
-                pd.DataFrame({"Message": ["Upload a file"]}),
-                pd.DataFrame(),
-                pd.DataFrame(),
-                pd.DataFrame(),
-                None,
-                None
-            )
-        # try webinar conversion
-        df = convert_webinar(file)
-        # fallback
-        if df is None:
-            df = clean_course(file)
-        if df.empty:
-            return (
-                pd.DataFrame({"Message": ["Could not understand file structure"]}),
-                pd.DataFrame(),
-                pd.DataFrame(),
-                pd.DataFrame(),
-                None,
-                None
-            )
-        # health score
-        df["Health Score"] = (
-            (df["NPS Score"] * 0.4) +
-            (df["Completion Rate (%)"] * 0.3) +
-            (df["Satisfaction (1-5)"] * 20 * 0.3)
-        )
-        df["Needs Attention"] = df["Health Score"] < 60
-        top = df.sort_values(by="Health Score", ascending=False).head(3)
-        worst = df.sort_values(by="Health Score").head(3)
-        attention = df[df["Needs Attention"] == True]
-        fig1, fig2 = charts(df)
-        return df, top, worst, attention, fig1, fig2
-    except Exception as e:
         return (
-            pd.DataFrame({"Error": [str(e)]}),
             pd.DataFrame(),
             pd.DataFrame(),
             pd.DataFrame(),
@@ -209,19 +100,33 @@ def process(file):
             None
         )
 # ---------- UI ----------
 with gr.Blocks() as app:
-    gr.Markdown("# 📊 Smart Course Quality Tracker")
-    gr.Markdown("Upload CSV or Excel (even messy reports).")
-    file_input = gr.File(label="Upload File")
-    table = gr.Dataframe(label="Processed Data")
-    top = gr.Dataframe(label="Top Courses")
-    worst = gr.Dataframe(label="Worst Courses")
-    attention = gr.Dataframe(label="Needs Attention")
     chart1 = gr.Plot()
     chart2 = gr.Plot()

 import gradio as gr
 import pandas as pd
 import matplotlib.pyplot as plt
+import google.generativeai as genai
+# 🔑 ADD YOUR API KEY HERE
+genai.configure(api_key="YOUR_API_KEY")
+model = genai.GenerativeModel("gemini-1.5-flash")
+# ---------- READ FILE AS TEXT ----------
+def file_to_text(file):
     try:
         if file.name.endswith(".xlsx"):
+            df = pd.read_excel(file.name)
         else:
+            df = pd.read_csv(file.name, engine="python")
+        return df.to_string()
+    except:
+        with open(file.name, "r", encoding="utf-8", errors="ignore") as f:
+            return f.read()
+# ---------- AI PARSER ----------
+def ai_parse(file):
+    try:
+        text = file_to_text(file)
+        prompt = f"""
+        You are a data analyst.
+        Convert the following messy dataset into a structured course dataset.
+        Output ONLY a table with columns:
+        Course Name, NPS Score, Completion Rate (%), Satisfaction (1-5)
+        If it's webinar data:
+        - Use time in session as engagement
+        - Estimate completion rate
+        - Estimate satisfaction and NPS realistically
+        Data:
+        {text[:4000]}
+        """
+        response = model.generate_content(prompt)
+        output = response.text
+        # try converting AI output into dataframe
+        lines = [l.strip() for l in output.split("\n") if "," in l]
+        if len(lines) < 2:
+            return None
+        df = pd.DataFrame([l.split(",") for l in lines[1:]], columns=lines[0].split(","))
+        # clean numeric
+        df["NPS Score"] = pd.to_numeric(df["NPS Score"], errors="coerce")
+        df["Completion Rate (%)"] = pd.to_numeric(df["Completion Rate (%)"], errors="coerce")
+        df["Satisfaction (1-5)"] = pd.to_numeric(df["Satisfaction (1-5)"], errors="coerce")
         df = df.dropna()
         return df
     except:
+        return None
 # ---------- CHARTS ----------
     fig1, ax1 = plt.subplots()
     ax1.bar(df["Course Name"], df["Health Score"])
     plt.xticks(rotation=45, ha="right")
+    plt.title("Health Score")
     fig2, ax2 = plt.subplots()
     ax2.bar(df["Course Name"], df["Completion Rate (%)"])
 # ---------- MAIN ----------
 def process(file):
+    df = ai_parse(file)
+    if df is None or df.empty:
         return (
+            pd.DataFrame({"Message": ["AI could not parse file"]}),
             pd.DataFrame(),
             pd.DataFrame(),
             pd.DataFrame(),
             None
         )
+    df["Health Score"] = (
+        (df["NPS Score"] * 0.4) +
+        (df["Completion Rate (%)"] * 0.3) +
+        (df["Satisfaction (1-5)"] * 20 * 0.3)
+    )
+    df["Needs Attention"] = df["Health Score"] < 60
+    top = df.sort_values(by="Health Score", ascending=False).head(3)
+    worst = df.sort_values(by="Health Score").head(3)
+    attention = df[df["Needs Attention"]]
+    fig1, fig2 = charts(df)
+    return df, top, worst, attention, fig1, fig2
 # ---------- UI ----------
 with gr.Blocks() as app:
+    gr.Markdown("# 🤖 AI Course Quality Tracker")
+    file_input = gr.File(label="Upload ANY file")
+    table = gr.Dataframe()
+    top = gr.Dataframe()
+    worst = gr.Dataframe()
+    attention = gr.Dataframe()
     chart1 = gr.Plot()
     chart2 = gr.Plot()