Spaces:

iBrokeTheCode
/

E-Commerce_ELT

Sleeping

App Files Files Community

iBrokeTheCode commited on Aug 3, 2025

Commit

d97a914

1 Parent(s): a80e545

chore: Add Plot section

Browse files

Files changed (3) hide show

app.py +152 -10
requirements.txt +3 -0
src/plots.py +243 -0

app.py CHANGED Viewed

@@ -127,7 +127,7 @@ def _(mo):
 def _(QueryEnum, query_results: "dict[str, DataFrame]"):
     revenue_by_month_year = query_results[QueryEnum.REVENUE_BY_MONTH_YEAR.value]
     revenue_by_month_year
-    return
 @app.cell
@@ -142,7 +142,7 @@ def _(QueryEnum, query_results: "dict[str, DataFrame]"):
         QueryEnum.TOP_10_REVENUE_CATEGORIES.value
     ]
     top_10_revenue_categories
-    return
 @app.cell
@@ -157,7 +157,7 @@ def _(QueryEnum, query_results: "dict[str, DataFrame]"):
         QueryEnum.TOP_10_LEAST_REVENUE_CATEGORIES.value
     ]
     top_10_least_revenue_categories
-    return
 @app.cell
@@ -170,7 +170,7 @@ def _(mo):
 def _(QueryEnum, query_results: "dict[str, DataFrame]"):
     revenue_per_state = query_results[QueryEnum.REVENUE_PER_STATE.value]
     revenue_per_state
-    return
 @app.cell
@@ -185,7 +185,7 @@ def _(QueryEnum, query_results: "dict[str, DataFrame]"):
         QueryEnum.DELIVERY_DATE_DIFFERENCE.value
     ]
     delivery_date_difference
-    return
 @app.cell
@@ -200,7 +200,7 @@ def _(QueryEnum, query_results: "dict[str, DataFrame]"):
         QueryEnum.REAL_VS_ESTIMATED_DELIVERED_TIME.value
     ]
     real_vs_estimated_delivery_time
-    return
 @app.cell
@@ -215,7 +215,7 @@ def _(QueryEnum, query_results: "dict[str, DataFrame]"):
         QueryEnum.GLOBAL_AMOUNT_ORDER_STATUS.value
     ]
     global_amount_order_status
-    return
 @app.cell
@@ -230,7 +230,7 @@ def _(QueryEnum, query_results: "dict[str, DataFrame]"):
         QueryEnum.ORDERS_PER_DAY_AND_HOLIDAYS_2017.value
     ]
     orders_per_day_and_holidays
-    return
 @app.cell
@@ -245,7 +245,7 @@ def _(QueryEnum, query_results: "dict[str, DataFrame]"):
         QueryEnum.GET_FREIGHT_VALUE_WEIGHT_RELATIONSHIP.value
     ]
     freight_value_weight_relationship
-    return
 @app.cell
@@ -254,6 +254,34 @@ def _(mo):
     return
 @app.cell
 def _(mo):
     mo.md(r"""**A. Revenue by Month in 2017**""")
@@ -261,7 +289,121 @@ def _(mo):
 @app.cell
-def _():
     return

 def _(QueryEnum, query_results: "dict[str, DataFrame]"):
     revenue_by_month_year = query_results[QueryEnum.REVENUE_BY_MONTH_YEAR.value]
     revenue_by_month_year
+    return (revenue_by_month_year,)
 @app.cell
         QueryEnum.TOP_10_REVENUE_CATEGORIES.value
     ]
     top_10_revenue_categories
+    return (top_10_revenue_categories,)
 @app.cell
         QueryEnum.TOP_10_LEAST_REVENUE_CATEGORIES.value
     ]
     top_10_least_revenue_categories
+    return (top_10_least_revenue_categories,)
 @app.cell
 def _(QueryEnum, query_results: "dict[str, DataFrame]"):
     revenue_per_state = query_results[QueryEnum.REVENUE_PER_STATE.value]
     revenue_per_state
+    return (revenue_per_state,)
 @app.cell
         QueryEnum.DELIVERY_DATE_DIFFERENCE.value
     ]
     delivery_date_difference
+    return (delivery_date_difference,)
 @app.cell
         QueryEnum.REAL_VS_ESTIMATED_DELIVERED_TIME.value
     ]
     real_vs_estimated_delivery_time
+    return (real_vs_estimated_delivery_time,)
 @app.cell
         QueryEnum.GLOBAL_AMOUNT_ORDER_STATUS.value
     ]
     global_amount_order_status
+    return (global_amount_order_status,)
 @app.cell
         QueryEnum.ORDERS_PER_DAY_AND_HOLIDAYS_2017.value
     ]
     orders_per_day_and_holidays
+    return (orders_per_day_and_holidays,)
 @app.cell
         QueryEnum.GET_FREIGHT_VALUE_WEIGHT_RELATIONSHIP.value
     ]
     freight_value_weight_relationship
+    return (freight_value_weight_relationship,)
 @app.cell
     return
+@app.cell
+def _():
+    from src.plots import (
+        plot_revenue_by_month_year,
+        plot_real_vs_predicted_delivered_time,
+        plot_global_amount_order_status,
+        plot_revenue_per_state,
+        plot_top_10_least_revenue_categories,
+        plot_top_10_revenue_categories_amount,
+        plot_top_10_revenue_categories,
+        plot_freight_value_weight_relationship,
+        plot_delivery_date_difference,
+        plot_order_amount_per_day_with_holidays,
+    )
+    return (
+        plot_delivery_date_difference,
+        plot_freight_value_weight_relationship,
+        plot_global_amount_order_status,
+        plot_order_amount_per_day_with_holidays,
+        plot_real_vs_predicted_delivered_time,
+        plot_revenue_by_month_year,
+        plot_revenue_per_state,
+        plot_top_10_least_revenue_categories,
+        plot_top_10_revenue_categories,
+        plot_top_10_revenue_categories_amount,
+    )
 @app.cell
 def _(mo):
     mo.md(r"""**A. Revenue by Month in 2017**""")
 @app.cell
+def _(plot_revenue_by_month_year, revenue_by_month_year):
+    plot_revenue_by_month_year(df=revenue_by_month_year, year=2017)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**B. Real vs. Predicted Delivered Time**""")
+    return
+@app.cell
+def _(plot_real_vs_predicted_delivered_time, real_vs_estimated_delivery_time):
+    plot_real_vs_predicted_delivered_time(
+        df=real_vs_estimated_delivery_time, year=2017
+    )
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**C. Global Amount of Order Status**""")
+    return
+@app.cell
+def _(global_amount_order_status, plot_global_amount_order_status):
+    plot_global_amount_order_status(df=global_amount_order_status)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**D. Revenue per State**""")
+    return
+@app.cell
+def _(plot_revenue_per_state, revenue_per_state):
+    plot_revenue_per_state(df=revenue_per_state)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**E. Top 10 Least Revenue by Categories**""")
+    return
+@app.cell
+def _(plot_top_10_least_revenue_categories, top_10_least_revenue_categories):
+    plot_top_10_least_revenue_categories(df=top_10_least_revenue_categories)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**F. Top 10 Revenue Categories Amount**""")
+    return
+@app.cell
+def _(plot_top_10_revenue_categories_amount, top_10_revenue_categories):
+    plot_top_10_revenue_categories_amount(df=top_10_revenue_categories)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**G. Top 10 Revenue by Categories**""")
+    return
+@app.cell
+def _(plot_top_10_revenue_categories, top_10_revenue_categories):
+    plot_top_10_revenue_categories(df=top_10_revenue_categories)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**H. Freight Value vs. Product Weight**""")
+    return
+@app.cell
+def _(
+    freight_value_weight_relationship,
+    plot_freight_value_weight_relationship,
+):
+    plot_freight_value_weight_relationship(df=freight_value_weight_relationship)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**I. Diffrence Between Deliver Estimated Date and Delivery Date**""")
+    return
+@app.cell
+def _(delivery_date_difference, plot_delivery_date_difference):
+    plot_delivery_date_difference(df=delivery_date_difference)
+    return
+@app.cell
+def _(mo):
+    mo.md(r"""**J. Order Amount per Day with Holidays**""")
+    return
+@app.cell
+def _(orders_per_day_and_holidays, plot_order_amount_per_day_with_holidays):
+    plot_order_amount_per_day_with_holidays(df=orders_per_day_and_holidays)
     return

requirements.txt CHANGED Viewed

@@ -1,7 +1,10 @@
 marimo==0.14.16
 pandas==2.3.1
 pyarrow==21.0.0
 pytest==8.4.1
 requests==2.32.4
 ruff==0.12.7
 sqlalchemy==2.0.42

 marimo==0.14.16
+matplotlib==3.10.5
 pandas==2.3.1
+plotly==6.2.0
 pyarrow==21.0.0
 pytest==8.4.1
 requests==2.32.4
 ruff==0.12.7
+seaborn==0.13.2
 sqlalchemy==2.0.42

src/plots.py ADDED Viewed

	@@ -0,0 +1,243 @@

+import matplotlib.pyplot as plt
+import plotly.express as px
+import seaborn as sns
+from matplotlib import rc_file_defaults
+from pandas import DataFrame, to_datetime
+def plot_revenue_by_month_year(df: DataFrame, year: int) -> None:
+    """
+    Plot the revenue by month and year
+    Args:
+        df (DataFrame): The dataframe
+        year (int): The year
+    """
+    rc_file_defaults()
+    sns.set_style(style="darkgrid", rc=None)
+    _, ax1 = plt.subplots(figsize=(12, 6))
+    sns.lineplot(data=df[f"Year{year}"], marker="o", sort=False, ax=ax1)
+    ax2 = ax1.twinx()
+    sns.barplot(data=df, x="month", y=f"Year{year}", alpha=0.5, ax=ax2)
+    ax1.set_title(f"Revenue by month in {year}")
+    plt.show()
+def plot_real_vs_predicted_delivered_time(df: DataFrame, year: int) -> None:
+    """
+    Plot the real vs predicted delivered time
+    Args:
+        df (DataFrame): The dataframe
+        year (int): The year
+    """
+    rc_file_defaults()
+    sns.set_style(style=None, rc=None)
+    _, ax1 = plt.subplots(figsize=(12, 6))
+    sns.lineplot(data=df[f"Year{year}_real_time"], marker="o", sort=False, ax=ax1)
+    ax1.twinx()
+    g = sns.lineplot(
+        data=df[f"Year{year}_estimated_time"], marker="o", sort=False, ax=ax1
+    )
+    g.set_xticks(range(len(df)))
+    g.set_xticklabels(df.month.values)
+    g.set(xlabel="month", ylabel="Average days delivery time", title="some title")
+    ax1.set_title(f"Average days delivery time by month in {year}")
+    ax1.legend(["Real time", "Estimated time"])
+    plt.show()
+def plot_global_amount_order_status(df: DataFrame) -> None:
+    """
+    Plot global amount of order status
+    Args:
+        df (DataFrame): The dataframe
+    """
+    _, ax = plt.subplots(figsize=(8, 3), subplot_kw=dict(aspect="equal"))
+    elements = [x.split()[-1] for x in df["order_status"]]
+    wedges, autotexts = ax.pie(df["Amount"], textprops=dict(color="w"))
+    ax.legend(
+        wedges,
+        elements,
+        title="Order Status",
+        loc="center left",
+        bbox_to_anchor=(1, 0, 0.5, 1),
+    )
+    plt.setp(autotexts, size=8, weight="bold")
+    ax.set_title("Order Status Total")
+    my_circle = plt.Circle((0, 0), 0.7, color="white")
+    p = plt.gcf()
+    p.gca().add_artist(my_circle)
+    plt.show()
+def plot_revenue_per_state(df: DataFrame) -> None:
+    """
+    Plot revenue per state
+    Args:
+        df (DataFrame): The dataframe
+    """
+    fig = px.treemap(
+        df, path=["customer_state"], values="Revenue", width=800, height=300
+    )
+    fig.update_layout(margin=dict(t=50, l=25, r=25, b=25))
+    fig.show()
+def plot_top_10_least_revenue_categories(df: DataFrame) -> None:
+    """
+    Plot top 10 least revenue categories
+    Args:
+        df (DataFrame): The dataframe
+    """
+    _, ax = plt.subplots(figsize=(6, 3), subplot_kw=dict(aspect="equal"))
+    elements = [x.split()[-1] for x in df["Category"]]
+    revenue = df["Revenue"]
+    wedges, autotexts = ax.pie(revenue, textprops=dict(color="w"))
+    ax.legend(
+        wedges,
+        elements,
+        title="Top 10 Revenue Categories",
+        loc="center left",
+        bbox_to_anchor=(1, 0, 0.5, 1),
+    )
+    plt.setp(autotexts, size=8, weight="bold")
+    my_circle = plt.Circle((0, 0), 0.7, color="white")
+    p = plt.gcf()
+    p.gca().add_artist(my_circle)
+    ax.set_title("Top 10 Least Revenue Categories Amount")
+    plt.show()
+def plot_top_10_revenue_categories_amount(df: DataFrame) -> None:
+    """Plot top 10 revenue categories
+    Args:
+        df (DataFrame): Dataframe with top 10 revenue categories query result
+    """
+    # Plotting the top 10 revenue categories amount
+    _, ax = plt.subplots(figsize=(6, 3), subplot_kw=dict(aspect="equal"))
+    elements = [x.split()[-1] for x in df["Category"]]
+    revenue = df["Revenue"]
+    wedges, autotexts = ax.pie(revenue, textprops=dict(color="w"))
+    ax.legend(
+        wedges,
+        elements,
+        title="Top 10 Revenue Categories",
+        loc="center left",
+        bbox_to_anchor=(1, 0, 0.5, 1),
+    )
+    plt.setp(autotexts, size=8, weight="bold")
+    my_circle = plt.Circle((0, 0), 0.7, color="white")
+    p = plt.gcf()
+    p.gca().add_artist(my_circle)
+    ax.set_title("Top 10 Revenue Categories Amount")
+    plt.show()
+def plot_top_10_revenue_categories(df: DataFrame) -> None:
+    """Plot top 10 revenue categories
+    Args:
+        df (DataFrame): Dataframe with top 10 revenue categories query result
+    """
+    fig = px.treemap(df, path=["Category"], values="Num_order", width=800, height=400)
+    fig.update_layout(margin=dict(t=50, l=25, r=25, b=25))
+    fig.show()
+def plot_freight_value_weight_relationship(df: DataFrame) -> None:
+    """Plot freight value weight relationship
+    Args:
+        df (DataFrame): Dataframe with freight value weight relationship query result
+    """
+    # Set the figure size
+    plt.figure(figsize=(8, 4))
+    # Scatter plot: x=product weight, y=freight value
+    sns.scatterplot(
+        data=df,
+        x="product_weight_g",
+        y="freight_value",
+        edgecolor="white",
+    )
+    # Customize chart
+    plt.title("Freight Value vs Product Weight")
+    plt.xlabel("Product Weight (g)")
+    plt.ylabel("Freight Value ($)")
+    plt.tight_layout()
+    plt.show()
+def plot_delivery_date_difference(df: DataFrame) -> None:
+    """Plot delivery date difference
+    Args:
+        df (DataFrame): Dataframe with delivery date difference query result
+    """
+    plt.figure(figsize=(12, 6))
+    sns.barplot(data=df, x="Delivery_Difference", y="State").set(
+        title="Difference Between Delivery Estimate Date and Delivery Date"
+    )
+    plt.show()
+def plot_order_amount_per_day_with_holidays(df: DataFrame) -> None:
+    """Plot order amount per day with holidays
+    Args:
+        df (DataFrame): Dataframe with order amount per day with holidays query result
+    """
+    # Convert timestamp in milliseconds to datetime
+    df["date"] = to_datetime(df["date"], unit="ms")
+    # Sort by date
+    df = df.sort_values("date")
+    # Plot the line chart for order count
+    plt.figure(figsize=(9, 4))
+    plt.plot(df["date"], df["order_count"], color="green")
+    # Add vertical lines for holidays
+    holidays = df[df["holiday"] == True]
+    for holiday_date in holidays["date"]:
+        plt.axvline(holiday_date, color="blue", linestyle="dotted", alpha=0.6)
+    # Customize chart
+    plt.title("Order Amount per Day with Holidays")
+    plt.xlabel("Date")
+    plt.ylabel("Order Count")
+    plt.tight_layout()
+    plt.show()