Spaces:

Yashvj123
/

Zero_To_Hero_ML

Sleeping

App Files Files Community

Yashvj123 commited on Dec 19, 2024

Commit

6e51482

verified ·

1 Parent(s): 8d4b888

Upload Streamlit_Excel.ipynb

Browse files

Files changed (1) hide show

pages/Streamlit_Excel.ipynb +186 -0

pages/Streamlit_Excel.ipynb ADDED Viewed

	@@ -0,0 +1,186 @@

+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "source": [
+        "## How to Read Excel Files"
+      ],
+      "metadata": {
+        "id": "ujfKzrKC_sSy"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "import pandas as pd\n",
+        "\n",
+        "# Reading an Excel file\n",
+        "df = pd.read_excel('file.xlsx')\n",
+        "print(df.head())"
+      ],
+      "metadata": {
+        "id": "i2_veBWk_6yp"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "## Issues we face in Excel"
+      ],
+      "metadata": {
+        "id": "lVFBSxUiAG-i"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "1. **Encoding Issues:**\n",
+        "\n",
+        "- Data with special characters or non-`UTF-8` encoding can cause errors"
+      ],
+      "metadata": {
+        "id": "4fX5KAtPAHig"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "df = pd.read_excel('file.xlsx', encoding='utf-8')"
+      ],
+      "metadata": {
+        "id": "vd8BXAVyAIEw"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "2. **Missing Values:**\n",
+        "\n",
+        "- Cells with missing or `NaN values` may disrupt data processing"
+      ],
+      "metadata": {
+        "id": "hxfLn27pAIPy"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "df.fillna(0, inplace=True)  # Replace missing values with 0\n",
+        "df.dropna(inplace=True)  # Drop rows with missing values"
+      ],
+      "metadata": {
+        "id": "HdcBGDTRAIZv"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "3. **Large File Size:**\n",
+        "\n",
+        "- Handling very large Excel files can result in memory issues"
+      ],
+      "metadata": {
+        "id": "nUt0gpXIAIh6"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "chunks = pd.read_excel('large_file.xlsx', chunksize=10000)\n",
+        "for chunk in chunks:\n",
+        "    process(chunk)"
+      ],
+      "metadata": {
+        "id": "bauoWLAlBAbk"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "4. **Multiple Sheets:**\n",
+        "\n",
+        "- Complex files may have multiple sheets, making it harder to extract relevant data"
+      ],
+      "metadata": {
+        "id": "e7nPI_QKBAuQ"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "df = pd.read_excel('file.xlsx', sheet_name=[0,1,2])"
+      ],
+      "metadata": {
+        "id": "5TwUfTVoBA7h"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "5. **Merging and Cleaning Data:**\n",
+        "\n",
+        "- Mismatched headers, different column formats, or duplicate entries can cause inconsistencies"
+      ],
+      "metadata": {
+        "id": "UvBM_-ucBBIO"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')"
+      ],
+      "metadata": {
+        "id": "puiRjHBwBBUS"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "6. **Date Parsing Issues:**\n",
+        "\n",
+        "- Dates may be stored in different formats, leading to incorrect parsing"
+      ],
+      "metadata": {
+        "id": "JP_A3CJFBrfn"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "df = pd.read_excel('file.xlsx', parse_dates=['date_column'])"
+      ],
+      "metadata": {
+        "id": "23NDfM21Brqc"
+      },
+      "execution_count": null,
+      "outputs": []
+    }
+  ]
+}