hf-eda-mcp

Running

App Files Files Community

KhalilGuetari commited on 18 days ago

Commit

43642a4

1 Parent(s): b3aa246

Improve analysis tool with dataset viewer

Browse files

Files changed (7) hide show

README.md +12 -5
pdm.lock +211 -6
pyproject.toml +8 -5
scripts/playground/analysis_tool_playground.py +57 -0
src/hf_eda_mcp/services/dataset_service.py +141 -2
src/hf_eda_mcp/services/dataset_viewer_adapter.py +124 -0
src/hf_eda_mcp/tools/analysis.py +228 -117

README.md CHANGED Viewed

@@ -17,9 +17,13 @@ An MCP (Model Context Protocol) server that provides tools for Exploratory Data
 ## Features
-- **Dataset Metadata**: Retrieve comprehensive information about HuggingFace datasets
 - **Dataset Sampling**: Get samples from any dataset split for quick exploration
-- **Feature Analysis**: Perform basic EDA including statistics, missing values, and distributions
 ## Usage
@@ -43,9 +47,12 @@ Replace `YOUR-USERNAME` with your HuggingFace username.
 ### Available Tools
-1. **get_dataset_metadata**: Get detailed information about a dataset
-2. **get_dataset_sample**: Retrieve sample rows from a dataset
-3. **analyze_dataset_features**: Perform exploratory analysis on dataset features
 ## Authentication

 ## Features
+- **Dataset Metadata**: Retrieve comprehensive information about HuggingFace datasets including size, features, splits, and configurations
 - **Dataset Sampling**: Get samples from any dataset split for quick exploration
+- **Feature Analysis**: Perform basic EDA with automatic optimization
+  - Uses HuggingFace Dataset Viewer API for full dataset statistics (when available)
+  - Automatic fallback to sample-based analysis
+  - Supports multiple data types: numerical, categorical, text, image, audio
+  - Includes histograms, distributions, and missing value analysis
 ## Usage
 ### Available Tools
+1. **get_dataset_metadata**: Get detailed information about a dataset including size, features, splits, and download statistics
+2. **get_dataset_sample**: Retrieve sample rows from a dataset for quick exploration
+3. **analyze_dataset_features**: Perform comprehensive exploratory analysis with automatic optimization
+   - Automatically uses Dataset Viewer API statistics for parquet datasets (full dataset analysis)
+   - Falls back to sample-based analysis for other formats
+   - Returns feature types, statistics, histograms, and missing value analysis
 ## Authentication

pdm.lock CHANGED Viewed

@@ -2,10 +2,10 @@
 # It is not intended for manual editing.
 [metadata]
-groups = ["default", "hf-cli", "plots"]
 strategy = ["inherit_metadata"]
 lock_version = "4.5.0"
-content_hash = "sha256:4742028e3a2ecbfce41b8229882183b577923af0d34e1e32cf3e8b37314ed204"
 [[metadata.targets]]
 requires_python = ">=3.13"
@@ -324,8 +324,8 @@ name = "colorama"
 version = "0.4.6"
 requires_python = "!=3.0.*,!=3.1.*,!=3.2.*,!=3.3.*,!=3.4.*,!=3.5.*,!=3.6.*,>=2.7"
 summary = "Cross-platform colored terminal text."
-groups = ["default", "hf-cli"]
-marker = "platform_system == \"Windows\""
 files = [
     {file = "colorama-0.4.6-py2.py3-none-any.whl", hash = "sha256:4f1d9991f5acc0ca119f9d443620b77f9d6b33703e51011c16baf57afb285fc6"},
     {file = "colorama-0.4.6.tar.gz", hash = "sha256:08695f5cb7ed6e0531a20572697297273c47b8cae5a63ffc6d6ed5c201be6e44"},
@@ -388,6 +388,137 @@ files = [
     {file = "contourpy-1.3.3.tar.gz", hash = "sha256:083e12155b210502d0bca491432bb04d56dc3432f95a979b429f2848c3dbe880"},
 ]
 [[package]]
 name = "cycler"
 version = "0.12.1"
@@ -807,6 +938,17 @@ files = [
     {file = "idna-3.11.tar.gz", hash = "sha256:795dafcc9c04ed0c1fb032c2aa73654d8e8c5023a7df64a53f39190ada629902"},
 ]
 [[package]]
 name = "jinja2"
 version = "3.1.6"
@@ -1208,7 +1350,7 @@ name = "packaging"
 version = "25.0"
 requires_python = ">=3.8"
 summary = "Core utilities for Python packages"
-groups = ["default", "hf-cli", "plots"]
 files = [
     {file = "packaging-25.0-py3-none-any.whl", hash = "sha256:29572ef2b1f17581046b3a2227d5c611fb25ec70ca1ba8554b24b0e69331a484"},
     {file = "packaging-25.0.tar.gz", hash = "sha256:d443872c98d677bf60f6a1f2f8c1cb748e8fe762d2bf9d3148b5599295b0fc4f"},
@@ -1315,6 +1457,17 @@ files = [
     {file = "pillow-11.3.0.tar.gz", hash = "sha256:3828ee7586cd0b2091b6209e5ad53e20d0649bbe87164a459d0676e035e8f523"},
 ]
 [[package]]
 name = "propcache"
 version = "0.4.1"
@@ -1486,7 +1639,7 @@ name = "pygments"
 version = "2.19.2"
 requires_python = ">=3.8"
 summary = "Pygments is a syntax highlighting package written in Python."
-groups = ["default"]
 files = [
     {file = "pygments-2.19.2-py3-none-any.whl", hash = "sha256:86540386c03d588bb81d44bc3928634ff26449851e99741617ecb9037ee5ec0b"},
     {file = "pygments-2.19.2.tar.gz", hash = "sha256:636cb2477cec7f8952536970bc533bc43743542f70392ae026374600add5b887"},
@@ -1503,6 +1656,58 @@ files = [
     {file = "pyparsing-3.2.5.tar.gz", hash = "sha256:2df8d5b7b2802ef88e8d016a2eb9c7aeaa923529cd251ed0fe4608275d4105b6"},
 ]
 [[package]]
 name = "python-dateutil"
 version = "2.9.0.post0"

 # It is not intended for manual editing.
 [metadata]
+groups = ["default", "hf-cli", "plots", "test"]
 strategy = ["inherit_metadata"]
 lock_version = "4.5.0"
+content_hash = "sha256:7db937b9435dfaf07c2e27ae0b16da07ce0764665446873e8f40e81af6d5b5b4"
 [[metadata.targets]]
 requires_python = ">=3.13"
 version = "0.4.6"
 requires_python = "!=3.0.*,!=3.1.*,!=3.2.*,!=3.3.*,!=3.4.*,!=3.5.*,!=3.6.*,>=2.7"
 summary = "Cross-platform colored terminal text."
+groups = ["default", "hf-cli", "test"]
+marker = "sys_platform == \"win32\" or platform_system == \"Windows\""
 files = [
     {file = "colorama-0.4.6-py2.py3-none-any.whl", hash = "sha256:4f1d9991f5acc0ca119f9d443620b77f9d6b33703e51011c16baf57afb285fc6"},
     {file = "colorama-0.4.6.tar.gz", hash = "sha256:08695f5cb7ed6e0531a20572697297273c47b8cae5a63ffc6d6ed5c201be6e44"},
     {file = "contourpy-1.3.3.tar.gz", hash = "sha256:083e12155b210502d0bca491432bb04d56dc3432f95a979b429f2848c3dbe880"},
 ]
+[[package]]
+name = "coverage"
+version = "7.12.0"
+requires_python = ">=3.10"
+summary = "Code coverage measurement for Python"
+groups = ["test"]
+files = [
+    {file = "coverage-7.12.0-cp313-cp313-macosx_10_13_x86_64.whl", hash = "sha256:47324fffca8d8eae7e185b5bb20c14645f23350f870c1649003618ea91a78941"},
+    {file = "coverage-7.12.0-cp313-cp313-macosx_11_0_arm64.whl", hash = "sha256:ccf3b2ede91decd2fb53ec73c1f949c3e034129d1e0b07798ff1d02ea0c8fa4a"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:b365adc70a6936c6b0582dc38746b33b2454148c02349345412c6e743efb646d"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:bc13baf85cd8a4cfcf4a35c7bc9d795837ad809775f782f697bf630b7e200211"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:099d11698385d572ceafb3288a5b80fe1fc58bf665b3f9d362389de488361d3d"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:473dc45d69694069adb7680c405fb1e81f60b2aff42c81e2f2c3feaf544d878c"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_aarch64.whl", hash = "sha256:583f9adbefd278e9de33c33d6846aa8f5d164fa49b47144180a0e037f0688bb9"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_i686.whl", hash = "sha256:b2089cc445f2dc0af6f801f0d1355c025b76c24481935303cf1af28f636688f0"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_riscv64.whl", hash = "sha256:950411f1eb5d579999c5f66c62a40961f126fc71e5e14419f004471957b51508"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_x86_64.whl", hash = "sha256:b1aab7302a87bafebfe76b12af681b56ff446dc6f32ed178ff9c092ca776e6bc"},
+    {file = "coverage-7.12.0-cp313-cp313-win32.whl", hash = "sha256:d7e0d0303c13b54db495eb636bc2465b2fb8475d4c8bcec8fe4b5ca454dfbae8"},
+    {file = "coverage-7.12.0-cp313-cp313-win_amd64.whl", hash = "sha256:ce61969812d6a98a981d147d9ac583a36ac7db7766f2e64a9d4d059c2fe29d07"},
+    {file = "coverage-7.12.0-cp313-cp313-win_arm64.whl", hash = "sha256:bcec6f47e4cb8a4c2dc91ce507f6eefc6a1b10f58df32cdc61dff65455031dfc"},
+    {file = "coverage-7.12.0-cp313-cp313t-macosx_10_13_x86_64.whl", hash = "sha256:459443346509476170d553035e4a3eed7b860f4fe5242f02de1010501956ce87"},
+    {file = "coverage-7.12.0-cp313-cp313t-macosx_11_0_arm64.whl", hash = "sha256:04a79245ab2b7a61688958f7a855275997134bc84f4a03bc240cf64ff132abf6"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:09a86acaaa8455f13d6a99221d9654df249b33937b4e212b4e5a822065f12aa7"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:907e0df1b71ba77463687a74149c6122c3f6aac56c2510a5d906b2f368208560"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:9b57e2d0ddd5f0582bae5437c04ee71c46cd908e7bc5d4d0391f9a41e812dd12"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:58c1c6aa677f3a1411fe6fb28ec3a942e4f665df036a3608816e0847fad23296"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_aarch64.whl", hash = "sha256:4c589361263ab2953e3c4cd2a94db94c4ad4a8e572776ecfbad2389c626e4507"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_i686.whl", hash = "sha256:91b810a163ccad2e43b1faa11d70d3cf4b6f3d83f9fd5f2df82a32d47b648e0d"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_riscv64.whl", hash = "sha256:40c867af715f22592e0d0fb533a33a71ec9e0f73a6945f722a0c85c8c1cbe3a2"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_x86_64.whl", hash = "sha256:68b0d0a2d84f333de875666259dadf28cc67858bc8fd8b3f1eae84d3c2bec455"},
+    {file = "coverage-7.12.0-cp313-cp313t-win32.whl", hash = "sha256:73f9e7fbd51a221818fd11b7090eaa835a353ddd59c236c57b2199486b116c6d"},
+    {file = "coverage-7.12.0-cp313-cp313t-win_amd64.whl", hash = "sha256:24cff9d1f5743f67db7ba46ff284018a6e9aeb649b67aa1e70c396aa1b7cb23c"},
+    {file = "coverage-7.12.0-cp313-cp313t-win_arm64.whl", hash = "sha256:c87395744f5c77c866d0f5a43d97cc39e17c7f1cb0115e54a2fe67ca75c5d14d"},
+    {file = "coverage-7.12.0-cp314-cp314-macosx_10_15_x86_64.whl", hash = "sha256:a1c59b7dc169809a88b21a936eccf71c3895a78f5592051b1af8f4d59c2b4f92"},
+    {file = "coverage-7.12.0-cp314-cp314-macosx_11_0_arm64.whl", hash = "sha256:8787b0f982e020adb732b9f051f3e49dd5054cebbc3f3432061278512a2b1360"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:5ea5a9f7dc8877455b13dd1effd3202e0bca72f6f3ab09f9036b1bcf728f69ac"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:fdba9f15849534594f60b47c9a30bc70409b54947319a7c4fd0e8e3d8d2f355d"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:a00594770eb715854fb1c57e0dea08cce6720cfbc531accdb9850d7c7770396c"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:5560c7e0d82b42eb1951e4f68f071f8017c824ebfd5a6ebe42c60ac16c6c2434"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_aarch64.whl", hash = "sha256:d6c2e26b481c9159c2773a37947a9718cfdc58893029cdfb177531793e375cfc"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_i686.whl", hash = "sha256:6e1a8c066dabcde56d5d9fed6a66bc19a2883a3fe051f0c397a41fc42aedd4cc"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_riscv64.whl", hash = "sha256:f7ba9da4726e446d8dd8aae5a6cd872511184a5d861de80a86ef970b5dacce3e"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_x86_64.whl", hash = "sha256:e0f483ab4f749039894abaf80c2f9e7ed77bbf3c737517fb88c8e8e305896a17"},
+    {file = "coverage-7.12.0-cp314-cp314-win32.whl", hash = "sha256:76336c19a9ef4a94b2f8dc79f8ac2da3f193f625bb5d6f51a328cd19bfc19933"},
+    {file = "coverage-7.12.0-cp314-cp314-win_amd64.whl", hash = "sha256:7c1059b600aec6ef090721f8f633f60ed70afaffe8ecab85b59df748f24b31fe"},
+    {file = "coverage-7.12.0-cp314-cp314-win_arm64.whl", hash = "sha256:172cf3a34bfef42611963e2b661302a8931f44df31629e5b1050567d6b90287d"},
+    {file = "coverage-7.12.0-cp314-cp314t-macosx_10_15_x86_64.whl", hash = "sha256:aa7d48520a32cb21c7a9b31f81799e8eaec7239db36c3b670be0fa2403828d1d"},
+    {file = "coverage-7.12.0-cp314-cp314t-macosx_11_0_arm64.whl", hash = "sha256:90d58ac63bc85e0fb919f14d09d6caa63f35a5512a2205284b7816cafd21bb03"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:ca8ecfa283764fdda3eae1bdb6afe58bf78c2c3ec2b2edcb05a671f0bba7b3f9"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:874fe69a0785d96bd066059cd4368022cebbec1a8958f224f0016979183916e6"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:5b3c889c0b8b283a24d721a9eabc8ccafcfc3aebf167e4cd0d0e23bf8ec4e339"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:8bb5b894b3ec09dcd6d3743229dc7f2c42ef7787dc40596ae04c0edda487371e"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_aarch64.whl", hash = "sha256:79a44421cd5fba96aa57b5e3b5a4d3274c449d4c622e8f76882d76635501fd13"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_i686.whl", hash = "sha256:33baadc0efd5c7294f436a632566ccc1f72c867f82833eb59820ee37dc811c6f"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_riscv64.whl", hash = "sha256:c406a71f544800ef7e9e0000af706b88465f3573ae8b8de37e5f96c59f689ad1"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_x86_64.whl", hash = "sha256:e71bba6a40883b00c6d571599b4627f50c360b3d0d02bfc658168936be74027b"},
+    {file = "coverage-7.12.0-cp314-cp314t-win32.whl", hash = "sha256:9157a5e233c40ce6613dead4c131a006adfda70e557b6856b97aceed01b0e27a"},
+    {file = "coverage-7.12.0-cp314-cp314t-win_amd64.whl", hash = "sha256:e84da3a0fd233aeec797b981c51af1cabac74f9bd67be42458365b30d11b5291"},
+    {file = "coverage-7.12.0-cp314-cp314t-win_arm64.whl", hash = "sha256:01d24af36fedda51c2b1aca56e4330a3710f83b02a5ff3743a6b015ffa7c9384"},
+    {file = "coverage-7.12.0-py3-none-any.whl", hash = "sha256:159d50c0b12e060b15ed3d39f87ed43d4f7f7ad40b8a534f4dd331adbb51104a"},
+    {file = "coverage-7.12.0.tar.gz", hash = "sha256:fc11e0a4e372cb5f282f16ef90d4a585034050ccda536451901abfb19a57f40c"},
+]
+[[package]]
+name = "coverage"
+version = "7.12.0"
+extras = ["toml"]
+requires_python = ">=3.10"
+summary = "Code coverage measurement for Python"
+groups = ["test"]
+dependencies = [
+    "coverage==7.12.0",
+    "tomli; python_full_version <= \"3.11.0a6\"",
+]
+files = [
+    {file = "coverage-7.12.0-cp313-cp313-macosx_10_13_x86_64.whl", hash = "sha256:47324fffca8d8eae7e185b5bb20c14645f23350f870c1649003618ea91a78941"},
+    {file = "coverage-7.12.0-cp313-cp313-macosx_11_0_arm64.whl", hash = "sha256:ccf3b2ede91decd2fb53ec73c1f949c3e034129d1e0b07798ff1d02ea0c8fa4a"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:b365adc70a6936c6b0582dc38746b33b2454148c02349345412c6e743efb646d"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:bc13baf85cd8a4cfcf4a35c7bc9d795837ad809775f782f697bf630b7e200211"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:099d11698385d572ceafb3288a5b80fe1fc58bf665b3f9d362389de488361d3d"},
+    {file = "coverage-7.12.0-cp313-cp313-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:473dc45d69694069adb7680c405fb1e81f60b2aff42c81e2f2c3feaf544d878c"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_aarch64.whl", hash = "sha256:583f9adbefd278e9de33c33d6846aa8f5d164fa49b47144180a0e037f0688bb9"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_i686.whl", hash = "sha256:b2089cc445f2dc0af6f801f0d1355c025b76c24481935303cf1af28f636688f0"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_riscv64.whl", hash = "sha256:950411f1eb5d579999c5f66c62a40961f126fc71e5e14419f004471957b51508"},
+    {file = "coverage-7.12.0-cp313-cp313-musllinux_1_2_x86_64.whl", hash = "sha256:b1aab7302a87bafebfe76b12af681b56ff446dc6f32ed178ff9c092ca776e6bc"},
+    {file = "coverage-7.12.0-cp313-cp313-win32.whl", hash = "sha256:d7e0d0303c13b54db495eb636bc2465b2fb8475d4c8bcec8fe4b5ca454dfbae8"},
+    {file = "coverage-7.12.0-cp313-cp313-win_amd64.whl", hash = "sha256:ce61969812d6a98a981d147d9ac583a36ac7db7766f2e64a9d4d059c2fe29d07"},
+    {file = "coverage-7.12.0-cp313-cp313-win_arm64.whl", hash = "sha256:bcec6f47e4cb8a4c2dc91ce507f6eefc6a1b10f58df32cdc61dff65455031dfc"},
+    {file = "coverage-7.12.0-cp313-cp313t-macosx_10_13_x86_64.whl", hash = "sha256:459443346509476170d553035e4a3eed7b860f4fe5242f02de1010501956ce87"},
+    {file = "coverage-7.12.0-cp313-cp313t-macosx_11_0_arm64.whl", hash = "sha256:04a79245ab2b7a61688958f7a855275997134bc84f4a03bc240cf64ff132abf6"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:09a86acaaa8455f13d6a99221d9654df249b33937b4e212b4e5a822065f12aa7"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:907e0df1b71ba77463687a74149c6122c3f6aac56c2510a5d906b2f368208560"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:9b57e2d0ddd5f0582bae5437c04ee71c46cd908e7bc5d4d0391f9a41e812dd12"},
+    {file = "coverage-7.12.0-cp313-cp313t-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:58c1c6aa677f3a1411fe6fb28ec3a942e4f665df036a3608816e0847fad23296"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_aarch64.whl", hash = "sha256:4c589361263ab2953e3c4cd2a94db94c4ad4a8e572776ecfbad2389c626e4507"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_i686.whl", hash = "sha256:91b810a163ccad2e43b1faa11d70d3cf4b6f3d83f9fd5f2df82a32d47b648e0d"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_riscv64.whl", hash = "sha256:40c867af715f22592e0d0fb533a33a71ec9e0f73a6945f722a0c85c8c1cbe3a2"},
+    {file = "coverage-7.12.0-cp313-cp313t-musllinux_1_2_x86_64.whl", hash = "sha256:68b0d0a2d84f333de875666259dadf28cc67858bc8fd8b3f1eae84d3c2bec455"},
+    {file = "coverage-7.12.0-cp313-cp313t-win32.whl", hash = "sha256:73f9e7fbd51a221818fd11b7090eaa835a353ddd59c236c57b2199486b116c6d"},
+    {file = "coverage-7.12.0-cp313-cp313t-win_amd64.whl", hash = "sha256:24cff9d1f5743f67db7ba46ff284018a6e9aeb649b67aa1e70c396aa1b7cb23c"},
+    {file = "coverage-7.12.0-cp313-cp313t-win_arm64.whl", hash = "sha256:c87395744f5c77c866d0f5a43d97cc39e17c7f1cb0115e54a2fe67ca75c5d14d"},
+    {file = "coverage-7.12.0-cp314-cp314-macosx_10_15_x86_64.whl", hash = "sha256:a1c59b7dc169809a88b21a936eccf71c3895a78f5592051b1af8f4d59c2b4f92"},
+    {file = "coverage-7.12.0-cp314-cp314-macosx_11_0_arm64.whl", hash = "sha256:8787b0f982e020adb732b9f051f3e49dd5054cebbc3f3432061278512a2b1360"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:5ea5a9f7dc8877455b13dd1effd3202e0bca72f6f3ab09f9036b1bcf728f69ac"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:fdba9f15849534594f60b47c9a30bc70409b54947319a7c4fd0e8e3d8d2f355d"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:a00594770eb715854fb1c57e0dea08cce6720cfbc531accdb9850d7c7770396c"},
+    {file = "coverage-7.12.0-cp314-cp314-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:5560c7e0d82b42eb1951e4f68f071f8017c824ebfd5a6ebe42c60ac16c6c2434"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_aarch64.whl", hash = "sha256:d6c2e26b481c9159c2773a37947a9718cfdc58893029cdfb177531793e375cfc"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_i686.whl", hash = "sha256:6e1a8c066dabcde56d5d9fed6a66bc19a2883a3fe051f0c397a41fc42aedd4cc"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_riscv64.whl", hash = "sha256:f7ba9da4726e446d8dd8aae5a6cd872511184a5d861de80a86ef970b5dacce3e"},
+    {file = "coverage-7.12.0-cp314-cp314-musllinux_1_2_x86_64.whl", hash = "sha256:e0f483ab4f749039894abaf80c2f9e7ed77bbf3c737517fb88c8e8e305896a17"},
+    {file = "coverage-7.12.0-cp314-cp314-win32.whl", hash = "sha256:76336c19a9ef4a94b2f8dc79f8ac2da3f193f625bb5d6f51a328cd19bfc19933"},
+    {file = "coverage-7.12.0-cp314-cp314-win_amd64.whl", hash = "sha256:7c1059b600aec6ef090721f8f633f60ed70afaffe8ecab85b59df748f24b31fe"},
+    {file = "coverage-7.12.0-cp314-cp314-win_arm64.whl", hash = "sha256:172cf3a34bfef42611963e2b661302a8931f44df31629e5b1050567d6b90287d"},
+    {file = "coverage-7.12.0-cp314-cp314t-macosx_10_15_x86_64.whl", hash = "sha256:aa7d48520a32cb21c7a9b31f81799e8eaec7239db36c3b670be0fa2403828d1d"},
+    {file = "coverage-7.12.0-cp314-cp314t-macosx_11_0_arm64.whl", hash = "sha256:90d58ac63bc85e0fb919f14d09d6caa63f35a5512a2205284b7816cafd21bb03"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:ca8ecfa283764fdda3eae1bdb6afe58bf78c2c3ec2b2edcb05a671f0bba7b3f9"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl", hash = "sha256:874fe69a0785d96bd066059cd4368022cebbec1a8958f224f0016979183916e6"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:5b3c889c0b8b283a24d721a9eabc8ccafcfc3aebf167e4cd0d0e23bf8ec4e339"},
+    {file = "coverage-7.12.0-cp314-cp314t-manylinux_2_31_riscv64.manylinux_2_39_riscv64.whl", hash = "sha256:8bb5b894b3ec09dcd6d3743229dc7f2c42ef7787dc40596ae04c0edda487371e"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_aarch64.whl", hash = "sha256:79a44421cd5fba96aa57b5e3b5a4d3274c449d4c622e8f76882d76635501fd13"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_i686.whl", hash = "sha256:33baadc0efd5c7294f436a632566ccc1f72c867f82833eb59820ee37dc811c6f"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_riscv64.whl", hash = "sha256:c406a71f544800ef7e9e0000af706b88465f3573ae8b8de37e5f96c59f689ad1"},
+    {file = "coverage-7.12.0-cp314-cp314t-musllinux_1_2_x86_64.whl", hash = "sha256:e71bba6a40883b00c6d571599b4627f50c360b3d0d02bfc658168936be74027b"},
+    {file = "coverage-7.12.0-cp314-cp314t-win32.whl", hash = "sha256:9157a5e233c40ce6613dead4c131a006adfda70e557b6856b97aceed01b0e27a"},
+    {file = "coverage-7.12.0-cp314-cp314t-win_amd64.whl", hash = "sha256:e84da3a0fd233aeec797b981c51af1cabac74f9bd67be42458365b30d11b5291"},
+    {file = "coverage-7.12.0-cp314-cp314t-win_arm64.whl", hash = "sha256:01d24af36fedda51c2b1aca56e4330a3710f83b02a5ff3743a6b015ffa7c9384"},
+    {file = "coverage-7.12.0-py3-none-any.whl", hash = "sha256:159d50c0b12e060b15ed3d39f87ed43d4f7f7ad40b8a534f4dd331adbb51104a"},
+    {file = "coverage-7.12.0.tar.gz", hash = "sha256:fc11e0a4e372cb5f282f16ef90d4a585034050ccda536451901abfb19a57f40c"},
+]
 [[package]]
 name = "cycler"
 version = "0.12.1"
     {file = "idna-3.11.tar.gz", hash = "sha256:795dafcc9c04ed0c1fb032c2aa73654d8e8c5023a7df64a53f39190ada629902"},
 ]
+[[package]]
+name = "iniconfig"
+version = "2.3.0"
+requires_python = ">=3.10"
+summary = "brain-dead simple config-ini parsing"
+groups = ["test"]
+files = [
+    {file = "iniconfig-2.3.0-py3-none-any.whl", hash = "sha256:f631c04d2c48c52b84d0d0549c99ff3859c98df65b3101406327ecc7d53fbf12"},
+    {file = "iniconfig-2.3.0.tar.gz", hash = "sha256:c76315c77db068650d49c5b56314774a7804df16fee4402c1f19d6d15d8c4730"},
+]
 [[package]]
 name = "jinja2"
 version = "3.1.6"
 version = "25.0"
 requires_python = ">=3.8"
 summary = "Core utilities for Python packages"
+groups = ["default", "hf-cli", "plots", "test"]
 files = [
     {file = "packaging-25.0-py3-none-any.whl", hash = "sha256:29572ef2b1f17581046b3a2227d5c611fb25ec70ca1ba8554b24b0e69331a484"},
     {file = "packaging-25.0.tar.gz", hash = "sha256:d443872c98d677bf60f6a1f2f8c1cb748e8fe762d2bf9d3148b5599295b0fc4f"},
     {file = "pillow-11.3.0.tar.gz", hash = "sha256:3828ee7586cd0b2091b6209e5ad53e20d0649bbe87164a459d0676e035e8f523"},
 ]
+[[package]]
+name = "pluggy"
+version = "1.6.0"
+requires_python = ">=3.9"
+summary = "plugin and hook calling mechanisms for python"
+groups = ["test"]
+files = [
+    {file = "pluggy-1.6.0-py3-none-any.whl", hash = "sha256:e920276dd6813095e9377c0bc5566d94c932c33b27a3e3945d8389c374dd4746"},
+    {file = "pluggy-1.6.0.tar.gz", hash = "sha256:7dcc130b76258d33b90f61b658791dede3486c3e6bfb003ee5c9bfb396dd22f3"},
+]
 [[package]]
 name = "propcache"
 version = "0.4.1"
 version = "2.19.2"
 requires_python = ">=3.8"
 summary = "Pygments is a syntax highlighting package written in Python."
+groups = ["default", "test"]
 files = [
     {file = "pygments-2.19.2-py3-none-any.whl", hash = "sha256:86540386c03d588bb81d44bc3928634ff26449851e99741617ecb9037ee5ec0b"},
     {file = "pygments-2.19.2.tar.gz", hash = "sha256:636cb2477cec7f8952536970bc533bc43743542f70392ae026374600add5b887"},
     {file = "pyparsing-3.2.5.tar.gz", hash = "sha256:2df8d5b7b2802ef88e8d016a2eb9c7aeaa923529cd251ed0fe4608275d4105b6"},
 ]
+[[package]]
+name = "pytest"
+version = "9.0.1"
+requires_python = ">=3.10"
+summary = "pytest: simple powerful testing with Python"
+groups = ["test"]
+dependencies = [
+    "colorama>=0.4; sys_platform == \"win32\"",
+    "exceptiongroup>=1; python_version < \"3.11\"",
+    "iniconfig>=1.0.1",
+    "packaging>=22",
+    "pluggy<2,>=1.5",
+    "pygments>=2.7.2",
+    "tomli>=1; python_version < \"3.11\"",
+]
+files = [
+    {file = "pytest-9.0.1-py3-none-any.whl", hash = "sha256:67be0030d194df2dfa7b556f2e56fb3c3315bd5c8822c6951162b92b32ce7dad"},
+    {file = "pytest-9.0.1.tar.gz", hash = "sha256:3e9c069ea73583e255c3b21cf46b8d3c56f6e3a1a8f6da94ccb0fcf57b9d73c8"},
+]
+[[package]]
+name = "pytest-asyncio"
+version = "1.3.0"
+requires_python = ">=3.10"
+summary = "Pytest support for asyncio"
+groups = ["test"]
+dependencies = [
+    "backports-asyncio-runner<2,>=1.1; python_version < \"3.11\"",
+    "pytest<10,>=8.2",
+    "typing-extensions>=4.12; python_version < \"3.13\"",
+]
+files = [
+    {file = "pytest_asyncio-1.3.0-py3-none-any.whl", hash = "sha256:611e26147c7f77640e6d0a92a38ed17c3e9848063698d5c93d5aa7aa11cebff5"},
+    {file = "pytest_asyncio-1.3.0.tar.gz", hash = "sha256:d7f52f36d231b80ee124cd216ffb19369aa168fc10095013c6b014a34d3ee9e5"},
+]
+[[package]]
+name = "pytest-cov"
+version = "7.0.0"
+requires_python = ">=3.9"
+summary = "Pytest plugin for measuring coverage."
+groups = ["test"]
+dependencies = [
+    "coverage[toml]>=7.10.6",
+    "pluggy>=1.2",
+    "pytest>=7",
+]
+files = [
+    {file = "pytest_cov-7.0.0-py3-none-any.whl", hash = "sha256:3b8e9558b16cc1479da72058bdecf8073661c7f57f7d3c5f22a1c23507f2d861"},
+    {file = "pytest_cov-7.0.0.tar.gz", hash = "sha256:33c97eda2e049a0c5298e91f519302a1334c26ac65c1a483d6206fd458361af1"},
+]
 [[package]]
 name = "python-dateutil"
 version = "2.9.0.post0"

pyproject.toml CHANGED Viewed

@@ -41,18 +41,21 @@ where = ["src"]
 hf-eda-mcp = {cmd="python -m hf_eda_mcp", env_file= ".env"}
 hf_client_playground = "python -m scripts.playground.hf_client_playground"
 metadata_playground = "python -m scripts.playground.metadata_tool_playground"
 [tool.pdm]
 distribution = true
 [tool.pdm.dev-dependencies]
-test = [
-    "pytest>=7.0.0",
-    "pytest-asyncio>=0.21.0",
-    "pytest-cov>=4.0.0"
-]
 lint = [
     "ruff>=0.1.0",
     "black>=23.0.0",
     "mypy>=1.0.0"
 ]

 hf-eda-mcp = {cmd="python -m hf_eda_mcp", env_file= ".env"}
 hf_client_playground = "python -m scripts.playground.hf_client_playground"
 metadata_playground = "python -m scripts.playground.metadata_tool_playground"
+analysis_playground = "python -m scripts.playground.analysis_tool_playground"
 [tool.pdm]
 distribution = true
 [tool.pdm.dev-dependencies]
 lint = [
     "ruff>=0.1.0",
     "black>=23.0.0",
     "mypy>=1.0.0"
 ]
+[dependency-groups]
+test = [
+    "pytest>=9.0.1",
+    "pytest-asyncio>=0.21.0",
+    "pytest-cov>=4.0.0",
+]

scripts/playground/analysis_tool_playground.py ADDED Viewed

	@@ -0,0 +1,57 @@

+import os
+import logging
+from pprint import pprint
+from dotenv import load_dotenv
+from hf_eda_mcp.services.dataset_viewer_adapter import DatasetViewerAdapter
+from hf_eda_mcp.tools.analysis import analyze_dataset_features
+load_dotenv()
+# Setup logging
+logging.basicConfig(
+    filename="scripts.log",
+    encoding='utf-8',
+    level=logging.DEBUG,
+    filemode="w",
+    format='%(asctime)s - %(levelname)s - %(message)s',
+)
+logger = logging.getLogger(__name__)
+def test_dataset_viewer_analysis(dataset_name = "stanfordnlp/imdb"):
+    service = DatasetViewerAdapter(token=os.environ["HF_TOKEN"])
+    result = service.get_dataset_statistics(dataset_name=dataset_name, config="plain_text", split_name="train")
+    pprint(result, indent=2)
+def test_dataset_service_analysis(dataset_name = "stanfordnlp/imdb"):
+    result = analyze_dataset_features(dataset_id=dataset_name, split="train")
+    pprint(result, indent=2)
+def test_statistics_availability(dataset_name = "stanfordnlp/imdb"):
+    service = DatasetViewerAdapter(token=os.environ["HF_TOKEN"])
+    result = service.check_statistics_availability(dataset_name=dataset_name)
+    print(f"\nStatistics availability for {dataset_name}:")
+    pprint(result, indent=2)
+if __name__ == "__main__":
+    print("###### Dataset Viewer Statistics Endpoint #######")
+    test_dataset_viewer_analysis()
+    print("\n###### Integrated Analysis (uses Dataset Viewer when available) #######")
+    test_dataset_service_analysis()
+    print("\n###### Check Statistics Availability #######")
+    test_statistics_availability("stanfordnlp/imdb")
+    # Test with a dataset that might not have statistics
+    print("\n###### Testing fallback for dataset without parquet format #######")
+    try:
+        result = analyze_dataset_features(dataset_id="glue", config_name="cola", split="train", sample_size=100)
+        print(f"Analysis method: {result['sample_info']['sampling_method']}")
+        print(f"Sample size: {result['dataset_info']['sample_size_used']}")
+    except Exception as e:
+        print(f"Error: {e}")

src/hf_eda_mcp/services/dataset_service.py CHANGED Viewed

@@ -79,9 +79,11 @@ class DatasetService:
         # Cache subdirectories
         self.metadata_cache_dir = self.cache_dir / "metadata"
         self.sample_cache_dir = self.cache_dir / "samples"
         self.metadata_cache_dir.mkdir(exist_ok=True)
         self.sample_cache_dir.mkdir(exist_ok=True)
         logger.info(f"DatasetService initialized with cache dir: {self.cache_dir}")
@@ -101,6 +103,16 @@ class DatasetService:
         """Generate cache key for dataset samples."""
         base_key = self._get_cache_key(dataset_id, config_name)
         return f"{base_key}_{split}_{num_samples}"
     def _is_cache_valid(self, cache_file: Path) -> bool:
         """Check if cache file exists and is within TTL."""
@@ -572,6 +584,123 @@ class DatasetService:
                     f"Failed to load dataset sample: {str(e)}"
                 ) from e
     def get_cached_metadata(self, dataset_id: str, config_name: Optional[str] = None) -> Optional[Dict[str, Any]]:
         """
         Retrieve cached metadata without making API calls.
@@ -602,6 +731,8 @@ class DatasetService:
                     cache_file.unlink()
                 for cache_file in self.sample_cache_dir.glob("*.json"):
                     cache_file.unlink()
                 logger.info("Cleared all cache")
             else:
                 # Clear cache for specific dataset
@@ -615,6 +746,10 @@ class DatasetService:
                 for cache_file in self.sample_cache_dir.glob(f"{cache_key}*.json"):
                     cache_file.unlink()
                 logger.info(f"Cleared cache for dataset: {dataset_id}")
         except Exception as e:
@@ -631,19 +766,23 @@ class DatasetService:
         try:
             metadata_files = list(self.metadata_cache_dir.glob("*.json"))
             sample_files = list(self.sample_cache_dir.glob("*.json"))
             # Calculate cache sizes
             metadata_size = sum(f.stat().st_size for f in metadata_files)
             sample_size = sum(f.stat().st_size for f in sample_files)
             return {
                 'cache_dir': str(self.cache_dir),
                 'metadata_files': len(metadata_files),
                 'sample_files': len(sample_files),
-                'total_files': len(metadata_files) + len(sample_files),
                 'metadata_size_bytes': metadata_size,
                 'sample_size_bytes': sample_size,
-                'total_size_bytes': metadata_size + sample_size,
                 'cache_ttl_seconds': self.cache_ttl
             }
         except Exception as e:

         # Cache subdirectories
         self.metadata_cache_dir = self.cache_dir / "metadata"
         self.sample_cache_dir = self.cache_dir / "samples"
+        self.statistics_cache_dir = self.cache_dir / "statistics"
         self.metadata_cache_dir.mkdir(exist_ok=True)
         self.sample_cache_dir.mkdir(exist_ok=True)
+        self.statistics_cache_dir.mkdir(exist_ok=True)
         logger.info(f"DatasetService initialized with cache dir: {self.cache_dir}")
         """Generate cache key for dataset samples."""
         base_key = self._get_cache_key(dataset_id, config_name)
         return f"{base_key}_{split}_{num_samples}"
+    def _get_statistics_cache_key(
+        self,
+        dataset_id: str,
+        split: str,
+        config_name: Optional[str] = None
+    ) -> str:
+        """Generate cache key for dataset statistics."""
+        base_key = self._get_cache_key(dataset_id, config_name)
+        return f"{base_key}_{split}_stats"
     def _is_cache_valid(self, cache_file: Path) -> bool:
         """Check if cache file exists and is within TTL."""
                     f"Failed to load dataset sample: {str(e)}"
                 ) from e
+    def get_dataset_statistics(
+        self,
+        dataset_id: str,
+        split: str = "train",
+        config_name: Optional[str] = None,
+        use_cache: bool = True
+    ) -> Optional[Dict[str, Any]]:
+        """
+        Get detailed statistics from Dataset Viewer API with caching.
+        This method provides comprehensive statistics directly from HuggingFace's
+        Dataset Viewer API, which is more efficient and complete than sampling.
+        Statistics are only available for datasets with builder_name="parquet".
+        If statistics are not available, returns None and the caller should fall
+        back to sample-based analysis.
+        Args:
+            dataset_id: HuggingFace dataset identifier
+            split: Dataset split to get statistics for
+            config_name: Optional configuration name
+            use_cache: Whether to use cached statistics (default: True)
+        Returns:
+            Dictionary containing statistics or None if unavailable:
+            - num_examples: Total number of examples
+            - statistics: List of column statistics
+            - partial: Whether response is partial
+            - _cached_at: Cache timestamp
+        Raises:
+            DatasetServiceError: If the API request fails unexpectedly
+        """
+        context = {
+            "dataset_id": dataset_id,
+            "split": split,
+            "config_name": config_name,
+            "operation": "get_dataset_statistics"
+        }
+        # Check cache first if enabled
+        if use_cache:
+            cache_key = self._get_statistics_cache_key(dataset_id, split, config_name)
+            cache_file = self.statistics_cache_dir / f"{cache_key}.json"
+            cached_data = self._load_from_cache(cache_file)
+            if cached_data is not None:
+                logger.debug(f"Using cached statistics for {dataset_id}/{split}")
+                return cached_data
+        try:
+            # First, check if statistics are available for this dataset
+            logger.info(f"Checking statistics availability for {dataset_id}")
+            availability = self.dataset_viewer.check_statistics_availability(
+                dataset_id, config_name
+            )
+            if not availability['available']:
+                logger.info(
+                    f"Statistics not available for {dataset_id}: {availability['reason']}"
+                )
+                return None
+            # Determine which config to use
+            if config_name is None:
+                # Use first available config
+                available_configs = availability['configs']
+                if not available_configs:
+                    logger.warning(f"No configs with statistics found for {dataset_id}")
+                    return None
+                config_name = available_configs[0]
+                logger.info(f"Using config '{config_name}' for statistics")
+            elif config_name not in availability['configs']:
+                logger.warning(
+                    f"Config '{config_name}' does not support statistics. "
+                    f"Available configs: {availability['configs']}"
+                )
+                return None
+            # Fetch statistics from API
+            logger.info(f"Fetching statistics for {dataset_id}/{config_name}/{split}")
+            statistics = self.dataset_viewer.get_dataset_statistics(
+                dataset_name=dataset_id,
+                config=config_name,
+                split_name=split
+            )
+            # Add metadata
+            statistics['_cached_at'] = time.time()
+            statistics['_config_used'] = config_name
+            statistics['_dataset_id'] = dataset_id
+            statistics['_split'] = split
+            # Cache the results
+            if use_cache:
+                try:
+                    self._save_to_cache(cache_file, statistics)
+                except CacheError as e:
+                    logger.warning(f"Failed to cache statistics: {e}")
+            logger.info(
+                f"Successfully fetched statistics for {dataset_id}: "
+                f"{statistics.get('num_examples', 0)} examples, "
+                f"{len(statistics.get('statistics', []))} columns"
+            )
+            return statistics
+        except Exception as e:
+            # Log but don't fail - caller can fall back to sampling
+            log_error_with_context(e, context, level=logging.WARNING)
+            logger.info(
+                f"Could not fetch statistics for {dataset_id}, "
+                "caller should use sample-based analysis"
+            )
+            return None
     def get_cached_metadata(self, dataset_id: str, config_name: Optional[str] = None) -> Optional[Dict[str, Any]]:
         """
         Retrieve cached metadata without making API calls.
                     cache_file.unlink()
                 for cache_file in self.sample_cache_dir.glob("*.json"):
                     cache_file.unlink()
+                for cache_file in self.statistics_cache_dir.glob("*.json"):
+                    cache_file.unlink()
                 logger.info("Cleared all cache")
             else:
                 # Clear cache for specific dataset
                 for cache_file in self.sample_cache_dir.glob(f"{cache_key}*.json"):
                     cache_file.unlink()
+                # Clear statistics cache
+                for cache_file in self.statistics_cache_dir.glob(f"{cache_key}*.json"):
+                    cache_file.unlink()
                 logger.info(f"Cleared cache for dataset: {dataset_id}")
         except Exception as e:
         try:
             metadata_files = list(self.metadata_cache_dir.glob("*.json"))
             sample_files = list(self.sample_cache_dir.glob("*.json"))
+            statistics_files = list(self.statistics_cache_dir.glob("*.json"))
             # Calculate cache sizes
             metadata_size = sum(f.stat().st_size for f in metadata_files)
             sample_size = sum(f.stat().st_size for f in sample_files)
+            statistics_size = sum(f.stat().st_size for f in statistics_files)
             return {
                 'cache_dir': str(self.cache_dir),
                 'metadata_files': len(metadata_files),
                 'sample_files': len(sample_files),
+                'statistics_files': len(statistics_files),
+                'total_files': len(metadata_files) + len(sample_files) + len(statistics_files),
                 'metadata_size_bytes': metadata_size,
                 'sample_size_bytes': sample_size,
+                'statistics_size_bytes': statistics_size,
+                'total_size_bytes': metadata_size + sample_size + statistics_size,
                 'cache_ttl_seconds': self.cache_ttl
             }
         except Exception as e:

src/hf_eda_mcp/services/dataset_viewer_adapter.py CHANGED Viewed

@@ -153,4 +153,128 @@ class DatasetViewerAdapter():
         except Exception as e:
             error_msg = f"Unexpected error fetching dataset information: {str(e)}"
             logger.error(error_msg)
             raise DatasetViewerError(error_msg) from e

         except Exception as e:
             error_msg = f"Unexpected error fetching dataset information: {str(e)}"
             logger.error(error_msg)
+            raise DatasetViewerError(error_msg) from e
+    def get_dataset_statistics(
+        self,
+        dataset_name: str,
+        config: str,
+        split_name: str
+    ) -> dict:
+        """
+        Get detailed statistics for a dataset split from the Dataset Viewer API.
+        This endpoint provides comprehensive statistics including:
+        - Numerical features: histograms, mean, median, min, max, std
+        - Categorical features: value frequencies, unique counts
+        - Text features: length distributions
+        - Image features: width/height distributions
+        - Audio features: duration distributions
+        Note: This endpoint only works for datasets with builder_name="parquet".
+        Use get_dataset_information() first to check if statistics are available.
+        Args:
+            dataset_name: HuggingFace dataset identifier
+            config: Configuration name (required)
+            split_name: Split name (required)
+        Returns:
+            Dictionary containing detailed statistics including:
+            - num_examples: Total number of examples in the split
+            - statistics: List of column statistics with type-specific metrics
+            - partial: Whether the response is partial
+        Raises:
+            DatasetViewerError: If the API request fails or statistics are unavailable
+        """
+        params = {
+            "dataset": dataset_name,
+            "config": config,
+            "split": split_name,
+        }
+        logger.info(f"Fetching dataset statistics from Viewer API: {dataset_name}/{config}/{split_name}")
+        try:
+            result = self._api_get(
+                route="statistics",
+                params=params
+            )
+            # Check for errors in response
+            if result.get('failed'):
+                logger.warning(f"Dataset Viewer API returned failures: {result['failed']}")
+            if result.get('partial'):
+                logger.warning("Dataset Viewer API returned partial data")
+            return result
+        except DatasetViewerError:
+            # Re-raise with context
+            raise
+        except Exception as e:
+            error_msg = f"Unexpected error fetching dataset statistics: {str(e)}"
+            logger.error(error_msg)
+            raise DatasetViewerError(error_msg) from e
+    def check_statistics_availability(
+        self,
+        dataset_name: str,
+        config: Optional[str] = None
+    ) -> dict:
+        """
+        Check if statistics are available for a dataset.
+        Statistics are only available for datasets with builder_name="parquet".
+        This method checks the dataset information to determine availability.
+        Args:
+            dataset_name: HuggingFace dataset identifier
+            config: Optional configuration name
+        Returns:
+            Dictionary with availability information:
+            - available: Boolean indicating if statistics are available
+            - configs: List of configs with statistics support
+            - reason: Explanation if statistics are not available
+        Raises:
+            DatasetViewerError: If the API request fails
+        """
+        try:
+            info = self.get_dataset_information(dataset_name, config)
+            dataset_info = info.get('dataset_info', {})
+            # Handle both response formats
+            if isinstance(dataset_info, dict) and 'config_name' in dataset_info:
+                # Single config format
+                builder_name = dataset_info.get('builder_name', '')
+                is_parquet = builder_name == 'parquet'
+                return {
+                    'available': is_parquet,
+                    'configs': [dataset_info.get('config_name')] if is_parquet else [],
+                    'reason': 'Statistics available' if is_parquet else f'Statistics only available for parquet datasets (found: {builder_name})'
+                }
+            else:
+                # Multiple configs format
+                parquet_configs = []
+                for cfg_name, cfg_data in dataset_info.items():
+                    if cfg_data.get('builder_name') == 'parquet':
+                        parquet_configs.append(cfg_name)
+                return {
+                    'available': len(parquet_configs) > 0,
+                    'configs': parquet_configs,
+                    'reason': f'Statistics available for {len(parquet_configs)} config(s)' if parquet_configs else 'No parquet configs found'
+                }
+        except DatasetViewerError:
+            raise
+        except Exception as e:
+            error_msg = f"Unexpected error checking statistics availability: {str(e)}"
+            logger.error(error_msg)
             raise DatasetViewerError(error_msg) from e

src/hf_eda_mcp/tools/analysis.py CHANGED Viewed

@@ -2,7 +2,7 @@
 Basic analysis tools for exploratory data analysis of HuggingFace datasets.
 This module provides tools for performing exploratory data analysis including
-feature statistics, missing value analysis, and data quality insights.
 """
 import logging
@@ -75,7 +75,6 @@ def analyze_dataset_features(
           - unique_count: Number of unique values
           - statistics: Type-specific statistics (mean, std for numerical; top values for categorical)
         - summary: Overall analysis summary
-        - data_quality: Data quality assessment
     Raises:
         ValueError: If inputs are invalid
@@ -88,10 +87,6 @@ def analyze_dataset_features(
         >>> for feature_name, feature_analysis in analysis['features'].items():
         ...     print(f"{feature_name}: {feature_analysis['feature_type']}")
         ...     print(f"  Missing: {feature_analysis['missing_percentage']:.1f}%")
-        >>> # Check data quality
-        >>> quality = analysis['data_quality']
-        >>> print(f"Overall quality score: {quality['quality_score']:.2f}")
     """
     # Handle empty strings from Gradio (convert to None)
     if config_name == "":
@@ -122,8 +117,25 @@ def analyze_dataset_features(
     )
     try:
-        # Get dataset service and load sample for analysis
         service = get_dataset_service()
         sample_data = service.load_dataset_sample(
             dataset_id=dataset_id,
             split=split,
@@ -132,8 +144,6 @@ def analyze_dataset_features(
             streaming=True,
         )
-        # Note: We could get dataset metadata here for additional context if needed
         # Perform feature analysis
         features_analysis = {}
         data_samples = sample_data["data"]
@@ -172,7 +182,6 @@ def analyze_dataset_features(
                 "analysis_timestamp": sample_data.get("_sampled_at"),
             },
             "features": features_analysis,
-            "data_quality": _assess_data_quality(features_analysis),
             "summary": _generate_analysis_summary(features_analysis, len(data_samples)),
         }
@@ -205,6 +214,215 @@ def analyze_dataset_features(
         raise DatasetServiceError(f"Failed to analyze dataset features: {str(e)}") from e
 def _analyze_single_feature(
     feature_name: str, data_samples: List[Dict[str, Any]]
 ) -> Dict[str, Any]:
@@ -396,113 +614,6 @@ def _compute_text_statistics(values: List[str]) -> Dict[str, Any]:
         return {"count": len(values), "error": str(e)}
-def _assess_data_quality(
-    features_analysis: Dict[str, Dict[str, Any]],
-) -> Dict[str, Any]:
-    """
-    Assess overall data quality based on feature analysis.
-    Args:
-        features_analysis: Dictionary of feature analyses
-    Returns:
-        Dictionary containing data quality assessment
-    """
-    if not features_analysis:
-        return {"quality_score": 0.0, "issues": ["No features to analyze"]}
-    total_features = len(features_analysis)
-    issues = []
-    quality_factors = []
-    # Check missing value rates
-    high_missing_features = 0
-    total_missing_rate = 0
-    for feature_name, analysis in features_analysis.items():
-        missing_pct = analysis.get("missing_percentage", 0)
-        total_missing_rate += missing_pct
-        if missing_pct > 50:
-            high_missing_features += 1
-            issues.append(
-                f"Feature '{feature_name}' has {missing_pct:.1f}% missing values"
-            )
-        elif missing_pct > 20:
-            issues.append(
-                f"Feature '{feature_name}' has {missing_pct:.1f}% missing values"
-            )
-    avg_missing_rate = total_missing_rate / total_features
-    # Quality score calculation (0-1 scale)
-    missing_score = max(0, 1 - (avg_missing_rate / 100))
-    quality_factors.append(("missing_values", missing_score))
-    # Check for features with very low diversity
-    low_diversity_features = 0
-    for feature_name, analysis in features_analysis.items():
-        unique_count = analysis.get("unique_count", 0)
-        total_count = analysis.get("total_count", 1)
-        diversity_ratio = unique_count / total_count if total_count > 0 else 0
-        if diversity_ratio < 0.01 and analysis.get("feature_type") != "boolean":
-            low_diversity_features += 1
-            issues.append(
-                f"Feature '{feature_name}' has very low diversity ({unique_count} unique values)"
-            )
-    diversity_score = max(0, 1 - (low_diversity_features / total_features))
-    quality_factors.append(("diversity", diversity_score))
-    # Overall quality score (weighted average)
-    weights = {"missing_values": 0.6, "diversity": 0.4}
-    quality_score = sum(weights[factor] * score for factor, score in quality_factors)
-    # Quality assessment
-    if quality_score >= 0.8:
-        quality_level = "high"
-    elif quality_score >= 0.6:
-        quality_level = "medium"
-    else:
-        quality_level = "low"
-    return {
-        "quality_score": quality_score,
-        "quality_level": quality_level,
-        "avg_missing_rate": avg_missing_rate,
-        "high_missing_features": high_missing_features,
-        "low_diversity_features": low_diversity_features,
-        "issues": issues,
-        "recommendations": _generate_quality_recommendations(issues, quality_score),
-    }
-def _generate_quality_recommendations(
-    issues: List[str], quality_score: float
-) -> List[str]:
-    """Generate recommendations based on data quality issues."""
-    recommendations = []
-    if quality_score < 0.6:
-        recommendations.append(
-            "Consider data cleaning and preprocessing before analysis"
-        )
-    if any("missing values" in issue for issue in issues):
-        recommendations.append("Handle missing values through imputation or removal")
-    if any("low diversity" in issue for issue in issues):
-        recommendations.append(
-            "Review features with low diversity - they may not be informative"
-        )
-    if not recommendations:
-        recommendations.append("Data quality looks good for analysis")
-    return recommendations
 def _generate_analysis_summary(
     features_analysis: Dict[str, Dict[str, Any]], sample_size: int
 ) -> str:

 Basic analysis tools for exploratory data analysis of HuggingFace datasets.
 This module provides tools for performing exploratory data analysis including
+feature statistics and missing value analysis.
 """
 import logging
           - unique_count: Number of unique values
           - statistics: Type-specific statistics (mean, std for numerical; top values for categorical)
         - summary: Overall analysis summary
     Raises:
         ValueError: If inputs are invalid
         >>> for feature_name, feature_analysis in analysis['features'].items():
         ...     print(f"{feature_name}: {feature_analysis['feature_type']}")
         ...     print(f"  Missing: {feature_analysis['missing_percentage']:.1f}%")
     """
     # Handle empty strings from Gradio (convert to None)
     if config_name == "":
     )
     try:
+        # Get dataset service
         service = get_dataset_service()
+        # Try to get statistics from Dataset Viewer API first (more efficient and complete)
+        viewer_stats = service.get_dataset_statistics(
+            dataset_id=dataset_id,
+            split=split,
+            config_name=config_name
+        )
+        if viewer_stats is not None:
+            # Use Dataset Viewer statistics (full dataset, no sampling needed)
+            logger.info(f"Using Dataset Viewer statistics for {dataset_id}")
+            return _convert_viewer_statistics_to_analysis(
+                viewer_stats, dataset_id, config_name, split
+            )
+        # Fall back to sample-based analysis
+        logger.info("Dataset Viewer statistics not available, using sample-based analysis")
         sample_data = service.load_dataset_sample(
             dataset_id=dataset_id,
             split=split,
             streaming=True,
         )
         # Perform feature analysis
         features_analysis = {}
         data_samples = sample_data["data"]
                 "analysis_timestamp": sample_data.get("_sampled_at"),
             },
             "features": features_analysis,
             "summary": _generate_analysis_summary(features_analysis, len(data_samples)),
         }
         raise DatasetServiceError(f"Failed to analyze dataset features: {str(e)}") from e
+def _convert_viewer_statistics_to_analysis(
+    viewer_stats: Dict[str, Any],
+    dataset_id: str,
+    config_name: Optional[str],
+    split: str
+) -> Dict[str, Any]:
+    """
+    Convert Dataset Viewer API statistics to our analysis format.
+    Supports all Dataset Viewer column types:
+    - Numerical: int, float
+    - Categorical: class_label, string_label, bool
+    - Text: string_text
+    - Media: image, audio
+    - Structured: list
+    Args:
+        viewer_stats: Statistics from Dataset Viewer API
+        dataset_id: Dataset identifier
+        config_name: Configuration name
+        split: Split name
+    Returns:
+        Dictionary in our standard analysis format
+    """
+    num_examples = viewer_stats.get('num_examples', 0)
+    statistics_list = viewer_stats.get('statistics', [])
+    features_analysis = {}
+    for col_stat in statistics_list:
+        column_name = col_stat.get('column_name', 'unknown')
+        column_type = col_stat.get('column_type', 'unknown')
+        column_statistics = col_stat.get('column_statistics', {})
+        # Convert to our format based on column type
+        if column_type == 'string_text':
+            # Text features: character length statistics
+            features_analysis[column_name] = {
+                'feature_type': 'text',
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': 0,  # Not provided by viewer for text
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': {
+                    'count': num_examples - column_statistics.get('nan_count', 0),
+                    'min_length': column_statistics.get('min', 0),
+                    'max_length': column_statistics.get('max', 0),
+                    'mean_length': column_statistics.get('mean', 0),
+                    'median_length': column_statistics.get('median', 0),
+                    'std_length': column_statistics.get('std', 0),
+                    'histogram': column_statistics.get('histogram', {}),
+                },
+                'sample_values': [],
+            }
+        elif column_type in ['class_label', 'string_label']:
+            # Categorical features: frequency distributions
+            frequencies = column_statistics.get('frequencies', {})
+            features_analysis[column_name] = {
+                'feature_type': 'categorical',
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': column_statistics.get('n_unique', len(frequencies)),
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': {
+                    'count': num_examples - column_statistics.get('nan_count', 0),
+                    'unique_count': column_statistics.get('n_unique', len(frequencies)),
+                    'frequencies': frequencies,
+                    'most_common': [(k, v) for k, v in sorted(frequencies.items(), key=lambda x: x[1], reverse=True)],
+                    'top_value': max(frequencies.items(), key=lambda x: x[1]) if frequencies else None,
+                    'no_label_count': column_statistics.get('no_label_count', 0),
+                    'no_label_proportion': column_statistics.get('no_label_proportion', 0.0),
+                },
+                'sample_values': list(frequencies.keys())[:5],
+            }
+        elif column_type == 'bool':
+            # Boolean features: True/False frequencies
+            frequencies = column_statistics.get('frequencies', {})
+            features_analysis[column_name] = {
+                'feature_type': 'boolean',
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': len(frequencies),
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': {
+                    'count': num_examples - column_statistics.get('nan_count', 0),
+                    'frequencies': frequencies,
+                },
+                'sample_values': list(frequencies.keys()),
+            }
+        elif column_type in ['int', 'float']:
+            # Numerical features: statistical measures
+            features_analysis[column_name] = {
+                'feature_type': 'numerical',
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': 0,  # Not always provided
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': {
+                    'count': num_examples - column_statistics.get('nan_count', 0),
+                    'mean': column_statistics.get('mean', 0),
+                    'median': column_statistics.get('median', 0),
+                    'min': column_statistics.get('min', 0),
+                    'max': column_statistics.get('max', 0),
+                    'std': column_statistics.get('std', 0),
+                    'histogram': column_statistics.get('histogram', {}),
+                },
+                'sample_values': [],
+            }
+        elif column_type == 'image':
+            # Image features: dimension statistics
+            features_analysis[column_name] = {
+                'feature_type': 'image',
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': 0,
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': {
+                    'count': num_examples - column_statistics.get('nan_count', 0),
+                    'min_dimension': column_statistics.get('min', 0),
+                    'max_dimension': column_statistics.get('max', 0),
+                    'mean_dimension': column_statistics.get('mean', 0),
+                    'median_dimension': column_statistics.get('median', 0),
+                    'std_dimension': column_statistics.get('std', 0),
+                    'histogram': column_statistics.get('histogram', {}),
+                },
+                'sample_values': [],
+            }
+        elif column_type == 'audio':
+            # Audio features: duration statistics (in seconds)
+            features_analysis[column_name] = {
+                'feature_type': 'audio',
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': 0,
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': {
+                    'count': num_examples - column_statistics.get('nan_count', 0),
+                    'min_duration': column_statistics.get('min', 0),
+                    'max_duration': column_statistics.get('max', 0),
+                    'mean_duration': column_statistics.get('mean', 0),
+                    'median_duration': column_statistics.get('median', 0),
+                    'std_duration': column_statistics.get('std', 0),
+                    'histogram': column_statistics.get('histogram', {}),
+                },
+                'sample_values': [],
+            }
+        elif column_type == 'list':
+            # List features: length statistics
+            features_analysis[column_name] = {
+                'feature_type': 'list',
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': 0,
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': {
+                    'count': num_examples - column_statistics.get('nan_count', 0),
+                    'min_length': column_statistics.get('min', 0),
+                    'max_length': column_statistics.get('max', 0),
+                    'mean_length': column_statistics.get('mean', 0),
+                    'median_length': column_statistics.get('median', 0),
+                    'std_length': column_statistics.get('std', 0),
+                    'histogram': column_statistics.get('histogram', {}),
+                },
+                'sample_values': [],
+            }
+        else:
+            # Unknown type - provide basic info with all available statistics
+            features_analysis[column_name] = {
+                'feature_type': column_type,
+                'missing_count': column_statistics.get('nan_count', 0),
+                'missing_percentage': column_statistics.get('nan_proportion', 0.0) * 100,
+                'unique_count': column_statistics.get('n_unique', 0),
+                'total_count': num_examples,
+                'non_missing_count': num_examples - column_statistics.get('nan_count', 0),
+                'statistics': column_statistics,
+                'sample_values': [],
+            }
+    # Generate overall analysis
+    analysis_result = {
+        "dataset_info": {
+            "dataset_id": dataset_id,
+            "config_name": viewer_stats.get('_config_used', config_name),
+            "split": split,
+            "total_features": len(features_analysis),
+            "sample_size_used": num_examples,
+            "sample_size_requested": num_examples,
+        },
+        "sample_info": {
+            "sampling_method": "dataset_viewer_api",
+            "represents_full_dataset": True,
+            "analysis_timestamp": viewer_stats.get('_cached_at'),
+            "partial": viewer_stats.get('partial', False),
+        },
+        "features": features_analysis,
+        "summary": _generate_analysis_summary(features_analysis, num_examples),
+    }
+    return analysis_result
 def _analyze_single_feature(
     feature_name: str, data_samples: List[Dict[str, Any]]
 ) -> Dict[str, Any]:
         return {"count": len(values), "error": str(e)}
 def _generate_analysis_summary(
     features_analysis: Dict[str, Dict[str, Any]], sample_size: int
 ) -> str: