Spaces:

Alovestocode
/

ZeroGPU-LLM-Inference

Sleeping

Alikestocode commited on Nov 10, 2025

Commit

a49281c

1 Parent(s): 011c926

Fix BaseQuantizationConfig import: add fallback approaches

- Try BaseQuantizationConfig import first
- Fallback to dict-based config_groups if import fails
- Fallback to default AWQModifier() if config creation fails
- Handles different compressed_tensors API versions

Files changed (1) hide show

quantize_to_awq_colab.ipynb +41 -17

quantize_to_awq_colab.ipynb CHANGED Viewed

@@ -254,26 +254,50 @@
         "        print(f\"  → Starting quantization with LLM Compressor...\")\n",
         "        print(f\"  → This may take 30-60 minutes depending on model size...\")\n",
         "        \n",
-        "        # AWQModifier requires quantization_config with config_groups\n",
-        "        # Create quantization config for 4-bit AWQ\n",
-        "        from compressed_tensors.quantization import QuantizationConfig, BaseQuantizationConfig\n",
-        "        \n",
         "        print(f\"  → Creating quantization config for 4-bit AWQ...\")\n",
-        "        # QuantizationConfig requires config_groups - a dict mapping layer names to configs\n",
-        "        # For AWQ, we use a default config group that applies to all layers\n",
-        "        quant_config = QuantizationConfig(\n",
-        "            config_groups={\n",
-        "                \"default\": BaseQuantizationConfig(\n",
-        "                    num_bits=4,      # 4-bit quantization\n",
-        "                    group_size=128,  # Group size\n",
-        "                    zero_point=True   # Zero-point quantization\n",
         "                )\n",
-        "            }\n",
-        "        )\n",
         "        \n",
-        "        print(f\"  → Creating AWQModifier with quantization config...\")\n",
-        "        modifiers = [AWQModifier(quantization_config=quant_config)]\n",
-        "        print(f\"  → AWQModifier created successfully\")\n",
         "        \n",
         "        # Call oneshot with the modifier\n",
         "        print(f\"  → Starting quantization process...\")\n",

         "        print(f\"  → Starting quantization with LLM Compressor...\")\n",
         "        print(f\"  → This may take 30-60 minutes depending on model size...\")\n",
         "        \n",
+        "        # AWQModifier quantization config\n",
+        "        # Try multiple approaches to create the config\n",
         "        print(f\"  → Creating quantization config for 4-bit AWQ...\")\n",
+        "        \n",
+        "        try:\n",
+        "            # Approach 1: Try importing BaseQuantizationConfig\n",
+        "            from compressed_tensors.quantization import QuantizationConfig, BaseQuantizationConfig\n",
+        "            quant_config = QuantizationConfig(\n",
+        "                config_groups={\n",
+        "                    \"default\": BaseQuantizationConfig(\n",
+        "                        num_bits=4,\n",
+        "                        group_size=128,\n",
+        "                        zero_point=True\n",
+        "                    )\n",
+        "                }\n",
+        "            )\n",
+        "            print(f\"  ✅ Created QuantizationConfig with BaseQuantizationConfig\")\n",
+        "        except ImportError:\n",
+        "            try:\n",
+        "                # Approach 2: Try using QuantizationConfig with dict directly\n",
+        "                from compressed_tensors.quantization import QuantizationConfig\n",
+        "                quant_config = QuantizationConfig(\n",
+        "                    config_groups={\n",
+        "                        \"default\": {\n",
+        "                            \"num_bits\": 4,\n",
+        "                            \"group_size\": 128,\n",
+        "                            \"zero_point\": True\n",
+        "                        }\n",
+        "                    }\n",
         "                )\n",
+        "                print(f\"  ✅ Created QuantizationConfig with dict config\")\n",
+        "            except Exception as e:\n",
+        "                # Approach 3: Try AWQModifier without quantization_config (use defaults)\n",
+        "                print(f\"  ⚠️ Could not create QuantizationConfig: {e}\")\n",
+        "                print(f\"  → Trying AWQModifier with default settings...\")\n",
+        "                modifiers = [AWQModifier()]\n",
+        "                print(f\"  ✅ AWQModifier created with default settings\")\n",
+        "                # Skip quantization_config creation and use default AWQModifier\n",
+        "                quant_config = None\n",
         "        \n",
+        "        if quant_config is not None:\n",
+        "            print(f\"  → Creating AWQModifier with quantization config...\")\n",
+        "            modifiers = [AWQModifier(quantization_config=quant_config)]\n",
+        "            print(f\"  ✅ AWQModifier created successfully\")\n",
         "        \n",
         "        # Call oneshot with the modifier\n",
         "        print(f\"  → Starting quantization process...\")\n",