Spaces:

Alovestocode
/

ZeroGPU-LLM-Inference

Sleeping

Alikestocode commited on Nov 10, 2025

Commit

3f08592

1 Parent(s): f3114ba

Fix quantization_config structure: use correct AWQ format

- Use dict-based config with config_groups.group_0 structure
- Include targets, weights (num_bits, group_size, zero_point), etc.
- Remove fallback approaches - use correct structure directly
- Fixes ValidationError for AWQModifier

Files changed (1) hide show

quantize_to_awq_colab.ipynb +30 -47

quantize_to_awq_colab.ipynb CHANGED Viewed

@@ -255,57 +255,40 @@
         "        print(f\"  → This may take 30-60 minutes depending on model size...\")\n",
         "        \n",
         "        # AWQModifier quantization config\n",
-        "        # Try multiple approaches to create the config\n",
         "        print(f\"  → Creating quantization config for 4-bit AWQ...\")\n",
         "        \n",
-        "        modifiers = None\n",
-        "        quant_config = None\n",
-        "        \n",
-        "        try:\n",
-        "            # Approach 1: Try importing BaseQuantizationConfig\n",
-        "            from compressed_tensors.quantization import QuantizationConfig, BaseQuantizationConfig\n",
-        "            quant_config = QuantizationConfig(\n",
-        "                config_groups={\n",
-        "                    \"default\": BaseQuantizationConfig(\n",
-        "                        num_bits=4,\n",
-        "                        group_size=128,\n",
-        "                        zero_point=True\n",
-        "                    )\n",
         "                }\n",
-        "            )\n",
-        "            print(f\"  ✅ Created QuantizationConfig with BaseQuantizationConfig\")\n",
-        "        except ImportError:\n",
-        "            try:\n",
-        "                # Approach 2: Try using QuantizationConfig with dict directly\n",
-        "                from compressed_tensors.quantization import QuantizationConfig\n",
-        "                quant_config = QuantizationConfig(\n",
-        "                    config_groups={\n",
-        "                        \"default\": {\n",
-        "                            \"num_bits\": 4,\n",
-        "                            \"group_size\": 128,\n",
-        "                            \"zero_point\": True\n",
-        "                        }\n",
-        "                    }\n",
-        "                )\n",
-        "                print(f\"  ✅ Created QuantizationConfig with dict config\")\n",
-        "            except Exception as e:\n",
-        "                # Approach 3: Try AWQModifier without quantization_config (use defaults)\n",
-        "                print(f\"  ⚠️ Could not create QuantizationConfig: {e}\")\n",
-        "                print(f\"  → Using AWQModifier with default settings...\")\n",
-        "                modifiers = [AWQModifier()]\n",
-        "                print(f\"  ✅ AWQModifier created with default settings\")\n",
         "        \n",
-        "        # Create modifiers if we have a quant_config\n",
-        "        if modifiers is None:\n",
-        "            if quant_config is not None:\n",
-        "                print(f\"  → Creating AWQModifier with quantization config...\")\n",
-        "                modifiers = [AWQModifier(quantization_config=quant_config)]\n",
-        "                print(f\"  ✅ AWQModifier created successfully\")\n",
-        "            else:\n",
-        "                # Final fallback: use default AWQModifier\n",
-        "                print(f\"  → Using AWQModifier with default settings (no config)...\")\n",
-        "                modifiers = [AWQModifier()]\n",
-        "                print(f\"  ✅ AWQModifier created with default settings\")\n",
         "        \n",
         "        # Call oneshot with the modifier\n",
         "        print(f\"  → Starting quantization process...\")\n",

         "        print(f\"  → This may take 30-60 minutes depending on model size...\")\n",
         "        \n",
         "        # AWQModifier quantization config\n",
+        "        # Create quantization config with correct structure for AWQ\n",
         "        print(f\"  → Creating quantization config for 4-bit AWQ...\")\n",
         "        \n",
+        "        # AWQModifier requires quantization_config with proper structure:\n",
+        "        # - config_groups: dict mapping group names to quantization schemes\n",
+        "        # - Each group needs: targets (list of module types), weights (dict with num_bits, etc.)\n",
+        "        quant_config = {\n",
+        "            \"config_groups\": {\n",
+        "                \"group_0\": {\n",
+        "                    \"targets\": [\"Linear\"],  # Target Linear layers\n",
+        "                    \"weights\": {\n",
+        "                        \"num_bits\": 4,          # 4-bit quantization\n",
+        "                        \"group_size\": 128,      # Group size for quantization\n",
+        "                        \"zero_point\": True,      # Use zero-point quantization\n",
+        "                        \"symmetric\": False,      # Asymmetric quantization\n",
+        "                        \"strategy\": \"group\",     # Group-wise quantization\n",
+        "                        \"observer\": \"minmax\",    # Min-max observer\n",
+        "                        \"type\": \"int\",           # Integer quantization\n",
+        "                        \"dynamic\": False         # Static quantization\n",
+        "                    },\n",
+        "                    \"input_activations\": None,   # No activation quantization\n",
+        "                    \"output_activations\": None    # No activation quantization\n",
         "                }\n",
+        "            },\n",
+        "            \"ignore\": [\"lm_head\"],  # Ignore language model head\n",
+        "            \"quant_method\": \"compressed-tensors\",\n",
+        "            \"quantization_status\": \"compressed\",\n",
+        "            \"format\": \"pack-quantized\"\n",
+        "        }\n",
         "        \n",
+        "        print(f\"  ✅ Created quantization config with correct structure\")\n",
+        "        print(f\"  → Creating AWQModifier with quantization config...\")\n",
+        "        modifiers = [AWQModifier(quantization_config=quant_config)]\n",
+        "        print(f\"  ✅ AWQModifier created successfully\")\n",
         "        \n",
         "        # Call oneshot with the modifier\n",
         "        print(f\"  → Starting quantization process...\")\n",