Spaces:

Alovestocode
/

ZeroGPU-LLM-Inference

Sleeping

Alikestocode commited on Nov 10, 2025

Commit

5bf02e9

1 Parent(s): cf9ed91

Remove duplicate build_awq_modifier_config - keep existing correct version

- Remove duplicate helper function from cell 7
- Keep existing build_awq_modifier_config in cell 9 that uses QuantizationScheme objects
- Existing function correctly returns config_groups and ignore separately
- Quantization function already uses it correctly with AWQModifier

Files changed (1) hide show

quantize_to_awq_colab.ipynb +1 -86

quantize_to_awq_colab.ipynb CHANGED Viewed

@@ -147,92 +147,7 @@
    "source": [
     "## 3. Helper Function: Build AWQ Modifier Config\n",
     "\n",
-    "def build_awq_modifier_config(num_bits=4, group_size=128, zero_point=True):\n",
-    "    \"\"\"Build proper AWQ quantization config using QuantizationScheme objects.\n",
-    "    \n",
-    "    This helper function creates the correct structure that AWQModifier expects,\n",
-    "    using QuantizationScheme/QuantizationArgs objects instead of plain dicts.\n",
-    "    \n",
-    "    Args:\n",
-    "        num_bits: Number of bits for quantization (default: 4)\n",
-    "        group_size: Group size for quantization (default: 128)\n",
-    "        zero_point: Whether to use zero-point quantization (default: True)\n",
-    "    \n",
-    "    Returns:\n",
-    "        quantization_config dict with proper QuantizationScheme structure\n",
-    "    \"\"\"\n",
-    "    try:\n",
-    "        # Try to import QuantizationScheme and related classes\n",
-    "        from compressed_tensors.quantization import (\n",
-    "            QuantizationConfig,\n",
-    "            QuantizationScheme,\n",
-    "            QuantizationArgs\n",
-    "        )\n",
-    "        \n",
-    "        # Create QuantizationArgs for weights\n",
-    "        weights_args = QuantizationArgs(\n",
-    "            num_bits=num_bits,\n",
-    "            group_size=group_size,\n",
-    "            zero_point=zero_point,\n",
-    "            symmetric=False,\n",
-    "            strategy=\"group\",\n",
-    "            observer=\"minmax\",\n",
-    "            type=\"int\",\n",
-    "            dynamic=False\n",
-    "        )\n",
-    "        \n",
-    "        # Create QuantizationScheme with targets and weights\n",
-    "        scheme = QuantizationScheme(\n",
-    "            targets=[\"Linear\"],  # Target Linear layers\n",
-    "            weights=weights_args,\n",
-    "            input_activations=None,\n",
-    "            output_activations=None\n",
-    "        )\n",
-    "        \n",
-    "        # Create QuantizationConfig with config_groups\n",
-    "        quant_config = QuantizationConfig(\n",
-    "            config_groups={\"group_0\": scheme},\n",
-    "            ignore=[\"lm_head\"],\n",
-    "            quant_method=\"compressed-tensors\",\n",
-    "            quantization_status=\"compressed\",\n",
-    "            format=\"pack-quantized\"\n",
-    "        )\n",
-    "        \n",
-    "        print(f\"✅ Built AWQ config using QuantizationScheme objects\")\n",
-    "        return quant_config\n",
-    "        \n",
-    "    except ImportError as e:\n",
-    "        # Fallback: If QuantizationScheme not available, try dict-based approach\n",
-    "        print(f\"⚠️ QuantizationScheme not available: {e}\")\n",
-    "        print(f\"  → Falling back to dict-based config...\")\n",
-    "        \n",
-    "        # Return dict structure (may still work with some versions)\n",
-    "        return {\n",
-    "            \"config_groups\": {\n",
-    "                \"group_0\": {\n",
-    "                    \"targets\": [\"Linear\"],\n",
-    "                    \"weights\": {\n",
-    "                        \"num_bits\": num_bits,\n",
-    "                        \"group_size\": group_size,\n",
-    "                        \"zero_point\": zero_point,\n",
-    "                        \"symmetric\": False,\n",
-    "                        \"strategy\": \"group\",\n",
-    "                        \"observer\": \"minmax\",\n",
-    "                        \"type\": \"int\",\n",
-    "                        \"dynamic\": False\n",
-    "                    },\n",
-    "                    \"input_activations\": None,\n",
-    "                    \"output_activations\": None\n",
-    "                }\n",
-    "            },\n",
-    "            \"ignore\": [\"lm_head\"],\n",
-    "            \"quant_method\": \"compressed-tensors\",\n",
-    "            \"quantization_status\": \"compressed\",\n",
-    "            \"format\": \"pack-quantized\"\n",
-    "        }\n",
-    "    except Exception as e:\n",
-    "        print(f\"❌ Failed to build AWQ config: {e}\")\n",
-    "        raise\n",
     "\n"
    ]
   },

    "source": [
     "## 3. Helper Function: Build AWQ Modifier Config\n",
     "\n",
+    "**Note:** The `build_awq_modifier_config` helper function is defined in the next cell (Cell 9) along with the imports. It properly constructs `QuantizationScheme` and `QuantizationArgs` objects as required by `AWQModifier`.\n",
     "\n"
    ]
   },