CompressedGemma
/

HPC-Quantize

Model card Files Files and versions

CompressedGemma commited on May 7

Commit

c9097e7

·

verified ·

1 Parent(s): e81a80a

Fix OOM

Files changed (1) hide show

generate_imatrix.py +8 -4

generate_imatrix.py CHANGED Viewed

@@ -673,6 +673,10 @@ class TransformerRunner:
         for name, arr, cnt in imp_refs:
             self.importance[name] = (arr.astype(np.float64), cnt.value)
         return hidden
     def _hpc_rms_norm(self, x, weight, eps):
@@ -1317,7 +1321,8 @@ class TransformerRunner:
         if embed_w is None:
             raise RuntimeError("Missing token_embd.weight")
-        hidden = embed_w[token_ids]  # [seq_len, n_embd]
         # RoPE frequencies
         cos_f, sin_f = rope_freqs(self.head_dim, seq_len, cfg['rope_base'])
@@ -1346,9 +1351,8 @@ class TransformerRunner:
             if self.verbose and (layer_idx + 1) % 4 == 0:
                 print(f"    Layer {layer_idx + 1}/{cfg['n_layers']}", end='\r')
-        # Output projection
-        output_w = self._get_weight('output.weight')
-        if output_w is not None:
             self._record('output.weight', hidden)
         return hidden

         for name, arr, cnt in imp_refs:
             self.importance[name] = (arr.astype(np.float64), cnt.value)
+        # Force-free per-layer weight buffers (~1.4 GB) before next layer
+        del refs, imp_refs
+        import gc; gc.collect()
         return hidden
     def _hpc_rms_norm(self, x, weight, eps):
         if embed_w is None:
             raise RuntimeError("Missing token_embd.weight")
+        hidden = embed_w[token_ids].copy()  # [seq_len, n_embd]
+        del embed_w  # Free ~5 GB embedding table before layer loop
         # RoPE frequencies
         cos_f, sin_f = rope_freqs(self.head_dim, seq_len, cfg['rope_base'])
             if self.verbose and (layer_idx + 1) % 4 == 0:
                 print(f"    Layer {layer_idx + 1}/{cfg['n_layers']}", end='\r')
+        # Output projection — check existence without loading the full 5 GB tensor
+        if 'output.weight' in self.model.tensor_infos:
             self._record('output.weight', hidden)
         return hidden