Upload folder using huggingface_hub

Files changed (11) hide show

README.md CHANGED Viewed

+---
+license: apple-amlr
+license_name: apple-sample-code-license
+license_link: LICENSE
+---
+# OpenELM

config.json CHANGED Viewed

@@ -8,6 +8,7 @@
     "AutoModelForCausalLM": "modeling_openelm.OpenELMForCausalLM"
   },
   "bos_token_id": 1,
   "eos_token_id": 2,
   "ffn_dim_divisor": 256,
   "ffn_multipliers": [
@@ -78,11 +79,25 @@
     0.5,
     1.0
   ],
   "rope_freq_constant": 10000,
   "rope_max_length": 4096,
   "share_input_output_layers": true,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.39.3",
   "use_cache": true,
   "vocab_size": 32000
 }

     "AutoModelForCausalLM": "modeling_openelm.OpenELMForCausalLM"
   },
   "bos_token_id": 1,
+  "dtype": "float16",
   "eos_token_id": 2,
   "ffn_dim_divisor": 256,
   "ffn_multipliers": [
     0.5,
     1.0
   ],
+  "quantization_config": {
+    "_load_in_4bit": true,
+    "_load_in_8bit": false,
+    "bnb_4bit_compute_dtype": "bfloat16",
+    "bnb_4bit_quant_storage": "uint8",
+    "bnb_4bit_quant_type": "nf4",
+    "bnb_4bit_use_double_quant": true,
+    "llm_int8_enable_fp32_cpu_offload": false,
+    "llm_int8_has_fp16_weight": false,
+    "llm_int8_skip_modules": null,
+    "llm_int8_threshold": 6.0,
+    "load_in_4bit": true,
+    "load_in_8bit": false,
+    "quant_method": "bitsandbytes"
+  },
   "rope_freq_constant": 10000,
   "rope_max_length": 4096,
   "share_input_output_layers": true,
+  "transformers_version": "4.57.3",
   "use_cache": true,
   "vocab_size": 32000
 }

configuration_openelm.py CHANGED Viewed

@@ -316,3 +316,13 @@ class OpenELMConfig(PretrainedConfig):
         # check num_query_heads divisible by num_kv_heads for every layer
         for layer_idx in range(len(query_dims)):
             assert self.num_query_heads[layer_idx] % self.num_kv_heads[layer_idx] == 0

         # check num_query_heads divisible by num_kv_heads for every layer
         for layer_idx in range(len(query_dims)):
             assert self.num_query_heads[layer_idx] % self.num_kv_heads[layer_idx] == 0
+    @property
+    def num_hidden_layers(self) -> int:
+        """Alias for num_transformer_layers for compatibility with transformers library."""
+        return self.num_transformer_layers
+    @num_hidden_layers.setter
+    def num_hidden_layers(self, value: int) -> None:
+        """Setter for num_hidden_layers that updates num_transformer_layers."""
+        self.num_transformer_layers = value

generation_config.json ADDED Viewed

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.57.3"
+}

modeling_openelm.py CHANGED Viewed

@@ -661,7 +661,9 @@ class OpenELMModel(OpenELMPreTrainedModel):
         past_seen_tokens = 0
         if use_cache:  # kept for BC (cache positions)
-            if not isinstance(past_key_values, StaticCache):
                 past_key_values = DynamicCache.from_legacy_cache(past_key_values)
             past_seen_tokens = past_key_values.get_seq_length()
@@ -920,8 +922,8 @@ class OpenELMForCausalLM(OpenELMPreTrainedModel):
         if past_key_values is not None:
             if isinstance(past_key_values, Cache):
                 cache_length = past_key_values.get_seq_length()
-                past_length = past_key_values.seen_tokens
-                max_cache_length = past_key_values.get_max_length()
             else:
                 cache_length = past_length = past_key_values[0][0].shape[2]
                 max_cache_length = None

         past_seen_tokens = 0
         if use_cache:  # kept for BC (cache positions)
+            if past_key_values is None:
+                past_key_values = DynamicCache()
+            elif not isinstance(past_key_values, (StaticCache, DynamicCache)):
                 past_key_values = DynamicCache.from_legacy_cache(past_key_values)
             past_seen_tokens = past_key_values.get_seq_length()
         if past_key_values is not None:
             if isinstance(past_key_values, Cache):
                 cache_length = past_key_values.get_seq_length()
+                past_length = cache_length
+                max_cache_length = getattr(past_key_values, 'get_max_length', lambda: None)()
             else:
                 cache_length = past_length = past_key_values[0][0].shape[2]
                 max_cache_length = None

test_proj/.gitignore ADDED Viewed

+# Python-generated files
+__pycache__/
+*.py[oc]
+build/
+dist/
+wheels/
+*.egg-info
+# Virtual environments
+.venv

test_proj/.python-version ADDED Viewed

	@@ -0,0 +1 @@


1	+ 3.12

test_proj/README.md ADDED Viewed

File without changes

test_proj/main.py ADDED Viewed

+from transformers import AutoModelForCausalLM, AutoTokenizer
+model = AutoModelForCausalLM.from_pretrained(
+    "Sharjeelbaig/apple-open_elm_4bit",
+    trust_remote_code=True,
+)
+tokenizer = AutoTokenizer.from_pretrained(
+    "NousResearch/Llama-2-7b-chat-hf",
+    use_fast=False
+)
+prompt = "Hello, how are you?"
+inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(
+    **inputs,
+    max_new_tokens=50,
+    do_sample=True,
+    temperature=0.7,
+)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))

test_proj/pyproject.toml ADDED Viewed

+[project]
+name = "test-proj"
+version = "0.1.0"
+description = "Add your description here"
+readme = "README.md"
+requires-python = ">=3.12"
+dependencies = [
+    "accelerate>=1.12.0",
+    "bitsandbytes>=0.49.0",
+    "protobuf>=6.33.2",
+    "sentencepiece>=0.2.1",
+    "torch>=2.9.1",
+    "transformers>=4.57.3",
+]

test_proj/uv.lock ADDED Viewed

The diff for this file is too large to render. See raw diff