DeepXR
/

Helion-OSC

+{
+  "_name_or_path": "DeepXR/Helion-OSC",
+  "architectures": [
+    "HelionOSCForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "hidden_act": "swiglu",
+  "hidden_size": 8192,
+  "initializer_range": 0.02,
+  "intermediate_size": 28672,
+  "max_position_embeddings": 32768,
+  "model_type": "helion-osc",
+  "num_attention_heads": 64,
+  "num_hidden_layers": 80,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-5,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0",
+  "use_cache": true,
+  "vocab_size": 128256,
+  "sliding_window": null,
+  "mlp_bias": false,
+  "head_dim": 128,
+  "quantization_config": null,
+  "gradient_checkpointing": false,
+  "use_flash_attention_2": true,
+  "attn_implementation": "flash_attention_2",
+  "rope_interleaved": false,
+  "output_attentions": false,
+  "output_hidden_states": false,
+  "use_return_dict": true,
+  "torchscript": false,
+  "use_bfloat16": true,
+  "tf_legacy_loss": false,
+  "pruned_heads": {},
+  "chunk_size_feed_forward": 0,
+  "is_encoder_decoder": false,
+  "is_decoder": false,
+  "cross_attention_hidden_size": null,
+  "add_cross_attention": false,
+  "tie_encoder_decoder": false,
+  "max_length": 32768,
+  "min_length": 0,
+  "do_sample": false,
+  "early_stopping": false,
+  "num_beams": 1,
+  "num_beam_groups": 1,
+  "diversity_penalty": 0.0,
+  "temperature": 0.7,
+  "top_k": 50,
+  "top_p": 0.95,
+  "typical_p": 1.0,
+  "repetition_penalty": 1.05,
+  "length_penalty": 1.0,
+  "no_repeat_ngram_size": 3,
+  "encoder_no_repeat_ngram_size": 0,
+  "bad_words_ids": null,
+  "num_return_sequences": 1,
+  "output_scores": false,
+  "return_dict_in_generate": false,
+  "forced_bos_token_id": null,
+  "forced_eos_token_id": null,
+  "remove_invalid_values": false,
+  "exponential_decay_length_penalty": null,
+  "suppress_tokens": null,
+  "begin_suppress_tokens": null,
+  "architectures_info": {
+    "model_description": "Helion-OSC is a large-scale transformer model optimized for code generation and mathematical reasoning",
+    "total_parameters": "405B",
+    "active_parameters": "37B",
+    "num_experts": 160,
+    "experts_per_token": 6,
+    "shared_expert_intermediate_size": 14336,
+    "moe_intermediate_size": 4096,
+    "routed_scaling_factor": 1.0,
+    "scoring_func": "softmax",
+    "aux_loss_alpha": 0.001,
+    "seq_aux": true,
+    "topk_method": "gready",
+    "n_group": 1,
+    "topk_group": 3,
+    "num_shared_experts": 2,
+    "norm_topk_prob": false,
+    "route_scale": 1.0,
+    "moe_layer_freq": 1,
+    "first_k_dense_replace": 1,
+    "architecture_type": "MoE-Transformer"
+  },
+  "safetensors_configuration": {
+    "total_shards": 116,
+    "shard_size_gb": 2.8,
+    "total_size_gb": 324.8,
+    "weight_map_file": "model.safetensors.index.json",
+    "shard_pattern": "model-{:05d}-of-{:05d}.safetensors",
+    "max_shard_size": "3GB",
+    "metadata_included": true
+  }
+}