sathishphdai
/

cybersecurity-slm-1m

Text Generation

cybersecurity-slm

threat-intelligence

Model card Files Files and versions

sathishphdai commited on Mar 1

Commit

0124078

·

verified ·

1 Parent(s): 89c82e6

Upload Cybersecurity-SLM v2

Files changed (1) hide show

config.py +3 -3

config.py CHANGED Viewed

@@ -29,8 +29,8 @@ class SLMConfig:
     dropout: float = 0.1
     bias: bool = False
     ffn_multiplier: float = 2.667
-    max_position_embeddings: int = 1_000_000
-    rope_theta: float = 500000.0
     sliding_window: Optional[int] = None
     batch_size: int = 4
@@ -46,7 +46,7 @@ class SLMConfig:
     log_interval: int = 10
     device: str = "auto"
-    max_new_tokens: int = 1024
     temperature: float = 0.8
     top_k: int = 50
     top_p: float = 0.9

     dropout: float = 0.1
     bias: bool = False
     ffn_multiplier: float = 2.667
+    max_position_embeddings: int = 100_000_000_000  # 100B tokens via RoPE
+    rope_theta: float = 50_000_000_000.0  # Scaled for 100B context
     sliding_window: Optional[int] = None
     batch_size: int = 4
     log_interval: int = 10
     device: str = "auto"
+    max_new_tokens: int = 1_000_000  # 1M output tokens
     temperature: float = 0.8
     top_k: int = 50
     top_p: float = 0.9