LoganResearch
/

ARC-Base-8B-Condensed

@@ -55,16 +55,16 @@ DATA_DIR = os.path.join(ROOT, "data")
 SCRIPT_DIR = os.path.join(ROOT, "scripts")
 RUN_DIR = os.path.join(ROOT, "runs")
 LHT_DIR = os.path.join(ROOT, "lht")
-CHECKPOINTS_DIR = os.path.join(ROOT, "dense_checkpoints_v2")
 TRAINING_DIR = os.path.join(ROOT, "condensator_output")
 LOGS_DIR = os.path.join(ROOT, "improvement_logs")
 ROLLBACK_DIR = os.path.join(ROOT, "rollback_checkpoints")
 # Model paths
-MODEL_PATH = "/mnt/nvme2/ubermesnchetien4/models/merged-final-v5"
-DENSE_CHECKPOINT = os.path.join(ROOT, "dense_checkpoints_v2/step_100")
-CFHOT_CHECKPOINT = os.path.join(ROOT, "results/cfhot_risk_v2/ckpt_5000")
-MULTI_HEAD_DIR = os.path.join(ROOT, "results/multi_head_v2")
 for path in [DATA_DIR, SCRIPT_DIR, RUN_DIR, LHT_DIR, LOGS_DIR, ROLLBACK_DIR]:
     os.makedirs(path, exist_ok=True)
@@ -853,7 +853,7 @@ def load_llm(checkpoint_path: str = None):
     print(f"[llm] Loading base model: {MODEL_PATH}")
-    _tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, use_fast=True, local_files_only=True)
     if _tokenizer.pad_token_id is None:
         _tokenizer.pad_token = _tokenizer.eos_token
@@ -869,7 +869,7 @@ def load_llm(checkpoint_path: str = None):
         quantization_config=bnb_config,
         device_map="auto",
         torch_dtype=torch.bfloat16,
-        local_files_only=True
     )
     # Load DENSE checkpoint
@@ -1333,7 +1333,7 @@ print("Loading model for CONSERVATIVE training...")
 MODEL_PATH = "{MODEL_PATH}"
 CHECKPOINT = "{current_ckpt}"
-tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, local_files_only=True)
 tokenizer.pad_token = tokenizer.eos_token
 model = AutoModelForCausalLM.from_pretrained(
@@ -1345,7 +1345,7 @@ model = AutoModelForCausalLM.from_pretrained(
     ),
     device_map="auto",
     torch_dtype=torch.bfloat16,
-    local_files_only=True
 )
 if os.path.exists(CHECKPOINT):

 SCRIPT_DIR = os.path.join(ROOT, "scripts")
 RUN_DIR = os.path.join(ROOT, "runs")
 LHT_DIR = os.path.join(ROOT, "lht")
+CHECKPOINTS_DIR = os.path.join(ROOT, "dense_checkpoints")
 TRAINING_DIR = os.path.join(ROOT, "condensator_output")
 LOGS_DIR = os.path.join(ROOT, "improvement_logs")
 ROLLBACK_DIR = os.path.join(ROOT, "rollback_checkpoints")
 # Model paths
+MODEL_PATH = "NousResearch/Hermes-3-Llama-3.1-8B"
+DENSE_CHECKPOINT = os.path.join(ROOT, "dense_checkpoints/step_100")
+CFHOT_CHECKPOINT = os.path.join(ROOT, "cfhot_checkpoints/ckpt_5000")
+MULTI_HEAD_DIR = os.path.join(ROOT, "multi_head_checkpoints")
 for path in [DATA_DIR, SCRIPT_DIR, RUN_DIR, LHT_DIR, LOGS_DIR, ROLLBACK_DIR]:
     os.makedirs(path, exist_ok=True)
     print(f"[llm] Loading base model: {MODEL_PATH}")
+    _tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, use_fast=True, local_files_only=False)
     if _tokenizer.pad_token_id is None:
         _tokenizer.pad_token = _tokenizer.eos_token
         quantization_config=bnb_config,
         device_map="auto",
         torch_dtype=torch.bfloat16,
+        local_files_only=False
     )
     # Load DENSE checkpoint
 MODEL_PATH = "{MODEL_PATH}"
 CHECKPOINT = "{current_ckpt}"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, local_files_only=False)
 tokenizer.pad_token = tokenizer.eos_token
 model = AutoModelForCausalLM.from_pretrained(
     ),
     device_map="auto",
     torch_dtype=torch.bfloat16,
+    local_files_only=False
 )
 if os.path.exists(CHECKPOINT):