gary2oos
/

cs-net

gary2oos commited on about 1 month ago

Commit

6e052ab

verified ·

1 Parent(s): a10cd7b

Upload model2_win.yaml

Files changed (1) hide show

model2_win.yaml CHANGED Viewed

@@ -1,32 +1,48 @@
 model:
-  model_name: model2
-  vocab_size: 979
-  embed_dim: 640
-  num_heads: 10
-  dropout: 0.1
   tick_num_layers: 8
   temporal_num_layers: 8
   pad_token_id: 978
   num_cond: 0
   cond_vocab_size: 0
-  n_logits: 1
-  pretrained_path: checkpoints_pretraining_v2/final.pth
 pretrain:
-  model_name: TickTransformerModelROPE
-  vocab_size: 979
-  embed_dim: 640
-  seq_len: 512
-  dropout: 0.1
   embedder_heads: 10
   embedder_layers: 6
   processor_heads: 10
   processor_layers: 8
   decoder_heads: 10
   decoder_layers: 6
 data:
   tick_seq_len: 512
   temporal_seq_len: 32
   num_workers: 4
 training:
   batch_size: 32
   grad_accum_steps: 1
@@ -35,20 +51,9 @@ training:
   num_epochs: 22
   warmup_steps: 4500
   max_grad_norm: 1.0
-  checkpoint_dir: model2_win_ckpts
 logging:
-  project_name: model2_win
-  test: 1024
-calibration:
-  temperature_scaling:
-    task: win
-    checkpoint: /share/guwanjun-local/cs2-demo-analytics/model2_win_ckpts/latest_model.pt
-    num_samples: 2000
-    ece_bins: 15
-    loss_before: 0.4216673672199249
-    loss_after: 0.4213024973869324
-    ece_before: 0.014014186337590218
-    ece_after: 0.015347685664892197
-    temperature: 0.9367762207984924
-    bias: -0.0017134372610598803
-    updated_at: '2026-04-16T20:09:45'

+# Model configuration
 model:
+  model_name: "model2"  # Name of the model architecture to use
+  vocab_size: 979  # Vocabulary size for token embeddings
+  embed_dim: 640     # Embedding dimension
+  num_heads: 10     # Number of attention heads
+  dropout: 0.1       # Dropout rate
   tick_num_layers: 8
   temporal_num_layers: 8
   pad_token_id: 978
   num_cond: 0
   cond_vocab_size: 0
+  n_logits: 1 # Number of logits to predict (e.g., 1 for win rate prediction)
+  pretrained_path: 'checkpoints_pretraining_v2/final.pth'
 pretrain:
+  model_name: "TickTransformerModelROPE"
+  vocab_size: 979  # Vocabulary size for token embeddings
+  embed_dim: 640     # Embedding dimension
+  seq_len: 512       # Sequence length per tick
+  dropout: 0.1       # Dropout rate
+  # Embedder (non-causal transformer encoder)
   embedder_heads: 10
   embedder_layers: 6
+  # Processor (GPT-style causal transformer for next token prediction)
   processor_heads: 10
   processor_layers: 8
+  # Decoder (non-causal transformer to decode embeddings to sequences)
   decoder_heads: 10
   decoder_layers: 6
 data:
   tick_seq_len: 512
   temporal_seq_len: 32
   num_workers: 4
 training:
   batch_size: 32
   grad_accum_steps: 1
   num_epochs: 22
   warmup_steps: 4500
   max_grad_norm: 1.0
+  checkpoint_dir: 'model2_win_ckpts'
 logging:
+  project_name: 'model2_win'
+  test: 1024