gary2oos
/

cs-net

gary2oos commited on Apr 16

Commit

a10cd7b

verified ·

1 Parent(s): 96476bc

Update model2_win.yaml

Files changed (1) hide show

model2_win.yaml CHANGED Viewed

@@ -1,48 +1,32 @@
-# Model configuration
 model:
-  model_name: "model2"  # Name of the model architecture to use
-  vocab_size: 979  # Vocabulary size for token embeddings
-  embed_dim: 640     # Embedding dimension
-  num_heads: 10     # Number of attention heads
-  dropout: 0.1       # Dropout rate
   tick_num_layers: 8
   temporal_num_layers: 8
   pad_token_id: 978
   num_cond: 0
   cond_vocab_size: 0
-  n_logits: 1 # Number of logits to predict (e.g., 1 for win rate prediction)
-  pretrained_path: 'checkpoints_pretraining_v2/final.pth'
 pretrain:
-  model_name: "TickTransformerModelROPE"
-  vocab_size: 979  # Vocabulary size for token embeddings
-  embed_dim: 640     # Embedding dimension
-  seq_len: 512       # Sequence length per tick
-  dropout: 0.1       # Dropout rate
-  # Embedder (non-causal transformer encoder)
   embedder_heads: 10
   embedder_layers: 6
-  # Processor (GPT-style causal transformer for next token prediction)
   processor_heads: 10
   processor_layers: 8
-  # Decoder (non-causal transformer to decode embeddings to sequences)
   decoder_heads: 10
   decoder_layers: 6
 data:
   tick_seq_len: 512
   temporal_seq_len: 32
   num_workers: 4
 training:
   batch_size: 32
   grad_accum_steps: 1
@@ -51,9 +35,20 @@ training:
   num_epochs: 22
   warmup_steps: 4500
   max_grad_norm: 1.0
-  checkpoint_dir: 'model2_win_ckpts'
 logging:
-  project_name: 'model2_win'
-  test: 1024

 model:
+  model_name: model2
+  vocab_size: 979
+  embed_dim: 640
+  num_heads: 10
+  dropout: 0.1
   tick_num_layers: 8
   temporal_num_layers: 8
   pad_token_id: 978
   num_cond: 0
   cond_vocab_size: 0
+  n_logits: 1
+  pretrained_path: checkpoints_pretraining_v2/final.pth
 pretrain:
+  model_name: TickTransformerModelROPE
+  vocab_size: 979
+  embed_dim: 640
+  seq_len: 512
+  dropout: 0.1
   embedder_heads: 10
   embedder_layers: 6
   processor_heads: 10
   processor_layers: 8
   decoder_heads: 10
   decoder_layers: 6
 data:
   tick_seq_len: 512
   temporal_seq_len: 32
   num_workers: 4
 training:
   batch_size: 32
   grad_accum_steps: 1
   num_epochs: 22
   warmup_steps: 4500
   max_grad_norm: 1.0
+  checkpoint_dir: model2_win_ckpts
 logging:
+  project_name: model2_win
+  test: 1024
+calibration:
+  temperature_scaling:
+    task: win
+    checkpoint: /share/guwanjun-local/cs2-demo-analytics/model2_win_ckpts/latest_model.pt
+    num_samples: 2000
+    ece_bins: 15
+    loss_before: 0.4216673672199249
+    loss_after: 0.4213024973869324
+    ece_before: 0.014014186337590218
+    ece_after: 0.015347685664892197
+    temperature: 0.9367762207984924
+    bias: -0.0017134372610598803
+    updated_at: '2026-04-16T20:09:45'