JonWen commited on Oct 8, 2025

Commit

4b3e037

verified ·

1 Parent(s): 011259f

Upload google/gemma-3-270m-it-mmlu_pro/checkpoint-39500

Browse files

Files changed (21) hide show

.gitattributes +1 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/added_tokens.json +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/chat_template.jinja +47 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/config.json +55 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/model.safetensors +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/optimizer.pt +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_0.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_1.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_2.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_3.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_4.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_5.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_6.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_7.pth +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/scheduler.pt +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/special_tokens_map.json +33 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/tokenizer.json +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/tokenizer.model +3 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/tokenizer_config.json +0 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/trainer_state.json +1094 -0
google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -36,3 +36,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-1000/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-1000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/tokenizer.json filter=lfs diff=lfs merge=lfs -text

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3TextForSequenceClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 640,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 512,
+  "transformers_version": "4.57.0",
+  "use_bidirectional_attention": false,
+  "use_cache": true,
+  "vocab_size": 262144
+}

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:461d2b9411e96d9dafc990f32533120ea3b8bbba0640a14bb70c32f6fe676be7
+size 536225696

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a57fbc99f48442fb93536edd9ed816c803b98b8d8753d048ed3d51e7c9f9ac51
+size 1072600395

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc8125017ac64aaaf6b7b4d9fec3c97b36247e6f90303f4f65e7da22752a6021
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e6feb4e71a30bbd30fb817d57cf38086ff8afd570f5fb462a4d672dc5b9c7f4
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a783a95b392b2b425b72256e899035dee284c9de0ad7d762036e94693dc4f06
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84676a652b2e127a0f26e9e98aa79f894b6a28b744b6c6af7db9b1981b7e8118
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e404f18b3aced4d62989184b5ba490b18f3cfd416c392cac83f54a7cd7234908
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e808e76e90d6a465ee4ea62c07518ee045190927828be150142f6f13cb63efa
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b4ff2843553f32d6779fa593223bb2bc6507b59dc0801501e96de5709554f0b
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a00cbd0fa2276ef03d7e54235bff23ff65e5559b2a4d871c31f6ccca7fc9a594
+size 16389

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3494c805e517ad939ba54ad38ea90f5051d6f814cec2a5b0f1d515ca634f2d50
+size 1465

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1094 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5034989993754063,
+  "eval_steps": 1000,
+  "global_step": 39500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00637340505538489,
+      "grad_norm": 280.0,
+      "learning_rate": 6.359928626051491e-06,
+      "loss": 5.4594,
+      "step": 500
+    },
+    {
+      "epoch": 0.01274681011076978,
+      "grad_norm": 100.0,
+      "learning_rate": 1.2732602600050984e-05,
+      "loss": 4.709,
+      "step": 1000
+    },
+    {
+      "epoch": 0.01274681011076978,
+      "eval_accuracy": 0.7175561479002666,
+      "eval_auc": 0.7208985686302185,
+      "eval_f1": 0.6381847876292697,
+      "eval_loss": 4.532001972198486,
+      "eval_precision": 0.6933309621576436,
+      "eval_recall": 0.6326105710782597,
+      "eval_runtime": 236.3818,
+      "eval_samples_per_second": 1901.322,
+      "eval_steps_per_second": 3.714,
+      "step": 1000
+    },
+    {
+      "epoch": 0.01912021516615467,
+      "grad_norm": 368.0,
+      "learning_rate": 1.9105276574050474e-05,
+      "loss": 4.5852,
+      "step": 1500
+    },
+    {
+      "epoch": 0.02549362022153956,
+      "grad_norm": 170.0,
+      "learning_rate": 2.547795054804996e-05,
+      "loss": 4.2857,
+      "step": 2000
+    },
+    {
+      "epoch": 0.02549362022153956,
+      "eval_accuracy": 0.7647461941357874,
+      "eval_auc": 0.7973974347114563,
+      "eval_f1": 0.701763515452194,
+      "eval_loss": 4.041171550750732,
+      "eval_precision": 0.7651343630299938,
+      "eval_recall": 0.6882129391743368,
+      "eval_runtime": 235.9253,
+      "eval_samples_per_second": 1905.002,
+      "eval_steps_per_second": 3.722,
+      "step": 2000
+    },
+    {
+      "epoch": 0.03186702527692445,
+      "grad_norm": 109.0,
+      "learning_rate": 3.1850624522049453e-05,
+      "loss": 3.8736,
+      "step": 2500
+    },
+    {
+      "epoch": 0.03824043033230934,
+      "grad_norm": 44.5,
+      "learning_rate": 3.822329849604894e-05,
+      "loss": 3.6724,
+      "step": 3000
+    },
+    {
+      "epoch": 0.03824043033230934,
+      "eval_accuracy": 0.8030896363903364,
+      "eval_auc": 0.8465206623077393,
+      "eval_f1": 0.7667088375827027,
+      "eval_loss": 3.5329034328460693,
+      "eval_precision": 0.793541421184558,
+      "eval_recall": 0.7536982564982242,
+      "eval_runtime": 235.8325,
+      "eval_samples_per_second": 1905.751,
+      "eval_steps_per_second": 3.723,
+      "step": 3000
+    },
+    {
+      "epoch": 0.04461383538769423,
+      "grad_norm": 36.0,
+      "learning_rate": 4.459597247004843e-05,
+      "loss": 3.5882,
+      "step": 3500
+    },
+    {
+      "epoch": 0.05098724044307912,
+      "grad_norm": 37.75,
+      "learning_rate": 5.0968646444047927e-05,
+      "loss": 3.5063,
+      "step": 4000
+    },
+    {
+      "epoch": 0.05098724044307912,
+      "eval_accuracy": 0.8067920380564171,
+      "eval_auc": 0.8545748591423035,
+      "eval_f1": 0.7629704100530446,
+      "eval_loss": 3.482598304748535,
+      "eval_precision": 0.8125964117429191,
+      "eval_recall": 0.7454246487633156,
+      "eval_runtime": 235.9569,
+      "eval_samples_per_second": 1904.746,
+      "eval_steps_per_second": 3.721,
+      "step": 4000
+    },
+    {
+      "epoch": 0.05736064549846401,
+      "grad_norm": 66.0,
+      "learning_rate": 5.734132041804742e-05,
+      "loss": 3.4417,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0637340505538489,
+      "grad_norm": 48.0,
+      "learning_rate": 6.37139943920469e-05,
+      "loss": 3.3849,
+      "step": 5000
+    },
+    {
+      "epoch": 0.0637340505538489,
+      "eval_accuracy": 0.8106501897925854,
+      "eval_auc": 0.8611223697662354,
+      "eval_f1": 0.7847092912487569,
+      "eval_loss": 3.420646905899048,
+      "eval_precision": 0.7922936032572139,
+      "eval_recall": 0.778987144356641,
+      "eval_runtime": 236.031,
+      "eval_samples_per_second": 1904.148,
+      "eval_steps_per_second": 3.72,
+      "step": 5000
+    },
+    {
+      "epoch": 0.07010745560923379,
+      "grad_norm": 23.5,
+      "learning_rate": 7.008666836604639e-05,
+      "loss": 3.3603,
+      "step": 5500
+    },
+    {
+      "epoch": 0.07648086066461868,
+      "grad_norm": 27.75,
+      "learning_rate": 7.645934234004589e-05,
+      "loss": 3.344,
+      "step": 6000
+    },
+    {
+      "epoch": 0.07648086066461868,
+      "eval_accuracy": 0.8188337434751846,
+      "eval_auc": 0.8691284656524658,
+      "eval_f1": 0.7824235286935783,
+      "eval_loss": 3.3333048820495605,
+      "eval_precision": 0.8193413944376746,
+      "eval_recall": 0.7662003507186271,
+      "eval_runtime": 235.9449,
+      "eval_samples_per_second": 1904.843,
+      "eval_steps_per_second": 3.721,
+      "step": 6000
+    },
+    {
+      "epoch": 0.08285426572000357,
+      "grad_norm": 20.5,
+      "learning_rate": 8.283201631404538e-05,
+      "loss": 3.2919,
+      "step": 6500
+    },
+    {
+      "epoch": 0.08922767077538846,
+      "grad_norm": 17.25,
+      "learning_rate": 8.920469028804487e-05,
+      "loss": 3.27,
+      "step": 7000
+    },
+    {
+      "epoch": 0.08922767077538846,
+      "eval_accuracy": 0.8203645441640449,
+      "eval_auc": 0.870448887348175,
+      "eval_f1": 0.7899083336048272,
+      "eval_loss": 3.292984962463379,
+      "eval_precision": 0.8111738927346904,
+      "eval_recall": 0.7779126528172351,
+      "eval_runtime": 235.9365,
+      "eval_samples_per_second": 1904.911,
+      "eval_steps_per_second": 3.721,
+      "step": 7000
+    },
+    {
+      "epoch": 0.09560107583077335,
+      "grad_norm": 35.5,
+      "learning_rate": 9.557736426204435e-05,
+      "loss": 3.2578,
+      "step": 7500
+    },
+    {
+      "epoch": 0.10197448088615824,
+      "grad_norm": 22.75,
+      "learning_rate": 0.0001,
+      "loss": 3.2406,
+      "step": 8000
+    },
+    {
+      "epoch": 0.10197448088615824,
+      "eval_accuracy": 0.8261206217542798,
+      "eval_auc": 0.8779715895652771,
+      "eval_f1": 0.7968208595461465,
+      "eval_loss": 3.1795294284820557,
+      "eval_precision": 0.8180364024794908,
+      "eval_recall": 0.7846676093864756,
+      "eval_runtime": 235.8958,
+      "eval_samples_per_second": 1905.239,
+      "eval_steps_per_second": 3.722,
+      "step": 8000
+    },
+    {
+      "epoch": 0.10834788594154313,
+      "grad_norm": 26.25,
+      "learning_rate": 0.0001,
+      "loss": 3.2028,
+      "step": 8500
+    },
+    {
+      "epoch": 0.11472129099692802,
+      "grad_norm": 14.625,
+      "learning_rate": 0.0001,
+      "loss": 3.1689,
+      "step": 9000
+    },
+    {
+      "epoch": 0.11472129099692802,
+      "eval_accuracy": 0.8285325228396353,
+      "eval_auc": 0.8811337947845459,
+      "eval_f1": 0.8013452045114392,
+      "eval_loss": 3.1494317054748535,
+      "eval_precision": 0.8182039479298111,
+      "eval_recall": 0.7908135604045534,
+      "eval_runtime": 235.9141,
+      "eval_samples_per_second": 1905.092,
+      "eval_steps_per_second": 3.722,
+      "step": 9000
+    },
+    {
+      "epoch": 0.1210946960523129,
+      "grad_norm": 13.4375,
+      "learning_rate": 0.0001,
+      "loss": 3.1133,
+      "step": 9500
+    },
+    {
+      "epoch": 0.1274681011076978,
+      "grad_norm": 36.0,
+      "learning_rate": 0.0001,
+      "loss": 3.0911,
+      "step": 10000
+    },
+    {
+      "epoch": 0.1274681011076978,
+      "eval_accuracy": 0.8282343727054677,
+      "eval_auc": 0.8881419897079468,
+      "eval_f1": 0.8074358690960415,
+      "eval_loss": 3.1354596614837646,
+      "eval_precision": 0.8100602141990728,
+      "eval_recall": 0.8050712691013812,
+      "eval_runtime": 235.8981,
+      "eval_samples_per_second": 1905.221,
+      "eval_steps_per_second": 3.722,
+      "step": 10000
+    },
+    {
+      "epoch": 0.13384150616308269,
+      "grad_norm": 14.75,
+      "learning_rate": 0.0001,
+      "loss": 3.0308,
+      "step": 10500
+    },
+    {
+      "epoch": 0.14021491121846757,
+      "grad_norm": 12.75,
+      "learning_rate": 0.0001,
+      "loss": 3.015,
+      "step": 11000
+    },
+    {
+      "epoch": 0.14021491121846757,
+      "eval_accuracy": 0.8361620512729231,
+      "eval_auc": 0.8948841691017151,
+      "eval_f1": 0.8145356177908325,
+      "eval_loss": 3.019545555114746,
+      "eval_precision": 0.8209786628512243,
+      "eval_recall": 0.8093553565236841,
+      "eval_runtime": 235.8842,
+      "eval_samples_per_second": 1905.333,
+      "eval_steps_per_second": 3.722,
+      "step": 11000
+    },
+    {
+      "epoch": 0.14658831627385246,
+      "grad_norm": 20.25,
+      "learning_rate": 0.0001,
+      "loss": 2.9743,
+      "step": 11500
+    },
+    {
+      "epoch": 0.15296172132923735,
+      "grad_norm": 12.3125,
+      "learning_rate": 0.0001,
+      "loss": 2.9401,
+      "step": 12000
+    },
+    {
+      "epoch": 0.15296172132923735,
+      "eval_accuracy": 0.8361954262879419,
+      "eval_auc": 0.8988780379295349,
+      "eval_f1": 0.8173352478602913,
+      "eval_loss": 3.0004172325134277,
+      "eval_precision": 0.8181878263931783,
+      "eval_recall": 0.8165118432863682,
+      "eval_runtime": 235.9073,
+      "eval_samples_per_second": 1905.147,
+      "eval_steps_per_second": 3.722,
+      "step": 12000
+    },
+    {
+      "epoch": 0.15933512638462224,
+      "grad_norm": 15.25,
+      "learning_rate": 0.0001,
+      "loss": 2.908,
+      "step": 12500
+    },
+    {
+      "epoch": 0.16570853144000713,
+      "grad_norm": 13.875,
+      "learning_rate": 0.0001,
+      "loss": 2.8787,
+      "step": 13000
+    },
+    {
+      "epoch": 0.16570853144000713,
+      "eval_accuracy": 0.8437960297082133,
+      "eval_auc": 0.9022700190544128,
+      "eval_f1": 0.8193442741933041,
+      "eval_loss": 2.874938726425171,
+      "eval_precision": 0.8361642928355996,
+      "eval_recall": 0.8085115166264416,
+      "eval_runtime": 235.9543,
+      "eval_samples_per_second": 1904.767,
+      "eval_steps_per_second": 3.721,
+      "step": 13000
+    },
+    {
+      "epoch": 0.17208193649539202,
+      "grad_norm": 16.375,
+      "learning_rate": 0.0001,
+      "loss": 2.8756,
+      "step": 13500
+    },
+    {
+      "epoch": 0.1784553415507769,
+      "grad_norm": 12.125,
+      "learning_rate": 0.0001,
+      "loss": 2.8368,
+      "step": 14000
+    },
+    {
+      "epoch": 0.1784553415507769,
+      "eval_accuracy": 0.8476319314343691,
+      "eval_auc": 0.9060380458831787,
+      "eval_f1": 0.8228087161610238,
+      "eval_loss": 2.818519353866577,
+      "eval_precision": 0.8428622503963941,
+      "eval_recall": 0.8105203055669887,
+      "eval_runtime": 235.8665,
+      "eval_samples_per_second": 1905.476,
+      "eval_steps_per_second": 3.722,
+      "step": 14000
+    },
+    {
+      "epoch": 0.1848287466061618,
+      "grad_norm": 17.625,
+      "learning_rate": 0.0001,
+      "loss": 2.815,
+      "step": 14500
+    },
+    {
+      "epoch": 0.1912021516615467,
+      "grad_norm": 14.625,
+      "learning_rate": 0.0001,
+      "loss": 2.7892,
+      "step": 15000
+    },
+    {
+      "epoch": 0.1912021516615467,
+      "eval_accuracy": 0.8496433323394995,
+      "eval_auc": 0.9092991948127747,
+      "eval_f1": 0.8246497759245118,
+      "eval_loss": 2.790006637573242,
+      "eval_precision": 0.8464656761081797,
+      "eval_recall": 0.8116097713844176,
+      "eval_runtime": 235.9319,
+      "eval_samples_per_second": 1904.948,
+      "eval_steps_per_second": 3.721,
+      "step": 15000
+    },
+    {
+      "epoch": 0.19757555671693158,
+      "grad_norm": 13.875,
+      "learning_rate": 0.0001,
+      "loss": 2.7762,
+      "step": 15500
+    },
+    {
+      "epoch": 0.20394896177231647,
+      "grad_norm": 14.1875,
+      "learning_rate": 0.0001,
+      "loss": 2.7388,
+      "step": 16000
+    },
+    {
+      "epoch": 0.20394896177231647,
+      "eval_accuracy": 0.8512942830824274,
+      "eval_auc": 0.9118760228157043,
+      "eval_f1": 0.8312896382532227,
+      "eval_loss": 2.753647565841675,
+      "eval_precision": 0.8390426673615496,
+      "eval_recall": 0.8251724666807414,
+      "eval_runtime": 235.9135,
+      "eval_samples_per_second": 1905.096,
+      "eval_steps_per_second": 3.722,
+      "step": 16000
+    },
+    {
+      "epoch": 0.21032236682770136,
+      "grad_norm": 14.4375,
+      "learning_rate": 0.0001,
+      "loss": 2.739,
+      "step": 16500
+    },
+    {
+      "epoch": 0.21669577188308625,
+      "grad_norm": 19.25,
+      "learning_rate": 0.0001,
+      "loss": 2.7192,
+      "step": 17000
+    },
+    {
+      "epoch": 0.21669577188308625,
+      "eval_accuracy": 0.854524984536243,
+      "eval_auc": 0.9146767854690552,
+      "eval_f1": 0.8303229470241833,
+      "eval_loss": 2.7026894092559814,
+      "eval_precision": 0.8525518966758392,
+      "eval_recall": 0.8169920703438669,
+      "eval_runtime": 235.9956,
+      "eval_samples_per_second": 1904.434,
+      "eval_steps_per_second": 3.72,
+      "step": 17000
+    },
+    {
+      "epoch": 0.22306917693847114,
+      "grad_norm": 16.875,
+      "learning_rate": 0.0001,
+      "loss": 2.7023,
+      "step": 17500
+    },
+    {
+      "epoch": 0.22944258199385603,
+      "grad_norm": 13.125,
+      "learning_rate": 0.0001,
+      "loss": 2.6888,
+      "step": 18000
+    },
+    {
+      "epoch": 0.22944258199385603,
+      "eval_accuracy": 0.8558866851490083,
+      "eval_auc": 0.916471540927887,
+      "eval_f1": 0.8312201448847177,
+      "eval_loss": 2.6786839962005615,
+      "eval_precision": 0.8560204841421162,
+      "eval_recall": 0.8168747132432559,
+      "eval_runtime": 235.8807,
+      "eval_samples_per_second": 1905.361,
+      "eval_steps_per_second": 3.722,
+      "step": 18000
+    },
+    {
+      "epoch": 0.23581598704924092,
+      "grad_norm": 13.25,
+      "learning_rate": 0.0001,
+      "loss": 2.6453,
+      "step": 18500
+    },
+    {
+      "epoch": 0.2421893921046258,
+      "grad_norm": 17.75,
+      "learning_rate": 0.0001,
+      "loss": 2.6318,
+      "step": 19000
+    },
+    {
+      "epoch": 0.2421893921046258,
+      "eval_accuracy": 0.8580071111032,
+      "eval_auc": 0.9181417226791382,
+      "eval_f1": 0.8353620807604387,
+      "eval_loss": 2.646692991256714,
+      "eval_precision": 0.854392404869657,
+      "eval_recall": 0.8232679476079143,
+      "eval_runtime": 236.966,
+      "eval_samples_per_second": 1896.635,
+      "eval_steps_per_second": 3.705,
+      "step": 19000
+    },
+    {
+      "epoch": 0.2485627971600107,
+      "grad_norm": 11.5625,
+      "learning_rate": 0.0001,
+      "loss": 2.6293,
+      "step": 19500
+    },
+    {
+      "epoch": 0.2549362022153956,
+      "grad_norm": 12.875,
+      "learning_rate": 0.0001,
+      "loss": 2.6017,
+      "step": 20000
+    },
+    {
+      "epoch": 0.2549362022153956,
+      "eval_accuracy": 0.8599740119883054,
+      "eval_auc": 0.9203953146934509,
+      "eval_f1": 0.8392022322375958,
+      "eval_loss": 2.6171152591705322,
+      "eval_precision": 0.8530874017696329,
+      "eval_recall": 0.8295022195226356,
+      "eval_runtime": 235.9321,
+      "eval_samples_per_second": 1904.946,
+      "eval_steps_per_second": 3.721,
+      "step": 20000
+    },
+    {
+      "epoch": 0.2613096072707805,
+      "grad_norm": 17.625,
+      "learning_rate": 0.0001,
+      "loss": 2.6217,
+      "step": 20500
+    },
+    {
+      "epoch": 0.26768301232616537,
+      "grad_norm": 14.3125,
+      "learning_rate": 0.0001,
+      "loss": 2.5889,
+      "step": 21000
+    },
+    {
+      "epoch": 0.26768301232616537,
+      "eval_accuracy": 0.8611532625189682,
+      "eval_auc": 0.9224462509155273,
+      "eval_f1": 0.8408396987376525,
+      "eval_loss": 2.5873217582702637,
+      "eval_precision": 0.853855816993957,
+      "eval_recall": 0.8315778560709257,
+      "eval_runtime": 235.8945,
+      "eval_samples_per_second": 1905.25,
+      "eval_steps_per_second": 3.722,
+      "step": 21000
+    },
+    {
+      "epoch": 0.2740564173815503,
+      "grad_norm": 11.1875,
+      "learning_rate": 0.0001,
+      "loss": 2.5848,
+      "step": 21500
+    },
+    {
+      "epoch": 0.28042982243693515,
+      "grad_norm": 15.0625,
+      "learning_rate": 0.0001,
+      "loss": 2.5618,
+      "step": 22000
+    },
+    {
+      "epoch": 0.28042982243693515,
+      "eval_accuracy": 0.8609263124168406,
+      "eval_auc": 0.9236695170402527,
+      "eval_f1": 0.8428097613168799,
+      "eval_loss": 2.586594820022583,
+      "eval_precision": 0.8491212608075118,
+      "eval_recall": 0.8376013596126513,
+      "eval_runtime": 235.8797,
+      "eval_samples_per_second": 1905.37,
+      "eval_steps_per_second": 3.722,
+      "step": 22000
+    },
+    {
+      "epoch": 0.28680322749232007,
+      "grad_norm": 15.875,
+      "learning_rate": 0.0001,
+      "loss": 2.5587,
+      "step": 22500
+    },
+    {
+      "epoch": 0.29317663254770493,
+      "grad_norm": 16.0,
+      "learning_rate": 0.0001,
+      "loss": 2.5198,
+      "step": 23000
+    },
+    {
+      "epoch": 0.29317663254770493,
+      "eval_accuracy": 0.8641258638566387,
+      "eval_auc": 0.9258681535720825,
+      "eval_f1": 0.8433215002829988,
+      "eval_loss": 2.530731439590454,
+      "eval_precision": 0.8596180420798043,
+      "eval_recall": 0.8323607774926369,
+      "eval_runtime": 236.896,
+      "eval_samples_per_second": 1897.195,
+      "eval_steps_per_second": 3.706,
+      "step": 23000
+    },
+    {
+      "epoch": 0.29955003760308985,
+      "grad_norm": 16.125,
+      "learning_rate": 0.0001,
+      "loss": 2.5324,
+      "step": 23500
+    },
+    {
+      "epoch": 0.3059234426584747,
+      "grad_norm": 14.9375,
+      "learning_rate": 0.0001,
+      "loss": 2.522,
+      "step": 24000
+    },
+    {
+      "epoch": 0.3059234426584747,
+      "eval_accuracy": 0.8645819890618951,
+      "eval_auc": 0.9265353083610535,
+      "eval_f1": 0.8449232507125215,
+      "eval_loss": 2.515869379043579,
+      "eval_precision": 0.8575695182961542,
+      "eval_recall": 0.8358181801726667,
+      "eval_runtime": 235.8798,
+      "eval_samples_per_second": 1905.369,
+      "eval_steps_per_second": 3.722,
+      "step": 24000
+    },
+    {
+      "epoch": 0.3122968477138596,
+      "grad_norm": 13.75,
+      "learning_rate": 0.0001,
+      "loss": 2.498,
+      "step": 24500
+    },
+    {
+      "epoch": 0.3186702527692445,
+      "grad_norm": 16.25,
+      "learning_rate": 0.0001,
+      "loss": 2.486,
+      "step": 25000
+    },
+    {
+      "epoch": 0.3186702527692445,
+      "eval_accuracy": 0.8657857146035716,
+      "eval_auc": 0.9282439947128296,
+      "eval_f1": 0.8459563365344265,
+      "eval_loss": 2.492276191711426,
+      "eval_precision": 0.8598189954610617,
+      "eval_recall": 0.8361893429769411,
+      "eval_runtime": 235.8558,
+      "eval_samples_per_second": 1905.563,
+      "eval_steps_per_second": 3.723,
+      "step": 25000
+    },
+    {
+      "epoch": 0.3250436578246294,
+      "grad_norm": 15.6875,
+      "learning_rate": 0.0001,
+      "loss": 2.4922,
+      "step": 25500
+    },
+    {
+      "epoch": 0.33141706288001427,
+      "grad_norm": 14.875,
+      "learning_rate": 0.0001,
+      "loss": 2.4656,
+      "step": 26000
+    },
+    {
+      "epoch": 0.33141706288001427,
+      "eval_accuracy": 0.8665488899470005,
+      "eval_auc": 0.929278552532196,
+      "eval_f1": 0.8470851473256837,
+      "eval_loss": 2.4791793823242188,
+      "eval_precision": 0.8601149529519857,
+      "eval_recall": 0.8377495469299366,
+      "eval_runtime": 235.9794,
+      "eval_samples_per_second": 1904.565,
+      "eval_steps_per_second": 3.721,
+      "step": 26000
+    },
+    {
+      "epoch": 0.3377904679353992,
+      "grad_norm": 16.875,
+      "learning_rate": 0.0001,
+      "loss": 2.4566,
+      "step": 26500
+    },
+    {
+      "epoch": 0.34416387299078405,
+      "grad_norm": 14.875,
+      "learning_rate": 0.0001,
+      "loss": 2.4475,
+      "step": 27000
+    },
+    {
+      "epoch": 0.34416387299078405,
+      "eval_accuracy": 0.8678304905237207,
+      "eval_auc": 0.930943489074707,
+      "eval_f1": 0.847395770631417,
+      "eval_loss": 2.4564414024353027,
+      "eval_precision": 0.8646021959492661,
+      "eval_recall": 0.8359379618427593,
+      "eval_runtime": 235.96,
+      "eval_samples_per_second": 1904.721,
+      "eval_steps_per_second": 3.721,
+      "step": 27000
+    },
+    {
+      "epoch": 0.35053727804616897,
+      "grad_norm": 16.625,
+      "learning_rate": 0.0001,
+      "loss": 2.4558,
+      "step": 27500
+    },
+    {
+      "epoch": 0.3569106831015538,
+      "grad_norm": 12.6875,
+      "learning_rate": 0.0001,
+      "loss": 2.4269,
+      "step": 28000
+    },
+    {
+      "epoch": 0.3569106831015538,
+      "eval_accuracy": 0.8688740159933072,
+      "eval_auc": 0.931858241558075,
+      "eval_f1": 0.850913963051127,
+      "eval_loss": 2.438432216644287,
+      "eval_precision": 0.860130532609005,
+      "eval_recall": 0.8437573238621774,
+      "eval_runtime": 235.7882,
+      "eval_samples_per_second": 1906.109,
+      "eval_steps_per_second": 3.724,
+      "step": 28000
+    },
+    {
+      "epoch": 0.36328408815693874,
+      "grad_norm": 14.75,
+      "learning_rate": 0.0001,
+      "loss": 2.4417,
+      "step": 28500
+    },
+    {
+      "epoch": 0.3696574932123236,
+      "grad_norm": 14.625,
+      "learning_rate": 0.0001,
+      "loss": 2.4049,
+      "step": 29000
+    },
+    {
+      "epoch": 0.3696574932123236,
+      "eval_accuracy": 0.8687049159172122,
+      "eval_auc": 0.9325141310691833,
+      "eval_f1": 0.8503633017719338,
+      "eval_loss": 2.4242045879364014,
+      "eval_precision": 0.8607433942000131,
+      "eval_recall": 0.8425017750352706,
+      "eval_runtime": 235.9336,
+      "eval_samples_per_second": 1904.934,
+      "eval_steps_per_second": 3.721,
+      "step": 29000
+    },
+    {
+      "epoch": 0.3760308982677085,
+      "grad_norm": 13.5625,
+      "learning_rate": 0.0001,
+      "loss": 2.4041,
+      "step": 29500
+    },
+    {
+      "epoch": 0.3824043033230934,
+      "grad_norm": 16.75,
+      "learning_rate": 0.0001,
+      "loss": 2.4019,
+      "step": 30000
+    },
+    {
+      "epoch": 0.3824043033230934,
+      "eval_accuracy": 0.8692478161615173,
+      "eval_auc": 0.9345240592956543,
+      "eval_f1": 0.853530809841845,
+      "eval_loss": 2.423635959625244,
+      "eval_precision": 0.8562227161992152,
+      "eval_recall": 0.8510652656840554,
+      "eval_runtime": 235.9233,
+      "eval_samples_per_second": 1905.017,
+      "eval_steps_per_second": 3.722,
+      "step": 30000
+    },
+    {
+      "epoch": 0.3887777083784783,
+      "grad_norm": 18.5,
+      "learning_rate": 0.0001,
+      "loss": 2.3713,
+      "step": 30500
+    },
+    {
+      "epoch": 0.39515111343386317,
+      "grad_norm": 14.875,
+      "learning_rate": 0.0001,
+      "loss": 2.3798,
+      "step": 31000
+    },
+    {
+      "epoch": 0.39515111343386317,
+      "eval_accuracy": 0.8717932173069478,
+      "eval_auc": 0.9350019097328186,
+      "eval_f1": 0.8538149679524644,
+      "eval_loss": 2.3812272548675537,
+      "eval_precision": 0.8645258042401223,
+      "eval_recall": 0.8457306918961859,
+      "eval_runtime": 236.9275,
+      "eval_samples_per_second": 1896.943,
+      "eval_steps_per_second": 3.706,
+      "step": 31000
+    },
+    {
+      "epoch": 0.4015245184892481,
+      "grad_norm": 14.875,
+      "learning_rate": 0.0001,
+      "loss": 2.3885,
+      "step": 31500
+    },
+    {
+      "epoch": 0.40789792354463295,
+      "grad_norm": 14.9375,
+      "learning_rate": 0.0001,
+      "loss": 2.3697,
+      "step": 32000
+    },
+    {
+      "epoch": 0.40789792354463295,
+      "eval_accuracy": 0.8725185676333554,
+      "eval_auc": 0.9362517595291138,
+      "eval_f1": 0.8536967960754542,
+      "eval_loss": 2.366279363632202,
+      "eval_precision": 0.8677993339914021,
+      "eval_recall": 0.8437154760316758,
+      "eval_runtime": 235.8823,
+      "eval_samples_per_second": 1905.349,
+      "eval_steps_per_second": 3.722,
+      "step": 32000
+    },
+    {
+      "epoch": 0.41427132860001786,
+      "grad_norm": 15.3125,
+      "learning_rate": 0.0001,
+      "loss": 2.3609,
+      "step": 32500
+    },
+    {
+      "epoch": 0.4206447336554027,
+      "grad_norm": 14.6875,
+      "learning_rate": 0.0001,
+      "loss": 2.3457,
+      "step": 33000
+    },
+    {
+      "epoch": 0.4206447336554027,
+      "eval_accuracy": 0.8736199431289744,
+      "eval_auc": 0.937017023563385,
+      "eval_f1": 0.8555537856349047,
+      "eval_loss": 2.3477745056152344,
+      "eval_precision": 0.8675405385181937,
+      "eval_recall": 0.8467145886295767,
+      "eval_runtime": 236.0095,
+      "eval_samples_per_second": 1904.321,
+      "eval_steps_per_second": 3.72,
+      "step": 33000
+    },
+    {
+      "epoch": 0.42701813871078764,
+      "grad_norm": 15.9375,
+      "learning_rate": 0.0001,
+      "loss": 2.3372,
+      "step": 33500
+    },
+    {
+      "epoch": 0.4333915437661725,
+      "grad_norm": 15.125,
+      "learning_rate": 0.0001,
+      "loss": 2.3387,
+      "step": 34000
+    },
+    {
+      "epoch": 0.4333915437661725,
+      "eval_accuracy": 0.8744187184884233,
+      "eval_auc": 0.9379249811172485,
+      "eval_f1": 0.8563329267012663,
+      "eval_loss": 2.3327484130859375,
+      "eval_precision": 0.8688335161622546,
+      "eval_recall": 0.8471966069466921,
+      "eval_runtime": 235.9082,
+      "eval_samples_per_second": 1905.139,
+      "eval_steps_per_second": 3.722,
+      "step": 34000
+    },
+    {
+      "epoch": 0.4397649488215574,
+      "grad_norm": 13.5625,
+      "learning_rate": 0.0001,
+      "loss": 2.3124,
+      "step": 34500
+    },
+    {
+      "epoch": 0.4461383538769423,
+      "grad_norm": 15.0,
+      "learning_rate": 0.0001,
+      "loss": 2.3108,
+      "step": 35000
+    },
+    {
+      "epoch": 0.4461383538769423,
+      "eval_accuracy": 0.8752486438618897,
+      "eval_auc": 0.9388136267662048,
+      "eval_f1": 0.857440432905537,
+      "eval_loss": 2.3170506954193115,
+      "eval_precision": 0.8693945403391463,
+      "eval_recall": 0.8486030934280269,
+      "eval_runtime": 237.1783,
+      "eval_samples_per_second": 1894.937,
+      "eval_steps_per_second": 3.702,
+      "step": 35000
+    },
+    {
+      "epoch": 0.4525117589323272,
+      "grad_norm": 16.5,
+      "learning_rate": 0.0001,
+      "loss": 2.3104,
+      "step": 35500
+    },
+    {
+      "epoch": 0.45888516398771206,
+      "grad_norm": 21.0,
+      "learning_rate": 0.0001,
+      "loss": 2.3093,
+      "step": 36000
+    },
+    {
+      "epoch": 0.45888516398771206,
+      "eval_accuracy": 0.8749304687187109,
+      "eval_auc": 0.9399862289428711,
+      "eval_f1": 0.859832853201925,
+      "eval_loss": 2.3292479515075684,
+      "eval_precision": 0.8627566786638952,
+      "eval_recall": 0.8571670902820068,
+      "eval_runtime": 235.9848,
+      "eval_samples_per_second": 1904.521,
+      "eval_steps_per_second": 3.721,
+      "step": 36000
+    },
+    {
+      "epoch": 0.465258569043097,
+      "grad_norm": 15.8125,
+      "learning_rate": 0.0001,
+      "loss": 2.3037,
+      "step": 36500
+    },
+    {
+      "epoch": 0.47163197409848184,
+      "grad_norm": 15.3125,
+      "learning_rate": 0.0001,
+      "loss": 2.2886,
+      "step": 37000
+    },
+    {
+      "epoch": 0.47163197409848184,
+      "eval_accuracy": 0.8750083437537547,
+      "eval_auc": 0.9404018521308899,
+      "eval_f1": 0.855230925034759,
+      "eval_loss": 2.3024775981903076,
+      "eval_precision": 0.8746376825597328,
+      "eval_recall": 0.8426211541705337,
+      "eval_runtime": 236.0698,
+      "eval_samples_per_second": 1903.835,
+      "eval_steps_per_second": 3.719,
+      "step": 37000
+    },
+    {
+      "epoch": 0.47800537915386676,
+      "grad_norm": 14.8125,
+      "learning_rate": 0.0001,
+      "loss": 2.2959,
+      "step": 37500
+    },
+    {
+      "epoch": 0.4843787842092516,
+      "grad_norm": 16.625,
+      "learning_rate": 0.0001,
+      "loss": 2.2607,
+      "step": 38000
+    },
+    {
+      "epoch": 0.4843787842092516,
+      "eval_accuracy": 0.877444719850124,
+      "eval_auc": 0.941037118434906,
+      "eval_f1": 0.8605285488101033,
+      "eval_loss": 2.27842378616333,
+      "eval_precision": 0.8704496429359335,
+      "eval_recall": 0.8528732041380341,
+      "eval_runtime": 236.143,
+      "eval_samples_per_second": 1903.245,
+      "eval_steps_per_second": 3.718,
+      "step": 38000
+    },
+    {
+      "epoch": 0.49075218926463654,
+      "grad_norm": 14.6875,
+      "learning_rate": 0.0001,
+      "loss": 2.2675,
+      "step": 38500
+    },
+    {
+      "epoch": 0.4971255943200214,
+      "grad_norm": 18.75,
+      "learning_rate": 0.0001,
+      "loss": 2.2426,
+      "step": 39000
+    },
+    {
+      "epoch": 0.4971255943200214,
+      "eval_accuracy": 0.8774046698321014,
+      "eval_auc": 0.9419523477554321,
+      "eval_f1": 0.860408547862752,
+      "eval_loss": 2.262415647506714,
+      "eval_precision": 0.8705951091265102,
+      "eval_recall": 0.8525912689551651,
+      "eval_runtime": 236.1607,
+      "eval_samples_per_second": 1903.103,
+      "eval_steps_per_second": 3.718,
+      "step": 39000
+    },
+    {
+      "epoch": 0.5034989993754063,
+      "grad_norm": 16.75,
+      "learning_rate": 0.0001,
+      "loss": 2.2544,
+      "step": 39500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 78451,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.105054320734241e+18,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

google/gemma-3-270m-it-mmlu_pro/checkpoint-39500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88ef4a3915b8e9506ab39a5ba6141f508f9a71f0225eebc339973f2f4e19a361
+size 5841