mmitsui-shopify commited on Mar 11

Commit

4ad230e

verified ·

1 Parent(s): 56c99e7

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +162 -0
checkpoint-1200/config.json +47 -0
checkpoint-1200/model.safetensors +3 -0
checkpoint-1200/optimizer.pt +3 -0
checkpoint-1200/rng_state.pth +3 -0
checkpoint-1200/scheduler.pt +3 -0
checkpoint-1200/tokenizer.json +0 -0
checkpoint-1200/tokenizer_config.json +14 -0
checkpoint-1200/trainer_state.json +166 -0
checkpoint-1200/training_args.bin +3 -0
checkpoint-1500/config.json +47 -0
checkpoint-1500/model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/tokenizer.json +0 -0
checkpoint-1500/tokenizer_config.json +14 -0
checkpoint-1500/trainer_state.json +199 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-1800/config.json +47 -0
checkpoint-1800/model.safetensors +3 -0
checkpoint-1800/optimizer.pt +3 -0
checkpoint-1800/rng_state.pth +3 -0
checkpoint-1800/scheduler.pt +3 -0
checkpoint-1800/tokenizer.json +0 -0
checkpoint-1800/tokenizer_config.json +14 -0
checkpoint-1800/trainer_state.json +232 -0
checkpoint-1800/training_args.bin +3 -0
checkpoint-2100/config.json +47 -0
checkpoint-2100/model.safetensors +3 -0
checkpoint-2100/optimizer.pt +3 -0
checkpoint-2100/rng_state.pth +3 -0
checkpoint-2100/scheduler.pt +3 -0
checkpoint-2100/tokenizer.json +0 -0
checkpoint-2100/tokenizer_config.json +14 -0
checkpoint-2100/trainer_state.json +265 -0
checkpoint-2100/training_args.bin +3 -0
checkpoint-2400/config.json +47 -0
checkpoint-2400/model.safetensors +3 -0
checkpoint-2400/optimizer.pt +3 -0
checkpoint-2400/rng_state.pth +3 -0
checkpoint-2400/scheduler.pt +3 -0
checkpoint-2400/tokenizer.json +0 -0
checkpoint-2400/tokenizer_config.json +14 -0
checkpoint-2400/trainer_state.json +298 -0
checkpoint-2400/training_args.bin +3 -0
checkpoint-2700/config.json +47 -0
checkpoint-2700/model.safetensors +3 -0
checkpoint-2700/optimizer.pt +3 -0
checkpoint-2700/rng_state.pth +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,162 @@

+# UPI matching model
+Binary classifier for product variant matching (cross-store UPI).
+## Model type
+- **encoder_type**: `cross`
+- **num_labels**: `2`
+### Config
+```json
+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BERTCrossEncoderClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bert_projection_dim": null,
+  "bos_token_id": null,
+  "catboost_dropout": 0.05,
+  "catboost_hidden_layers": null,
+  "catboost_hidden_size": 256,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "encoder_type": "cross",
+  "eos_token_id": null,
+  "exclude_url_in_text": false,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "include_avg_price_in_text": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_catboost_features": 43,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "preprocess_url_in_text": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_batch_norm": false,
+  "use_bert_layer_norm": false,
+  "use_cache": false,
+  "use_catboost_features": false,
+  "use_faiss_distance": false,
+  "use_standardized_description_in_text": false,
+  "use_standardized_title_in_text": false,
+  "use_taxonomy_product_category_in_text": false,
+  "use_variant_attributes_in_text": false,
+  "vocab_size": 30522
+}
+```
+### Input text format
+Each product is one text string. Fields are key-value pairs joined by ` | `; only non-empty fields are included.
+**Standard fields (per product):**
+- **Title** — product title (from `title_1` / `title_2`; often `COALESCE(simplified_title, product_title)` in data).
+- **Vendor** — `vendor_1` / `vendor_2` (e.g. product vendor).
+- **Category** — predicted product category (`predicted_category_1` / `predicted_category_2`), or taxonomy category if the run used `use_taxonomy_product_category`.
+- **URL** — product URL (`url_1` / `url_2`); included unless the run used `exclude_url`.
+- **Shop** — shop name (`shop_name_1` / `shop_name_2`), when present in the dataset.
+**Optional fields (if enabled at training time):** Average price, Standardized title, Standardized description (truncated), Attributes (variant attributes, truncated).
+**Example (this run: Title | Vendor | Category | URL | Shop):**
+```
+Product 1: Title: Blue Cotton Shirt | Vendor: Acme | Category: Apparel > Tops | URL: https://... | Shop: My Store
+Product 2: Title: Blue Cotton Shirt | Vendor: Acme | Category: Apparel > Tops | URL: https://... | Shop: Other Store
+```
+**Tokenization:** Cross-encoder input is `[CLS] tokens_product_1 [SEP] tokens_product_2 [SEP]`, with the same tokenizer and `max_length` (e.g. 512) as training. Use the same field order and separators for inference.
+## Training
+- Train samples: 180294
+- Eval samples: 77148
+- Test samples: 43054
+### Final metrics
+- **eval_loss**: 0.014397569000720978
+- **eval_accuracy**: 0.9569399077098564
+- **eval_precision**: 0.7910981883247595
+- **eval_recall**: 0.5969620253164557
+- **eval_f1**: 0.6804540207772221
+- **test_accuracy**: 0.958726250754866
+- **test_precision**: 0.8079390537289495
+- **test_recall**: 0.6082100814971325
+- **test_f1**: 0.6939900120544171
+### Trainable components (excerpt)
+- **encoder_type**: bert
+- **use_focal_loss**: True
+- **use_class_weights**: False
+- **embedding_only**: False
+## Raw metrics (training_metrics.json)
+```
+{
+  "train": {
+    "train_runtime": 11590.1262,
+    "train_samples_per_second": 77.779,
+    "train_steps_per_second": 0.304,
+    "total_flos": 3.535755746865862e+17,
+    "train_loss": 0.014852612838677481,
+    "epoch": 5.0
+  },
+  "validation": {
+    "eval_loss": 0.014397569000720978,
+    "eval_accuracy": 0.9569399077098564,
+    "eval_precision": 0.7910981883247595,
+    "eval_recall": 0.5969620253164557,
+    "eval_f1": 0.6804540207772221,
+    "eval_runtime": 248.7283,
+    "eval_samples_per_second": 310.17,
+    "eval_steps_per_second": 4.849,
+    "epoch": 5.0
+  },
+  "test": {
+    "eval_loss": 0.013887105509638786,
+    "eval_accuracy": 0.958726250754866,
+    "eval_precision": 0.8079390537289495,
+    "eval_recall": 0.6082100814971325,
+    "eval_f1": 0.6939900120544171,
+    "eval_runtime": 140.0606,
+    "eval_samples_per_second": 307.396,
+    "eval_steps_per_second": 4.805,
+    "epoch": 5.0
+  }
+}
+```
+## Source
+Model directory: `gs://sdp-stg-ml-taxonomy/mattmitsui/models/7df743d96b1c660bbfe9ad164066c96e/366c89cfd45d57ecf84823ea3edfebef/bert_only`
+## Load
+This model uses a custom config and loader (not `AutoModel.from_pretrained`).
+```python
+# Use threshold_tuning for inference (handles all encoder_type):
+#   python scripts/threshold_tuning.py --model-path /path/to/model --data-path /path/to/data.parquet ...
+# Or load manually: read config.json, instantiate the class for encoder_type, then
+#   torch.load(path / 'pytorch_model.bin', map_location='cpu', weights_only=True)
+```
+Inference: `scripts/threshold_tuning.py --model-path <path>`.

checkpoint-1200/config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BERTCrossEncoderClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bert_projection_dim": null,
+  "bos_token_id": null,
+  "catboost_dropout": 0.05,
+  "catboost_hidden_layers": null,
+  "catboost_hidden_size": 256,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "encoder_type": "cross",
+  "eos_token_id": null,
+  "exclude_url_in_text": false,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "include_avg_price_in_text": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_catboost_features": 43,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "preprocess_url_in_text": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_batch_norm": false,
+  "use_bert_layer_norm": false,
+  "use_cache": false,
+  "use_catboost_features": false,
+  "use_faiss_distance": false,
+  "use_standardized_description_in_text": false,
+  "use_standardized_title_in_text": false,
+  "use_taxonomy_product_category_in_text": false,
+  "use_variant_attributes_in_text": false,
+  "vocab_size": 30522
+}

checkpoint-1200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46f25a0bba0d12c0bc39797960e1c4233bca3b05d21008cd4768e071b4589565
+size 1340622760

checkpoint-1200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edb9b5c763125d37949afd4f7a6368773edee2ccd33d9096e0a527d93f2a978e
+size 2673087800

checkpoint-1200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c08822cd68a7301c609b3c6f7ec568cdc5035d72b07a8052a140327e515308eb
+size 14645

checkpoint-1200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a2143d77d39415b00b89630a13cc5f9a530b512abbe6ab7d8c7733ff9670881
+size 1465

checkpoint-1200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,166 @@

+{
+  "best_global_step": 900,
+  "best_metric": 0.6193430285772399,
+  "best_model_checkpoint": "/workspace/models/bert_only/checkpoint-900",
+  "epoch": 1.702625975869411,
+  "eval_steps": 300,
+  "global_step": 1200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14194464158977999,
+      "grad_norm": 0.06425805389881134,
+      "learning_rate": 2.804532577903683e-06,
+      "loss": 0.11154786109924317,
+      "step": 100
+    },
+    {
+      "epoch": 0.28388928317955997,
+      "grad_norm": 0.061825525015592575,
+      "learning_rate": 5.637393767705382e-06,
+      "loss": 0.0235357666015625,
+      "step": 200
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "grad_norm": 0.16315294802188873,
+      "learning_rate": 8.470254957507082e-06,
+      "loss": 0.019212119579315186,
+      "step": 300
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "eval_accuracy": 0.9339062581013118,
+      "eval_f1": 0.2938651156349536,
+      "eval_loss": 0.016514133661985397,
+      "eval_precision": 0.8186728395061729,
+      "eval_recall": 0.1790717299578059,
+      "eval_runtime": 247.8026,
+      "eval_samples_per_second": 311.328,
+      "eval_steps_per_second": 4.867,
+      "step": 300
+    },
+    {
+      "epoch": 0.5677785663591199,
+      "grad_norm": 0.07577917724847794,
+      "learning_rate": 9.854981084489283e-06,
+      "loss": 0.017763136625289916,
+      "step": 400
+    },
+    {
+      "epoch": 0.7097232079489,
+      "grad_norm": 0.07774042338132858,
+      "learning_rate": 9.539722572509459e-06,
+      "loss": 0.016379492282867433,
+      "step": 500
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "grad_norm": 0.03525112196803093,
+      "learning_rate": 9.224464060529636e-06,
+      "loss": 0.015504951477050782,
+      "step": 600
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "eval_accuracy": 0.9414501996163219,
+      "eval_f1": 0.42245237181946044,
+      "eval_loss": 0.014568264596164227,
+      "eval_precision": 0.8713080168776371,
+      "eval_recall": 0.2788185654008439,
+      "eval_runtime": 248.1591,
+      "eval_samples_per_second": 310.881,
+      "eval_steps_per_second": 4.86,
+      "step": 600
+    },
+    {
+      "epoch": 0.99361249112846,
+      "grad_norm": 0.042659107595682144,
+      "learning_rate": 8.909205548549812e-06,
+      "loss": 0.015153419971466065,
+      "step": 700
+    },
+    {
+      "epoch": 1.134847409510291,
+      "grad_norm": 0.06090683117508888,
+      "learning_rate": 8.593947036569988e-06,
+      "loss": 0.014712293148040772,
+      "step": 800
+    },
+    {
+      "epoch": 1.276792051100071,
+      "grad_norm": 0.06917829066514969,
+      "learning_rate": 8.278688524590165e-06,
+      "loss": 0.014011555910110473,
+      "step": 900
+    },
+    {
+      "epoch": 1.276792051100071,
+      "eval_accuracy": 0.951482864105356,
+      "eval_f1": 0.6193430285772399,
+      "eval_loss": 0.014504444785416126,
+      "eval_precision": 0.7791709314227226,
+      "eval_recall": 0.5139240506329114,
+      "eval_runtime": 248.1665,
+      "eval_samples_per_second": 310.872,
+      "eval_steps_per_second": 4.86,
+      "step": 900
+    },
+    {
+      "epoch": 1.418736692689851,
+      "grad_norm": 0.060546569526195526,
+      "learning_rate": 7.963430012610341e-06,
+      "loss": 0.013459330797195435,
+      "step": 1000
+    },
+    {
+      "epoch": 1.5606813342796308,
+      "grad_norm": 0.03910629078745842,
+      "learning_rate": 7.648171500630517e-06,
+      "loss": 0.013057354688644409,
+      "step": 1100
+    },
+    {
+      "epoch": 1.702625975869411,
+      "grad_norm": 0.028518082574009895,
+      "learning_rate": 7.332912988650695e-06,
+      "loss": 0.013156681060791016,
+      "step": 1200
+    },
+    {
+      "epoch": 1.702625975869411,
+      "eval_accuracy": 0.9492015347125007,
+      "eval_f1": 0.5465694781904431,
+      "eval_loss": 0.013104956597089767,
+      "eval_precision": 0.8690213392200147,
+      "eval_recall": 0.39864978902953585,
+      "eval_runtime": 247.5183,
+      "eval_samples_per_second": 311.686,
+      "eval_steps_per_second": 4.872,
+      "step": 1200
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3525,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2038501873091373e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:585c0926506188c343b653866d2ad896a5ab56ac5e6078148d8cadc9d45c9841
+size 5265

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BERTCrossEncoderClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bert_projection_dim": null,
+  "bos_token_id": null,
+  "catboost_dropout": 0.05,
+  "catboost_hidden_layers": null,
+  "catboost_hidden_size": 256,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "encoder_type": "cross",
+  "eos_token_id": null,
+  "exclude_url_in_text": false,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "include_avg_price_in_text": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_catboost_features": 43,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "preprocess_url_in_text": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_batch_norm": false,
+  "use_bert_layer_norm": false,
+  "use_cache": false,
+  "use_catboost_features": false,
+  "use_faiss_distance": false,
+  "use_standardized_description_in_text": false,
+  "use_standardized_title_in_text": false,
+  "use_taxonomy_product_category_in_text": false,
+  "use_variant_attributes_in_text": false,
+  "vocab_size": 30522
+}

checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1eeb5ca72908b9a122ddf647fc55174b3580b16aadf2ac9495ff34c894b95f4e
+size 1340622760

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96352822eced5f5347aebb5e60eb75a51b4f506eb7c832347ad8681b7f577595
+size 2673087800

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4afcb43bf773e02399dd7410c940dae962b9ff9c17411d977e4b597ad295d386
+size 14645

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea56dbdaa051940ebb3c46394ee873876d802736373239784bb555707c947d8c
+size 1465

checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,199 @@

+{
+  "best_global_step": 900,
+  "best_metric": 0.6193430285772399,
+  "best_model_checkpoint": "/workspace/models/bert_only/checkpoint-900",
+  "epoch": 2.127750177430802,
+  "eval_steps": 300,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14194464158977999,
+      "grad_norm": 0.06425805389881134,
+      "learning_rate": 2.804532577903683e-06,
+      "loss": 0.11154786109924317,
+      "step": 100
+    },
+    {
+      "epoch": 0.28388928317955997,
+      "grad_norm": 0.061825525015592575,
+      "learning_rate": 5.637393767705382e-06,
+      "loss": 0.0235357666015625,
+      "step": 200
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "grad_norm": 0.16315294802188873,
+      "learning_rate": 8.470254957507082e-06,
+      "loss": 0.019212119579315186,
+      "step": 300
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "eval_accuracy": 0.9339062581013118,
+      "eval_f1": 0.2938651156349536,
+      "eval_loss": 0.016514133661985397,
+      "eval_precision": 0.8186728395061729,
+      "eval_recall": 0.1790717299578059,
+      "eval_runtime": 247.8026,
+      "eval_samples_per_second": 311.328,
+      "eval_steps_per_second": 4.867,
+      "step": 300
+    },
+    {
+      "epoch": 0.5677785663591199,
+      "grad_norm": 0.07577917724847794,
+      "learning_rate": 9.854981084489283e-06,
+      "loss": 0.017763136625289916,
+      "step": 400
+    },
+    {
+      "epoch": 0.7097232079489,
+      "grad_norm": 0.07774042338132858,
+      "learning_rate": 9.539722572509459e-06,
+      "loss": 0.016379492282867433,
+      "step": 500
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "grad_norm": 0.03525112196803093,
+      "learning_rate": 9.224464060529636e-06,
+      "loss": 0.015504951477050782,
+      "step": 600
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "eval_accuracy": 0.9414501996163219,
+      "eval_f1": 0.42245237181946044,
+      "eval_loss": 0.014568264596164227,
+      "eval_precision": 0.8713080168776371,
+      "eval_recall": 0.2788185654008439,
+      "eval_runtime": 248.1591,
+      "eval_samples_per_second": 310.881,
+      "eval_steps_per_second": 4.86,
+      "step": 600
+    },
+    {
+      "epoch": 0.99361249112846,
+      "grad_norm": 0.042659107595682144,
+      "learning_rate": 8.909205548549812e-06,
+      "loss": 0.015153419971466065,
+      "step": 700
+    },
+    {
+      "epoch": 1.134847409510291,
+      "grad_norm": 0.06090683117508888,
+      "learning_rate": 8.593947036569988e-06,
+      "loss": 0.014712293148040772,
+      "step": 800
+    },
+    {
+      "epoch": 1.276792051100071,
+      "grad_norm": 0.06917829066514969,
+      "learning_rate": 8.278688524590165e-06,
+      "loss": 0.014011555910110473,
+      "step": 900
+    },
+    {
+      "epoch": 1.276792051100071,
+      "eval_accuracy": 0.951482864105356,
+      "eval_f1": 0.6193430285772399,
+      "eval_loss": 0.014504444785416126,
+      "eval_precision": 0.7791709314227226,
+      "eval_recall": 0.5139240506329114,
+      "eval_runtime": 248.1665,
+      "eval_samples_per_second": 310.872,
+      "eval_steps_per_second": 4.86,
+      "step": 900
+    },
+    {
+      "epoch": 1.418736692689851,
+      "grad_norm": 0.060546569526195526,
+      "learning_rate": 7.963430012610341e-06,
+      "loss": 0.013459330797195435,
+      "step": 1000
+    },
+    {
+      "epoch": 1.5606813342796308,
+      "grad_norm": 0.03910629078745842,
+      "learning_rate": 7.648171500630517e-06,
+      "loss": 0.013057354688644409,
+      "step": 1100
+    },
+    {
+      "epoch": 1.702625975869411,
+      "grad_norm": 0.028518082574009895,
+      "learning_rate": 7.332912988650695e-06,
+      "loss": 0.013156681060791016,
+      "step": 1200
+    },
+    {
+      "epoch": 1.702625975869411,
+      "eval_accuracy": 0.9492015347125007,
+      "eval_f1": 0.5465694781904431,
+      "eval_loss": 0.013104956597089767,
+      "eval_precision": 0.8690213392200147,
+      "eval_recall": 0.39864978902953585,
+      "eval_runtime": 247.5183,
+      "eval_samples_per_second": 311.686,
+      "eval_steps_per_second": 4.872,
+      "step": 1200
+    },
+    {
+      "epoch": 1.844570617459191,
+      "grad_norm": 0.03921860456466675,
+      "learning_rate": 7.017654476670871e-06,
+      "loss": 0.0128374981880188,
+      "step": 1300
+    },
+    {
+      "epoch": 1.986515259048971,
+      "grad_norm": 0.06688380986452103,
+      "learning_rate": 6.702395964691047e-06,
+      "loss": 0.01282167911529541,
+      "step": 1400
+    },
+    {
+      "epoch": 2.127750177430802,
+      "grad_norm": 0.05814122408628464,
+      "learning_rate": 6.387137452711224e-06,
+      "loss": 0.011622587442398071,
+      "step": 1500
+    },
+    {
+      "epoch": 2.127750177430802,
+      "eval_accuracy": 0.9516384092912324,
+      "eval_f1": 0.5833612506979341,
+      "eval_loss": 0.012981283478438854,
+      "eval_precision": 0.862046204620462,
+      "eval_recall": 0.4408438818565401,
+      "eval_runtime": 247.7101,
+      "eval_samples_per_second": 311.445,
+      "eval_steps_per_second": 4.869,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3525,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5040565136991853e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:585c0926506188c343b653866d2ad896a5ab56ac5e6078148d8cadc9d45c9841
+size 5265

checkpoint-1800/config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BERTCrossEncoderClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bert_projection_dim": null,
+  "bos_token_id": null,
+  "catboost_dropout": 0.05,
+  "catboost_hidden_layers": null,
+  "catboost_hidden_size": 256,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "encoder_type": "cross",
+  "eos_token_id": null,
+  "exclude_url_in_text": false,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "include_avg_price_in_text": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_catboost_features": 43,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "preprocess_url_in_text": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_batch_norm": false,
+  "use_bert_layer_norm": false,
+  "use_cache": false,
+  "use_catboost_features": false,
+  "use_faiss_distance": false,
+  "use_standardized_description_in_text": false,
+  "use_standardized_title_in_text": false,
+  "use_taxonomy_product_category_in_text": false,
+  "use_variant_attributes_in_text": false,
+  "vocab_size": 30522
+}

checkpoint-1800/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b5ddbb8227c9054b777a9740a0cc46df5dba3f2724fb060f9b7328ae9cead57
+size 1340622760

checkpoint-1800/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cc670b376ffb79116b58bee2954aaf300f46d1a3543b15f59a1a1d80d4aa0fa
+size 2673087800

checkpoint-1800/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f006c1ac49f72fb1d83d32073f96e753c01a295e17ddd90a2250099e7f3b8101
+size 14645

checkpoint-1800/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12ec3cb85711df9e48ba46e22eb9af82d920e8a74869e430d996bda6aff298a4
+size 1465

checkpoint-1800/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1800/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1800/trainer_state.json ADDED Viewed

	@@ -0,0 +1,232 @@

+{
+  "best_global_step": 900,
+  "best_metric": 0.6193430285772399,
+  "best_model_checkpoint": "/workspace/models/bert_only/checkpoint-900",
+  "epoch": 2.553584102200142,
+  "eval_steps": 300,
+  "global_step": 1800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14194464158977999,
+      "grad_norm": 0.06425805389881134,
+      "learning_rate": 2.804532577903683e-06,
+      "loss": 0.11154786109924317,
+      "step": 100
+    },
+    {
+      "epoch": 0.28388928317955997,
+      "grad_norm": 0.061825525015592575,
+      "learning_rate": 5.637393767705382e-06,
+      "loss": 0.0235357666015625,
+      "step": 200
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "grad_norm": 0.16315294802188873,
+      "learning_rate": 8.470254957507082e-06,
+      "loss": 0.019212119579315186,
+      "step": 300
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "eval_accuracy": 0.9339062581013118,
+      "eval_f1": 0.2938651156349536,
+      "eval_loss": 0.016514133661985397,
+      "eval_precision": 0.8186728395061729,
+      "eval_recall": 0.1790717299578059,
+      "eval_runtime": 247.8026,
+      "eval_samples_per_second": 311.328,
+      "eval_steps_per_second": 4.867,
+      "step": 300
+    },
+    {
+      "epoch": 0.5677785663591199,
+      "grad_norm": 0.07577917724847794,
+      "learning_rate": 9.854981084489283e-06,
+      "loss": 0.017763136625289916,
+      "step": 400
+    },
+    {
+      "epoch": 0.7097232079489,
+      "grad_norm": 0.07774042338132858,
+      "learning_rate": 9.539722572509459e-06,
+      "loss": 0.016379492282867433,
+      "step": 500
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "grad_norm": 0.03525112196803093,
+      "learning_rate": 9.224464060529636e-06,
+      "loss": 0.015504951477050782,
+      "step": 600
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "eval_accuracy": 0.9414501996163219,
+      "eval_f1": 0.42245237181946044,
+      "eval_loss": 0.014568264596164227,
+      "eval_precision": 0.8713080168776371,
+      "eval_recall": 0.2788185654008439,
+      "eval_runtime": 248.1591,
+      "eval_samples_per_second": 310.881,
+      "eval_steps_per_second": 4.86,
+      "step": 600
+    },
+    {
+      "epoch": 0.99361249112846,
+      "grad_norm": 0.042659107595682144,
+      "learning_rate": 8.909205548549812e-06,
+      "loss": 0.015153419971466065,
+      "step": 700
+    },
+    {
+      "epoch": 1.134847409510291,
+      "grad_norm": 0.06090683117508888,
+      "learning_rate": 8.593947036569988e-06,
+      "loss": 0.014712293148040772,
+      "step": 800
+    },
+    {
+      "epoch": 1.276792051100071,
+      "grad_norm": 0.06917829066514969,
+      "learning_rate": 8.278688524590165e-06,
+      "loss": 0.014011555910110473,
+      "step": 900
+    },
+    {
+      "epoch": 1.276792051100071,
+      "eval_accuracy": 0.951482864105356,
+      "eval_f1": 0.6193430285772399,
+      "eval_loss": 0.014504444785416126,
+      "eval_precision": 0.7791709314227226,
+      "eval_recall": 0.5139240506329114,
+      "eval_runtime": 248.1665,
+      "eval_samples_per_second": 310.872,
+      "eval_steps_per_second": 4.86,
+      "step": 900
+    },
+    {
+      "epoch": 1.418736692689851,
+      "grad_norm": 0.060546569526195526,
+      "learning_rate": 7.963430012610341e-06,
+      "loss": 0.013459330797195435,
+      "step": 1000
+    },
+    {
+      "epoch": 1.5606813342796308,
+      "grad_norm": 0.03910629078745842,
+      "learning_rate": 7.648171500630517e-06,
+      "loss": 0.013057354688644409,
+      "step": 1100
+    },
+    {
+      "epoch": 1.702625975869411,
+      "grad_norm": 0.028518082574009895,
+      "learning_rate": 7.332912988650695e-06,
+      "loss": 0.013156681060791016,
+      "step": 1200
+    },
+    {
+      "epoch": 1.702625975869411,
+      "eval_accuracy": 0.9492015347125007,
+      "eval_f1": 0.5465694781904431,
+      "eval_loss": 0.013104956597089767,
+      "eval_precision": 0.8690213392200147,
+      "eval_recall": 0.39864978902953585,
+      "eval_runtime": 247.5183,
+      "eval_samples_per_second": 311.686,
+      "eval_steps_per_second": 4.872,
+      "step": 1200
+    },
+    {
+      "epoch": 1.844570617459191,
+      "grad_norm": 0.03921860456466675,
+      "learning_rate": 7.017654476670871e-06,
+      "loss": 0.0128374981880188,
+      "step": 1300
+    },
+    {
+      "epoch": 1.986515259048971,
+      "grad_norm": 0.06688380986452103,
+      "learning_rate": 6.702395964691047e-06,
+      "loss": 0.01282167911529541,
+      "step": 1400
+    },
+    {
+      "epoch": 2.127750177430802,
+      "grad_norm": 0.05814122408628464,
+      "learning_rate": 6.387137452711224e-06,
+      "loss": 0.011622587442398071,
+      "step": 1500
+    },
+    {
+      "epoch": 2.127750177430802,
+      "eval_accuracy": 0.9516384092912324,
+      "eval_f1": 0.5833612506979341,
+      "eval_loss": 0.012981283478438854,
+      "eval_precision": 0.862046204620462,
+      "eval_recall": 0.4408438818565401,
+      "eval_runtime": 247.7101,
+      "eval_samples_per_second": 311.445,
+      "eval_steps_per_second": 4.869,
+      "step": 1500
+    },
+    {
+      "epoch": 2.269694819020582,
+      "grad_norm": 0.05174160748720169,
+      "learning_rate": 6.071878940731401e-06,
+      "loss": 0.011430107355117798,
+      "step": 1600
+    },
+    {
+      "epoch": 2.411639460610362,
+      "grad_norm": 0.04454905912280083,
+      "learning_rate": 5.756620428751577e-06,
+      "loss": 0.011401889324188232,
+      "step": 1700
+    },
+    {
+      "epoch": 2.553584102200142,
+      "grad_norm": 0.1080143004655838,
+      "learning_rate": 5.441361916771753e-06,
+      "loss": 0.011695735454559326,
+      "step": 1800
+    },
+    {
+      "epoch": 2.553584102200142,
+      "eval_accuracy": 0.9499274122465909,
+      "eval_f1": 0.5463300058719907,
+      "eval_loss": 0.013252142816781998,
+      "eval_precision": 0.8980694980694981,
+      "eval_recall": 0.39257383966244724,
+      "eval_runtime": 247.9584,
+      "eval_samples_per_second": 311.133,
+      "eval_steps_per_second": 4.864,
+      "step": 1800
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3525,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.802781287642955e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1800/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:585c0926506188c343b653866d2ad896a5ab56ac5e6078148d8cadc9d45c9841
+size 5265

checkpoint-2100/config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BERTCrossEncoderClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bert_projection_dim": null,
+  "bos_token_id": null,
+  "catboost_dropout": 0.05,
+  "catboost_hidden_layers": null,
+  "catboost_hidden_size": 256,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "encoder_type": "cross",
+  "eos_token_id": null,
+  "exclude_url_in_text": false,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "include_avg_price_in_text": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_catboost_features": 43,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "preprocess_url_in_text": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_batch_norm": false,
+  "use_bert_layer_norm": false,
+  "use_cache": false,
+  "use_catboost_features": false,
+  "use_faiss_distance": false,
+  "use_standardized_description_in_text": false,
+  "use_standardized_title_in_text": false,
+  "use_taxonomy_product_category_in_text": false,
+  "use_variant_attributes_in_text": false,
+  "vocab_size": 30522
+}

checkpoint-2100/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f07540c6387626ddd998177c439a461f2937d408c392a03ec4d26f670f172687
+size 1340622760

checkpoint-2100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e8b65e7372cfd426e73730590d247946bf1660fca93a7ff267242d2e631499d
+size 2673087800

checkpoint-2100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc02ceadcdb8ae8447ec193758f49bc25a9d29d8469e70c5a40ca275c5ef890
+size 14645

checkpoint-2100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca600cbae926b6b9c36e4f50a04cbd029e68a1a4d634572c8882a843e2ef0788
+size 1465

checkpoint-2100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-2100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,265 @@

+{
+  "best_global_step": 900,
+  "best_metric": 0.6193430285772399,
+  "best_model_checkpoint": "/workspace/models/bert_only/checkpoint-900",
+  "epoch": 2.9794180269694817,
+  "eval_steps": 300,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14194464158977999,
+      "grad_norm": 0.06425805389881134,
+      "learning_rate": 2.804532577903683e-06,
+      "loss": 0.11154786109924317,
+      "step": 100
+    },
+    {
+      "epoch": 0.28388928317955997,
+      "grad_norm": 0.061825525015592575,
+      "learning_rate": 5.637393767705382e-06,
+      "loss": 0.0235357666015625,
+      "step": 200
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "grad_norm": 0.16315294802188873,
+      "learning_rate": 8.470254957507082e-06,
+      "loss": 0.019212119579315186,
+      "step": 300
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "eval_accuracy": 0.9339062581013118,
+      "eval_f1": 0.2938651156349536,
+      "eval_loss": 0.016514133661985397,
+      "eval_precision": 0.8186728395061729,
+      "eval_recall": 0.1790717299578059,
+      "eval_runtime": 247.8026,
+      "eval_samples_per_second": 311.328,
+      "eval_steps_per_second": 4.867,
+      "step": 300
+    },
+    {
+      "epoch": 0.5677785663591199,
+      "grad_norm": 0.07577917724847794,
+      "learning_rate": 9.854981084489283e-06,
+      "loss": 0.017763136625289916,
+      "step": 400
+    },
+    {
+      "epoch": 0.7097232079489,
+      "grad_norm": 0.07774042338132858,
+      "learning_rate": 9.539722572509459e-06,
+      "loss": 0.016379492282867433,
+      "step": 500
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "grad_norm": 0.03525112196803093,
+      "learning_rate": 9.224464060529636e-06,
+      "loss": 0.015504951477050782,
+      "step": 600
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "eval_accuracy": 0.9414501996163219,
+      "eval_f1": 0.42245237181946044,
+      "eval_loss": 0.014568264596164227,
+      "eval_precision": 0.8713080168776371,
+      "eval_recall": 0.2788185654008439,
+      "eval_runtime": 248.1591,
+      "eval_samples_per_second": 310.881,
+      "eval_steps_per_second": 4.86,
+      "step": 600
+    },
+    {
+      "epoch": 0.99361249112846,
+      "grad_norm": 0.042659107595682144,
+      "learning_rate": 8.909205548549812e-06,
+      "loss": 0.015153419971466065,
+      "step": 700
+    },
+    {
+      "epoch": 1.134847409510291,
+      "grad_norm": 0.06090683117508888,
+      "learning_rate": 8.593947036569988e-06,
+      "loss": 0.014712293148040772,
+      "step": 800
+    },
+    {
+      "epoch": 1.276792051100071,
+      "grad_norm": 0.06917829066514969,
+      "learning_rate": 8.278688524590165e-06,
+      "loss": 0.014011555910110473,
+      "step": 900
+    },
+    {
+      "epoch": 1.276792051100071,
+      "eval_accuracy": 0.951482864105356,
+      "eval_f1": 0.6193430285772399,
+      "eval_loss": 0.014504444785416126,
+      "eval_precision": 0.7791709314227226,
+      "eval_recall": 0.5139240506329114,
+      "eval_runtime": 248.1665,
+      "eval_samples_per_second": 310.872,
+      "eval_steps_per_second": 4.86,
+      "step": 900
+    },
+    {
+      "epoch": 1.418736692689851,
+      "grad_norm": 0.060546569526195526,
+      "learning_rate": 7.963430012610341e-06,
+      "loss": 0.013459330797195435,
+      "step": 1000
+    },
+    {
+      "epoch": 1.5606813342796308,
+      "grad_norm": 0.03910629078745842,
+      "learning_rate": 7.648171500630517e-06,
+      "loss": 0.013057354688644409,
+      "step": 1100
+    },
+    {
+      "epoch": 1.702625975869411,
+      "grad_norm": 0.028518082574009895,
+      "learning_rate": 7.332912988650695e-06,
+      "loss": 0.013156681060791016,
+      "step": 1200
+    },
+    {
+      "epoch": 1.702625975869411,
+      "eval_accuracy": 0.9492015347125007,
+      "eval_f1": 0.5465694781904431,
+      "eval_loss": 0.013104956597089767,
+      "eval_precision": 0.8690213392200147,
+      "eval_recall": 0.39864978902953585,
+      "eval_runtime": 247.5183,
+      "eval_samples_per_second": 311.686,
+      "eval_steps_per_second": 4.872,
+      "step": 1200
+    },
+    {
+      "epoch": 1.844570617459191,
+      "grad_norm": 0.03921860456466675,
+      "learning_rate": 7.017654476670871e-06,
+      "loss": 0.0128374981880188,
+      "step": 1300
+    },
+    {
+      "epoch": 1.986515259048971,
+      "grad_norm": 0.06688380986452103,
+      "learning_rate": 6.702395964691047e-06,
+      "loss": 0.01282167911529541,
+      "step": 1400
+    },
+    {
+      "epoch": 2.127750177430802,
+      "grad_norm": 0.05814122408628464,
+      "learning_rate": 6.387137452711224e-06,
+      "loss": 0.011622587442398071,
+      "step": 1500
+    },
+    {
+      "epoch": 2.127750177430802,
+      "eval_accuracy": 0.9516384092912324,
+      "eval_f1": 0.5833612506979341,
+      "eval_loss": 0.012981283478438854,
+      "eval_precision": 0.862046204620462,
+      "eval_recall": 0.4408438818565401,
+      "eval_runtime": 247.7101,
+      "eval_samples_per_second": 311.445,
+      "eval_steps_per_second": 4.869,
+      "step": 1500
+    },
+    {
+      "epoch": 2.269694819020582,
+      "grad_norm": 0.05174160748720169,
+      "learning_rate": 6.071878940731401e-06,
+      "loss": 0.011430107355117798,
+      "step": 1600
+    },
+    {
+      "epoch": 2.411639460610362,
+      "grad_norm": 0.04454905912280083,
+      "learning_rate": 5.756620428751577e-06,
+      "loss": 0.011401889324188232,
+      "step": 1700
+    },
+    {
+      "epoch": 2.553584102200142,
+      "grad_norm": 0.1080143004655838,
+      "learning_rate": 5.441361916771753e-06,
+      "loss": 0.011695735454559326,
+      "step": 1800
+    },
+    {
+      "epoch": 2.553584102200142,
+      "eval_accuracy": 0.9499274122465909,
+      "eval_f1": 0.5463300058719907,
+      "eval_loss": 0.013252142816781998,
+      "eval_precision": 0.8980694980694981,
+      "eval_recall": 0.39257383966244724,
+      "eval_runtime": 247.9584,
+      "eval_samples_per_second": 311.133,
+      "eval_steps_per_second": 4.864,
+      "step": 1800
+    },
+    {
+      "epoch": 2.695528743789922,
+      "grad_norm": 0.04515964910387993,
+      "learning_rate": 5.12610340479193e-06,
+      "loss": 0.011148114204406739,
+      "step": 1900
+    },
+    {
+      "epoch": 2.837473385379702,
+      "grad_norm": 0.05003391578793526,
+      "learning_rate": 4.810844892812107e-06,
+      "loss": 0.011369050741195678,
+      "step": 2000
+    },
+    {
+      "epoch": 2.9794180269694817,
+      "grad_norm": 0.045471154153347015,
+      "learning_rate": 4.495586380832283e-06,
+      "loss": 0.011400833129882812,
+      "step": 2100
+    },
+    {
+      "epoch": 2.9794180269694817,
+      "eval_accuracy": 0.952740187691191,
+      "eval_f1": 0.5911639381027136,
+      "eval_loss": 0.01266519445925951,
+      "eval_precision": 0.880721683929168,
+      "eval_recall": 0.4448945147679325,
+      "eval_runtime": 247.8326,
+      "eval_samples_per_second": 311.291,
+      "eval_steps_per_second": 4.866,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3525,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.107318983465483e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:585c0926506188c343b653866d2ad896a5ab56ac5e6078148d8cadc9d45c9841
+size 5265

checkpoint-2400/config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BERTCrossEncoderClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bert_projection_dim": null,
+  "bos_token_id": null,
+  "catboost_dropout": 0.05,
+  "catboost_hidden_layers": null,
+  "catboost_hidden_size": 256,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "encoder_type": "cross",
+  "eos_token_id": null,
+  "exclude_url_in_text": false,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "include_avg_price_in_text": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_catboost_features": 43,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "preprocess_url_in_text": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_batch_norm": false,
+  "use_bert_layer_norm": false,
+  "use_cache": false,
+  "use_catboost_features": false,
+  "use_faiss_distance": false,
+  "use_standardized_description_in_text": false,
+  "use_standardized_title_in_text": false,
+  "use_taxonomy_product_category_in_text": false,
+  "use_variant_attributes_in_text": false,
+  "vocab_size": 30522
+}

checkpoint-2400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9389eccc73ce3622db80b09e193e2f7001a9fa4adb66f3d78e2b7385819836ba
+size 1340622760

checkpoint-2400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b44b0f22272328cef1c52776e3ef9fcfbc1f5a3e819d0ea0c061ae365b606b2e
+size 2673087800

checkpoint-2400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b4954c9dd20e13b3cd14583345a4b565c137ac8a2b08a68e934ea632d565505
+size 14645

checkpoint-2400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25249fad0573b83da4e1e90a1939f29c3c4b4a391fe06700f793f2c5720fca31
+size 1465

checkpoint-2400/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2400/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-2400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "best_global_step": 2400,
+  "best_metric": 0.6504048375525264,
+  "best_model_checkpoint": "/workspace/models/bert_only/checkpoint-2400",
+  "epoch": 3.404542228530873,
+  "eval_steps": 300,
+  "global_step": 2400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14194464158977999,
+      "grad_norm": 0.06425805389881134,
+      "learning_rate": 2.804532577903683e-06,
+      "loss": 0.11154786109924317,
+      "step": 100
+    },
+    {
+      "epoch": 0.28388928317955997,
+      "grad_norm": 0.061825525015592575,
+      "learning_rate": 5.637393767705382e-06,
+      "loss": 0.0235357666015625,
+      "step": 200
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "grad_norm": 0.16315294802188873,
+      "learning_rate": 8.470254957507082e-06,
+      "loss": 0.019212119579315186,
+      "step": 300
+    },
+    {
+      "epoch": 0.42583392476933996,
+      "eval_accuracy": 0.9339062581013118,
+      "eval_f1": 0.2938651156349536,
+      "eval_loss": 0.016514133661985397,
+      "eval_precision": 0.8186728395061729,
+      "eval_recall": 0.1790717299578059,
+      "eval_runtime": 247.8026,
+      "eval_samples_per_second": 311.328,
+      "eval_steps_per_second": 4.867,
+      "step": 300
+    },
+    {
+      "epoch": 0.5677785663591199,
+      "grad_norm": 0.07577917724847794,
+      "learning_rate": 9.854981084489283e-06,
+      "loss": 0.017763136625289916,
+      "step": 400
+    },
+    {
+      "epoch": 0.7097232079489,
+      "grad_norm": 0.07774042338132858,
+      "learning_rate": 9.539722572509459e-06,
+      "loss": 0.016379492282867433,
+      "step": 500
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "grad_norm": 0.03525112196803093,
+      "learning_rate": 9.224464060529636e-06,
+      "loss": 0.015504951477050782,
+      "step": 600
+    },
+    {
+      "epoch": 0.8516678495386799,
+      "eval_accuracy": 0.9414501996163219,
+      "eval_f1": 0.42245237181946044,
+      "eval_loss": 0.014568264596164227,
+      "eval_precision": 0.8713080168776371,
+      "eval_recall": 0.2788185654008439,
+      "eval_runtime": 248.1591,
+      "eval_samples_per_second": 310.881,
+      "eval_steps_per_second": 4.86,
+      "step": 600
+    },
+    {
+      "epoch": 0.99361249112846,
+      "grad_norm": 0.042659107595682144,
+      "learning_rate": 8.909205548549812e-06,
+      "loss": 0.015153419971466065,
+      "step": 700
+    },
+    {
+      "epoch": 1.134847409510291,
+      "grad_norm": 0.06090683117508888,
+      "learning_rate": 8.593947036569988e-06,
+      "loss": 0.014712293148040772,
+      "step": 800
+    },
+    {
+      "epoch": 1.276792051100071,
+      "grad_norm": 0.06917829066514969,
+      "learning_rate": 8.278688524590165e-06,
+      "loss": 0.014011555910110473,
+      "step": 900
+    },
+    {
+      "epoch": 1.276792051100071,
+      "eval_accuracy": 0.951482864105356,
+      "eval_f1": 0.6193430285772399,
+      "eval_loss": 0.014504444785416126,
+      "eval_precision": 0.7791709314227226,
+      "eval_recall": 0.5139240506329114,
+      "eval_runtime": 248.1665,
+      "eval_samples_per_second": 310.872,
+      "eval_steps_per_second": 4.86,
+      "step": 900
+    },
+    {
+      "epoch": 1.418736692689851,
+      "grad_norm": 0.060546569526195526,
+      "learning_rate": 7.963430012610341e-06,
+      "loss": 0.013459330797195435,
+      "step": 1000
+    },
+    {
+      "epoch": 1.5606813342796308,
+      "grad_norm": 0.03910629078745842,
+      "learning_rate": 7.648171500630517e-06,
+      "loss": 0.013057354688644409,
+      "step": 1100
+    },
+    {
+      "epoch": 1.702625975869411,
+      "grad_norm": 0.028518082574009895,
+      "learning_rate": 7.332912988650695e-06,
+      "loss": 0.013156681060791016,
+      "step": 1200
+    },
+    {
+      "epoch": 1.702625975869411,
+      "eval_accuracy": 0.9492015347125007,
+      "eval_f1": 0.5465694781904431,
+      "eval_loss": 0.013104956597089767,
+      "eval_precision": 0.8690213392200147,
+      "eval_recall": 0.39864978902953585,
+      "eval_runtime": 247.5183,
+      "eval_samples_per_second": 311.686,
+      "eval_steps_per_second": 4.872,
+      "step": 1200
+    },
+    {
+      "epoch": 1.844570617459191,
+      "grad_norm": 0.03921860456466675,
+      "learning_rate": 7.017654476670871e-06,
+      "loss": 0.0128374981880188,
+      "step": 1300
+    },
+    {
+      "epoch": 1.986515259048971,
+      "grad_norm": 0.06688380986452103,
+      "learning_rate": 6.702395964691047e-06,
+      "loss": 0.01282167911529541,
+      "step": 1400
+    },
+    {
+      "epoch": 2.127750177430802,
+      "grad_norm": 0.05814122408628464,
+      "learning_rate": 6.387137452711224e-06,
+      "loss": 0.011622587442398071,
+      "step": 1500
+    },
+    {
+      "epoch": 2.127750177430802,
+      "eval_accuracy": 0.9516384092912324,
+      "eval_f1": 0.5833612506979341,
+      "eval_loss": 0.012981283478438854,
+      "eval_precision": 0.862046204620462,
+      "eval_recall": 0.4408438818565401,
+      "eval_runtime": 247.7101,
+      "eval_samples_per_second": 311.445,
+      "eval_steps_per_second": 4.869,
+      "step": 1500
+    },
+    {
+      "epoch": 2.269694819020582,
+      "grad_norm": 0.05174160748720169,
+      "learning_rate": 6.071878940731401e-06,
+      "loss": 0.011430107355117798,
+      "step": 1600
+    },
+    {
+      "epoch": 2.411639460610362,
+      "grad_norm": 0.04454905912280083,
+      "learning_rate": 5.756620428751577e-06,
+      "loss": 0.011401889324188232,
+      "step": 1700
+    },
+    {
+      "epoch": 2.553584102200142,
+      "grad_norm": 0.1080143004655838,
+      "learning_rate": 5.441361916771753e-06,
+      "loss": 0.011695735454559326,
+      "step": 1800
+    },
+    {
+      "epoch": 2.553584102200142,
+      "eval_accuracy": 0.9499274122465909,
+      "eval_f1": 0.5463300058719907,
+      "eval_loss": 0.013252142816781998,
+      "eval_precision": 0.8980694980694981,
+      "eval_recall": 0.39257383966244724,
+      "eval_runtime": 247.9584,
+      "eval_samples_per_second": 311.133,
+      "eval_steps_per_second": 4.864,
+      "step": 1800
+    },
+    {
+      "epoch": 2.695528743789922,
+      "grad_norm": 0.04515964910387993,
+      "learning_rate": 5.12610340479193e-06,
+      "loss": 0.011148114204406739,
+      "step": 1900
+    },
+    {
+      "epoch": 2.837473385379702,
+      "grad_norm": 0.05003391578793526,
+      "learning_rate": 4.810844892812107e-06,
+      "loss": 0.011369050741195678,
+      "step": 2000
+    },
+    {
+      "epoch": 2.9794180269694817,
+      "grad_norm": 0.045471154153347015,
+      "learning_rate": 4.495586380832283e-06,
+      "loss": 0.011400833129882812,
+      "step": 2100
+    },
+    {
+      "epoch": 2.9794180269694817,
+      "eval_accuracy": 0.952740187691191,
+      "eval_f1": 0.5911639381027136,
+      "eval_loss": 0.01266519445925951,
+      "eval_precision": 0.880721683929168,
+      "eval_recall": 0.4448945147679325,
+      "eval_runtime": 247.8326,
+      "eval_samples_per_second": 311.291,
+      "eval_steps_per_second": 4.866,
+      "step": 2100
+    },
+    {
+      "epoch": 3.120652945351313,
+      "grad_norm": 0.04946517199277878,
+      "learning_rate": 4.180327868852459e-06,
+      "loss": 0.009943812489509582,
+      "step": 2200
+    },
+    {
+      "epoch": 3.262597586941093,
+      "grad_norm": 0.046277161687612534,
+      "learning_rate": 3.865069356872636e-06,
+      "loss": 0.010015236139297485,
+      "step": 2300
+    },
+    {
+      "epoch": 3.404542228530873,
+      "grad_norm": 0.04235660284757614,
+      "learning_rate": 3.5498108448928128e-06,
+      "loss": 0.009706299304962158,
+      "step": 2400
+    },
+    {
+      "epoch": 3.404542228530873,
+      "eval_accuracy": 0.9557862809146057,
+      "eval_f1": 0.6504048375525264,
+      "eval_loss": 0.013760806061327457,
+      "eval_precision": 0.8280271398747391,
+      "eval_recall": 0.5355274261603375,
+      "eval_runtime": 247.7549,
+      "eval_samples_per_second": 311.388,
+      "eval_steps_per_second": 4.868,
+      "step": 2400
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3525,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.406777143707909e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:585c0926506188c343b653866d2ad896a5ab56ac5e6078148d8cadc9d45c9841
+size 5265

checkpoint-2700/config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BERTCrossEncoderClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bert_projection_dim": null,
+  "bos_token_id": null,
+  "catboost_dropout": 0.05,
+  "catboost_hidden_layers": null,
+  "catboost_hidden_size": 256,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "encoder_type": "cross",
+  "eos_token_id": null,
+  "exclude_url_in_text": false,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "include_avg_price_in_text": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_catboost_features": 43,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "preprocess_url_in_text": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_batch_norm": false,
+  "use_bert_layer_norm": false,
+  "use_cache": false,
+  "use_catboost_features": false,
+  "use_faiss_distance": false,
+  "use_standardized_description_in_text": false,
+  "use_standardized_title_in_text": false,
+  "use_taxonomy_product_category_in_text": false,
+  "use_variant_attributes_in_text": false,
+  "vocab_size": 30522
+}

checkpoint-2700/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0663b6466f97897b955c014f4dfda5e7331bd0b84893ef613c217adc7d63f73
+size 1340622760

checkpoint-2700/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39e6206937214402aa3d2994267aa299071d82b89779468cb5690336760679ef
+size 2673087800

checkpoint-2700/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4e7c593fa5e1e63022c74144afea942ab6080a5a96293b917b4e4b8a1dd70a3
+size 14645