tasksource
/

ettin-32m-embed

@@ -166,7 +166,7 @@ print(query_embeddings.shape, document_embeddings.shape)
 # Get the similarity scores for the embeddings
 similarities = model.similarity(query_embeddings, document_embeddings)
 print(similarities)
-# tensor([[ 0.6237, -0.0022, -0.1018]])
 ```
 <!--
@@ -726,13 +726,15 @@ You can finetune this model on your own dataset.
 ### Training Hyperparameters
 #### Non-Default Hyperparameters
-- `per_device_train_batch_size`: 256
-- `learning_rate`: 8e-05
 - `weight_decay`: 1e-06
-- `num_train_epochs`: 2
 - `warmup_ratio`: 0.1
 - `fp16`: True
 - `gradient_checkpointing`: True
 #### All Hyperparameters
 <details><summary>Click to expand</summary>
@@ -741,20 +743,20 @@ You can finetune this model on your own dataset.
 - `do_predict`: False
 - `eval_strategy`: no
 - `prediction_loss_only`: True
-- `per_device_train_batch_size`: 256
 - `per_device_eval_batch_size`: 8
 - `per_gpu_train_batch_size`: None
 - `per_gpu_eval_batch_size`: None
 - `gradient_accumulation_steps`: 1
 - `eval_accumulation_steps`: None
 - `torch_empty_cache_steps`: None
-- `learning_rate`: 8e-05
 - `weight_decay`: 1e-06
 - `adam_beta1`: 0.9
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
-- `num_train_epochs`: 2
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
@@ -838,8 +840,8 @@ You can finetune this model on your own dataset.
 - `torchdynamo`: None
 - `ray_scope`: last
 - `ddp_timeout`: 1800
-- `torch_compile`: False
-- `torch_compile_backend`: None
 - `torch_compile_mode`: None
 - `include_tokens_per_second`: False
 - `include_num_input_tokens_seen`: no
@@ -862,104 +864,38 @@ You can finetune this model on your own dataset.
 ### Training Logs
 | Epoch  | Step  | Training Loss |
 |:------:|:-----:|:-------------:|
-| 0.0202 | 500   | 4.5778        |
-| 0.0404 | 1000  | 3.5556        |
-| 0.0606 | 1500  | 2.5948        |
-| 0.0808 | 2000  | 2.3723        |
-| 0.1011 | 2500  | 2.1149        |
-| 0.1213 | 3000  | 2.3977        |
-| 0.1415 | 3500  | 2.3535        |
-| 0.1617 | 4000  | 1.9057        |
-| 0.1819 | 4500  | 2.1313        |
-| 0.2021 | 5000  | 2.1719        |
-| 0.2223 | 5500  | 1.887         |
-| 0.2425 | 6000  | 2.1792        |
-| 0.2627 | 6500  | 2.3001        |
-| 0.2830 | 7000  | 2.0002        |
-| 0.3032 | 7500  | 1.9358        |
-| 0.3234 | 8000  | 1.9074        |
-| 0.3436 | 8500  | 1.9204        |
-| 0.3638 | 9000  | 1.8991        |
-| 0.3840 | 9500  | 2.0086        |
-| 0.4042 | 10000 | 1.8229        |
-| 0.4244 | 10500 | 1.7437        |
-| 0.4446 | 11000 | 2.2012        |
-| 0.4649 | 11500 | 1.6898        |
-| 0.4851 | 12000 | 2.1212        |
-| 0.5053 | 12500 | 1.8014        |
-| 0.5255 | 13000 | 2.1112        |
-| 0.5457 | 13500 | 1.885         |
-| 0.5659 | 14000 | 1.6889        |
-| 0.5861 | 14500 | 1.6377        |
-| 0.6063 | 15000 | 1.8526        |
-| 0.6265 | 15500 | 1.8912        |
-| 0.6468 | 16000 | 1.8621        |
-| 0.6670 | 16500 | 1.743         |
-| 0.6872 | 17000 | 1.5893        |
-| 0.7074 | 17500 | 1.9079        |
-| 0.7276 | 18000 | 1.5885        |
-| 0.7478 | 18500 | 1.9128        |
-| 0.7680 | 19000 | 1.6654        |
-| 0.7882 | 19500 | 1.7099        |
-| 0.8084 | 20000 | 1.4688        |
-| 0.8287 | 20500 | 1.3844        |
-| 0.8489 | 21000 | 1.7908        |
-| 0.8691 | 21500 | 1.7075        |
-| 0.8893 | 22000 | 1.8114        |
-| 0.9095 | 22500 | 1.5198        |
-| 0.9297 | 23000 | 1.8605        |
-| 0.9499 | 23500 | 1.6604        |
-| 0.9701 | 24000 | 1.5891        |
-| 0.9903 | 24500 | 1.5906        |
-| 1.0106 | 25000 | 1.5027        |
-| 1.0308 | 25500 | 1.7599        |
-| 1.0510 | 26000 | 1.4124        |
-| 1.0712 | 26500 | 1.5636        |
-| 1.0914 | 27000 | 1.6126        |
-| 1.1116 | 27500 | 1.4625        |
-| 1.1318 | 28000 | 1.4467        |
-| 1.1520 | 28500 | 1.6898        |
-| 1.1722 | 29000 | 1.5088        |
-| 1.1924 | 29500 | 1.5158        |
-| 1.2127 | 30000 | 1.5266        |
-| 1.2329 | 30500 | 1.465         |
-| 1.2531 | 31000 | 1.5687        |
-| 1.2733 | 31500 | 1.4397        |
-| 1.2935 | 32000 | 1.7929        |
-| 1.3137 | 32500 | 1.5893        |
-| 1.3339 | 33000 | 1.4727        |
-| 1.3541 | 33500 | 1.6007        |
-| 1.3743 | 34000 | 1.2833        |
-| 1.3946 | 34500 | 1.5541        |
-| 1.4148 | 35000 | 1.3354        |
-| 1.4350 | 35500 | 1.4509        |
-| 1.4552 | 36000 | 1.6065        |
-| 1.4754 | 36500 | 1.6393        |
-| 1.4956 | 37000 | 1.3914        |
-| 1.5158 | 37500 | 1.3584        |
-| 1.5360 | 38000 | 1.5504        |
-| 1.5562 | 38500 | 1.2169        |
-| 1.5765 | 39000 | 1.4081        |
-| 1.5967 | 39500 | 1.5506        |
-| 1.6169 | 40000 | 1.473         |
-| 1.6371 | 40500 | 1.2517        |
-| 1.6573 | 41000 | 1.7644        |
-| 1.6775 | 41500 | 1.4237        |
-| 1.6977 | 42000 | 1.295         |
-| 1.7179 | 42500 | 1.4951        |
-| 1.7381 | 43000 | 1.4389        |
-| 1.7584 | 43500 | 1.5742        |
-| 1.7786 | 44000 | 1.4843        |
-| 1.7988 | 44500 | 1.4806        |
-| 1.8190 | 45000 | 1.3674        |
-| 1.8392 | 45500 | 1.329         |
-| 1.8594 | 46000 | 1.7644        |
-| 1.8796 | 46500 | 1.36          |
-| 1.8998 | 47000 | 1.2003        |
-| 1.9200 | 47500 | 1.233         |
-| 1.9403 | 48000 | 1.5147        |
-| 1.9605 | 48500 | 1.3838        |
-| 1.9807 | 49000 | 1.4928        |
 ### Framework Versions

 # Get the similarity scores for the embeddings
 similarities = model.similarity(query_embeddings, document_embeddings)
 print(similarities)
+# tensor([[ 0.5738,  0.0240, -0.0787]])
 ```
 <!--
 ### Training Hyperparameters
 #### Non-Default Hyperparameters
+- `per_device_train_batch_size`: 384
+- `learning_rate`: 0.0001
 - `weight_decay`: 1e-06
+- `num_train_epochs`: 1
 - `warmup_ratio`: 0.1
 - `fp16`: True
 - `gradient_checkpointing`: True
+- `torch_compile`: True
+- `torch_compile_backend`: inductor
 #### All Hyperparameters
 <details><summary>Click to expand</summary>
 - `do_predict`: False
 - `eval_strategy`: no
 - `prediction_loss_only`: True
+- `per_device_train_batch_size`: 384
 - `per_device_eval_batch_size`: 8
 - `per_gpu_train_batch_size`: None
 - `per_gpu_eval_batch_size`: None
 - `gradient_accumulation_steps`: 1
 - `eval_accumulation_steps`: None
 - `torch_empty_cache_steps`: None
+- `learning_rate`: 0.0001
 - `weight_decay`: 1e-06
 - `adam_beta1`: 0.9
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
+- `num_train_epochs`: 1
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
 - `torchdynamo`: None
 - `ray_scope`: last
 - `ddp_timeout`: 1800
+- `torch_compile`: True
+- `torch_compile_backend`: inductor
 - `torch_compile_mode`: None
 - `include_tokens_per_second`: False
 - `include_num_input_tokens_seen`: no
 ### Training Logs
 | Epoch  | Step  | Training Loss |
 |:------:|:-----:|:-------------:|
+| 0.0303 | 500   | 4.8473        |
+| 0.0606 | 1000  | 2.6754        |
+| 0.0909 | 1500  | 2.6358        |
+| 0.1212 | 2000  | 2.619         |
+| 0.1515 | 2500  | 2.8342        |
+| 0.1818 | 3000  | 2.2872        |
+| 0.2121 | 3500  | 2.2727        |
+| 0.2424 | 4000  | 2.3469        |
+| 0.2727 | 4500  | 2.1085        |
+| 0.3030 | 5000  | 2.2076        |
+| 0.3334 | 5500  | 2.1161        |
+| 0.3637 | 6000  | 2.2332        |
+| 0.3940 | 6500  | 2.1574        |
+| 0.4243 | 7000  | 2.1012        |
+| 0.4546 | 7500  | 1.946         |
+| 0.4849 | 8000  | 1.7233        |
+| 0.5152 | 8500  | 2.4444        |
+| 0.5455 | 9000  | 2.1055        |
+| 0.5758 | 9500  | 1.9107        |
+| 0.6061 | 10000 | 2.0212        |
+| 0.6364 | 10500 | 2.1029        |
+| 0.6667 | 11000 | 1.8484        |
+| 0.6970 | 11500 | 2.1658        |
+| 0.7273 | 12000 | 2.1007        |
+| 0.7576 | 12500 | 1.9194        |
+| 0.7879 | 13000 | 1.6709        |
+| 0.8182 | 13500 | 1.7653        |
+| 0.8485 | 14000 | 1.952         |
+| 0.8788 | 14500 | 1.8437        |
+| 0.9091 | 15000 | 1.6667        |
+| 0.9395 | 15500 | 1.7433        |
+| 0.9698 | 16000 | 1.7623        |
 ### Framework Versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:895b49d6283aa8bc1a1bcf30e93046f410c8c32d946f0ee02e688c55f602024c
 size 127538496

 version https://git-lfs.github.com/spec/v1
+oid sha256:7658290cf36da3d18ee7ebfc328f9c40bd49d23c22c9bf0cd9cb101c1c526c40
 size 127538496