Upload checkpoint-2100
Browse files- checkpoints/checkpoint-2100/1_Pooling/config.json +10 -0
- checkpoints/checkpoint-2100/README.md +482 -0
- checkpoints/checkpoint-2100/config.json +45 -0
- checkpoints/checkpoint-2100/config_sentence_transformers.json +14 -0
- checkpoints/checkpoint-2100/model.safetensors +3 -0
- checkpoints/checkpoint-2100/modules.json +20 -0
- checkpoints/checkpoint-2100/optimizer.pt +3 -0
- checkpoints/checkpoint-2100/rng_state_0.pth +3 -0
- checkpoints/checkpoint-2100/rng_state_1.pth +3 -0
- checkpoints/checkpoint-2100/scheduler.pt +3 -0
- checkpoints/checkpoint-2100/sentence_bert_config.json +4 -0
- checkpoints/checkpoint-2100/special_tokens_map.json +37 -0
- checkpoints/checkpoint-2100/tokenizer.json +0 -0
- checkpoints/checkpoint-2100/tokenizer_config.json +569 -0
- checkpoints/checkpoint-2100/trainer_state.json +336 -0
- checkpoints/checkpoint-2100/training_args.bin +3 -0
checkpoints/checkpoint-2100/1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 768,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
checkpoints/checkpoint-2100/README.md
ADDED
|
@@ -0,0 +1,482 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- sentence-similarity
|
| 5 |
+
- feature-extraction
|
| 6 |
+
- dense
|
| 7 |
+
- generated_from_trainer
|
| 8 |
+
- dataset_size:541248
|
| 9 |
+
- loss:MatryoshkaLoss
|
| 10 |
+
- loss:MultipleNegativesRankingLoss
|
| 11 |
+
base_model: QuangDuy/bert-base-stage2-hf
|
| 12 |
+
widget:
|
| 13 |
+
- source_sentence: aoa là gì
|
| 14 |
+
sentences:
|
| 15 |
+
- AOA tăng do đường hợp âm hiệu dụng, chạy từ mép trước của cánh đến mép sau của
|
| 16 |
+
cánh, xoay lên trên. Điều này làm tăng góc giữa đường hợp âm và gió tương đối
|
| 17 |
+
(AOA). Kết quả là gì? Sự gia tăng độ khum này và AOA tạo ra nhiều lực nâng hơn.
|
| 18 |
+
Vì cánh lật xuống có độ khum hơn so với cánh sạch, nó tạo ra cùng một lực nâng
|
| 19 |
+
ở AOA nhỏ hơn. Máy bay hạ cánh lúc này bay ở AOA nhỏ hơn để cân bằng bốn lực bay.
|
| 20 |
+
- AOA ủng hộ ủy ban, tiếp tục kêu gọi nó xem xét tất cả các lựa chọn dựa trên sự
|
| 21 |
+
tăng trưởng của sân bay, kêu gọi nó tuân theo thời gian biểu của việc gửi báo
|
| 22 |
+
cáo cuối cùng của mình không muộn hơn mùa hè năm 2015, và khuyến khích các đảng
|
| 23 |
+
chính trị cam kết hành động theo ủy ban. những phát hiện.
|
| 24 |
+
- Cháy là một phản ứng hóa học tỏa ra ánh sáng và sức nóng. Nó là một ví dụ về quá
|
| 25 |
+
trình hóa học của quá trình oxy hóa.
|
| 26 |
+
- source_sentence: utms là gì
|
| 27 |
+
sentences:
|
| 28 |
+
- UMTS là một trong những hệ thống di động thế hệ thứ ba (3G) đang được phát triển
|
| 29 |
+
trong khuôn khổ IMT-2000 của ITU. Đó là sự hiện thực hóa thế hệ công nghệ viễn
|
| 30 |
+
thông di động đa phương tiện băng thông rộng mới. Phạm vi phủ sóng của việc cung
|
| 31 |
+
cấp dịch vụ sẽ rộng khắp thế giới dưới hình thức FLMTS (Dịch vụ Viễn thông Di
|
| 32 |
+
động của Future Land và hiện nay được gọi là IMT2000).
|
| 33 |
+
- Bổ sung bla là gì, tài liệu bổ sung bla là gì, tải toàn bộ tài liệu bổ sung bla
|
| 34 |
+
là gì về máy tính của bạn.
|
| 35 |
+
- Dị dạng động mạch (AVM) là một kết nối bất thường giữa động mạch và tĩnh mạch,
|
| 36 |
+
bỏ qua hệ thống mao mạch. Dị tật mạch máu này được biết đến rộng rãi vì nó xảy
|
| 37 |
+
ra ở hệ thần kinh trung ương, nhưng có thể xuất hiện ở bất kỳ vị trí nào. Các
|
| 38 |
+
kiểu lây truyền di truyền của AVM, nếu có, vẫn chưa được biết. AVM thường không
|
| 39 |
+
được cho là một rối loạn di truyền, trừ khi trong bối cảnh của một hội chứng di
|
| 40 |
+
truyền cụ thể.
|
| 41 |
+
- source_sentence: hph là gì
|
| 42 |
+
sentences:
|
| 43 |
+
- HPH là nhà đầu tư, phát triển và khai thác cảng hàng đầu thế giới, có lợi ích
|
| 44 |
+
tại 22 quốc gia trên khắp Châu Á, Trung Đông, Châu Phi, Châu Âu và Châu Mỹ.
|
| 45 |
+
- Một từ khác cho oxit boric là gì? Một từ khác cho borickites là gì? Một từ khác
|
| 46 |
+
cho borickite là gì? Một từ khác cho axit boric là gì? Một từ khác cho axit boric
|
| 47 |
+
là gì? Một từ khác cho vi sinh vật là gì? Một từ khác cho ngao ngán là gì? Một
|
| 48 |
+
từ khác cho ngao nhàm chán là gì? Một từ khác cho nhàm chán là gì? Một từ khác
|
| 49 |
+
cho nhàm chán nhất là gì? Một từ khác cho nhàm chán là gì?
|
| 50 |
+
- Nếu bác sĩ trị liệu của bạn có các chữ cái MPT hoặc MSPT, điều này cho thấy bằng
|
| 51 |
+
thạc sĩ về vật lý trị liệu. Hầu hết các chương trình ngày nay đều đào tạo các
|
| 52 |
+
nhà trị liệu để lấy bằng DPT, viết tắt của tiến sĩ vật lý trị liệu. Ngoài các
|
| 53 |
+
chứng chỉ giáo dục cơ bản này, bạn có thể tìm thấy một loạt các kết hợp chữ cái
|
| 54 |
+
khác.
|
| 55 |
+
- source_sentence: kani là gì
|
| 56 |
+
sentences:
|
| 57 |
+
- 1 Rối loạn ám ảnh cưỡng chế (OCD) là một chứng rối loạn lo âu được đặc trưng bởi
|
| 58 |
+
những suy nghĩ hoặc hình ảnh không thể cưỡng lại được (ám ảnh) và / hoặc những
|
| 59 |
+
nghi thức / hành vi cứng nhắc có thể bị thúc đẩy bởi những ám ảnh (cưỡng chế).
|
| 60 |
+
- Tobitama (Tôi thích sự giòn tan của món tobiko nhỏ bé!) Món chay Tempura Roll.
|
| 61 |
+
Crispy Cobra - tôm tempura, bơ, w / kani phủ lên trên và giòn. Sexy Roll - bơ,
|
| 62 |
+
thịt cua, phủ trên cùng với lươn nướng. Rattlesnake Roll - cua, tôm tempura phủ
|
| 63 |
+
trên cùng với lươn nướng, bơ & sốt đặc biệt.
|
| 64 |
+
- Hỏi và đáp cộng đồng. Kani là thuật ngữ tiếng Nhật để chỉ cua, được dùng trong
|
| 65 |
+
món sushi. Món salad rau nhẹ này tạo ra món khai vị hoặc bữa trưa hoàn hảo trong
|
| 66 |
+
một ngày mát mẻ. Hãy thử công thức salad kani này.
|
| 67 |
+
- source_sentence: akni là gì
|
| 68 |
+
sentences:
|
| 69 |
+
- Akni là một loại gạo Ấn Độ một nồi cay được làm từ thịt c��u, thịt gà hoặc thịt
|
| 70 |
+
cừu với hương vị tương tự như rượu bia. 1 KNORR Rice Mate Mild Breyani Kết hợp
|
| 71 |
+
hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào bao gồm trái cây, đặc
|
| 72 |
+
biệt là mơ. Kni là một loại gạo Ấn Độ một nồi cay được làm từ thịt cừu, thịt gà
|
| 73 |
+
hoặc thịt cừu với hương vị tương tự như hương vị của rượu bia. 1 KNORR Rice Mate
|
| 74 |
+
Mild Breyani Kết hợp hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào có
|
| 75 |
+
trái cây, đặc biệt là mơ.
|
| 76 |
+
- 'Cụm từ tìm kiếm liên quan: Máy bơm ly tâm là gì, Máy bơm không cánh là gì, Máy
|
| 77 |
+
bơm hóa chất là gì, Máy bơm công nghiệp là gì, Máy bơm hóa dầu là gì, Máy bơm
|
| 78 |
+
chạy cạn là gì, Máy bơm chống ăn mòn là gì, Bơm truyền động từ là gì, Bơm truyền
|
| 79 |
+
động từ là gì.'
|
| 80 |
+
- 0C là điểm đóng băng của nước (hay chính xác hơn là điểm tan chảy của nước đá)
|
| 81 |
+
và nó là 32F. Thay đổi 1 độ C là 1,8 độ F thay đổi trong khi thay đổi 1 độ C chuyển
|
| 82 |
+
thành 0,55 độ C. Đây là một trong những cách dễ nhất để chuyển đổi chúng nếu bạn
|
| 83 |
+
biết rằng 0C = 32F.
|
| 84 |
+
pipeline_tag: sentence-similarity
|
| 85 |
+
library_name: sentence-transformers
|
| 86 |
+
---
|
| 87 |
+
|
| 88 |
+
# SentenceTransformer based on QuangDuy/bert-base-stage2-hf
|
| 89 |
+
|
| 90 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [QuangDuy/bert-base-stage2-hf](https://huggingface.co/QuangDuy/bert-base-stage2-hf). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 91 |
+
|
| 92 |
+
## Model Details
|
| 93 |
+
|
| 94 |
+
### Model Description
|
| 95 |
+
- **Model Type:** Sentence Transformer
|
| 96 |
+
- **Base model:** [QuangDuy/bert-base-stage2-hf](https://huggingface.co/QuangDuy/bert-base-stage2-hf) <!-- at revision 6a6ac1ff59259c4fe29b121488afa79d0bfe3e6a -->
|
| 97 |
+
- **Maximum Sequence Length:** 512 tokens
|
| 98 |
+
- **Output Dimensionality:** 768 dimensions
|
| 99 |
+
- **Similarity Function:** Cosine Similarity
|
| 100 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 101 |
+
<!-- - **Language:** Unknown -->
|
| 102 |
+
<!-- - **License:** Unknown -->
|
| 103 |
+
|
| 104 |
+
### Model Sources
|
| 105 |
+
|
| 106 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 107 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
|
| 108 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 109 |
+
|
| 110 |
+
### Full Model Architecture
|
| 111 |
+
|
| 112 |
+
```
|
| 113 |
+
SentenceTransformer(
|
| 114 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
|
| 115 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 116 |
+
(2): Normalize()
|
| 117 |
+
)
|
| 118 |
+
```
|
| 119 |
+
|
| 120 |
+
## Usage
|
| 121 |
+
|
| 122 |
+
### Direct Usage (Sentence Transformers)
|
| 123 |
+
|
| 124 |
+
First install the Sentence Transformers library:
|
| 125 |
+
|
| 126 |
+
```bash
|
| 127 |
+
pip install -U sentence-transformers
|
| 128 |
+
```
|
| 129 |
+
|
| 130 |
+
Then you can load this model and run inference.
|
| 131 |
+
```python
|
| 132 |
+
from sentence_transformers import SentenceTransformer
|
| 133 |
+
|
| 134 |
+
# Download from the 🤗 Hub
|
| 135 |
+
model = SentenceTransformer("sentence_transformers_model_id")
|
| 136 |
+
# Run inference
|
| 137 |
+
sentences = [
|
| 138 |
+
'akni là gì',
|
| 139 |
+
'Akni là một loại gạo Ấn Độ một nồi cay được làm từ thịt cừu, thịt gà hoặc thịt cừu với hương vị tương tự như rượu bia. 1 KNORR Rice Mate Mild Breyani Kết hợp hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào bao gồm trái cây, đặc biệt là mơ. Kni là một loại gạo Ấn Độ một nồi cay được làm từ thịt cừu, thịt gà hoặc thịt cừu với hương vị tương tự như hương vị của rượu bia. 1 KNORR Rice Mate Mild Breyani Kết hợp hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào có trái cây, đặc biệt là mơ.',
|
| 140 |
+
'Cụm từ tìm kiếm liên quan: Máy bơm ly tâm là gì, Máy bơm không cánh là gì, Máy bơm hóa chất là gì, Máy bơm công nghiệp là gì, Máy bơm hóa dầu là gì, Máy bơm chạy cạn là gì, Máy bơm chống ăn mòn là gì, Bơm truyền động từ là gì, Bơm truyền động từ là gì.',
|
| 141 |
+
]
|
| 142 |
+
embeddings = model.encode(sentences)
|
| 143 |
+
print(embeddings.shape)
|
| 144 |
+
# [3, 768]
|
| 145 |
+
|
| 146 |
+
# Get the similarity scores for the embeddings
|
| 147 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 148 |
+
print(similarities)
|
| 149 |
+
# tensor([[1.0000, 0.6081, 0.0269],
|
| 150 |
+
# [0.6081, 1.0000, 0.0362],
|
| 151 |
+
# [0.0269, 0.0362, 1.0000]])
|
| 152 |
+
```
|
| 153 |
+
|
| 154 |
+
<!--
|
| 155 |
+
### Direct Usage (Transformers)
|
| 156 |
+
|
| 157 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 158 |
+
|
| 159 |
+
</details>
|
| 160 |
+
-->
|
| 161 |
+
|
| 162 |
+
<!--
|
| 163 |
+
### Downstream Usage (Sentence Transformers)
|
| 164 |
+
|
| 165 |
+
You can finetune this model on your own dataset.
|
| 166 |
+
|
| 167 |
+
<details><summary>Click to expand</summary>
|
| 168 |
+
|
| 169 |
+
</details>
|
| 170 |
+
-->
|
| 171 |
+
|
| 172 |
+
<!--
|
| 173 |
+
### Out-of-Scope Use
|
| 174 |
+
|
| 175 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 176 |
+
-->
|
| 177 |
+
|
| 178 |
+
<!--
|
| 179 |
+
## Bias, Risks and Limitations
|
| 180 |
+
|
| 181 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 182 |
+
-->
|
| 183 |
+
|
| 184 |
+
<!--
|
| 185 |
+
### Recommendations
|
| 186 |
+
|
| 187 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 188 |
+
-->
|
| 189 |
+
|
| 190 |
+
## Training Details
|
| 191 |
+
|
| 192 |
+
### Training Dataset
|
| 193 |
+
|
| 194 |
+
#### Unnamed Dataset
|
| 195 |
+
|
| 196 |
+
* Size: 541,248 training samples
|
| 197 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
|
| 198 |
+
* Approximate statistics based on the first 1000 samples:
|
| 199 |
+
| | sentence_0 | sentence_1 | sentence_2 |
|
| 200 |
+
|:--------|:--------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
| 201 |
+
| type | string | string | string |
|
| 202 |
+
| details | <ul><li>min: 4 tokens</li><li>mean: 5.92 tokens</li><li>max: 8 tokens</li></ul> | <ul><li>min: 23 tokens</li><li>mean: 95.98 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 103.41 tokens</li><li>max: 512 tokens</li></ul> |
|
| 203 |
+
* Samples:
|
| 204 |
+
| sentence_0 | sentence_1 | sentence_2 |
|
| 205 |
+
|:-------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 206 |
+
| <code>svt là gì?</code> | <code>Nhịp tim nhanh trên thất là một loạt các nhịp tim nhanh bắt đầu trong hoặc liên quan đến các buồng trên (tâm nhĩ) của tim. SVT có thể khiến tim đập rất nhanh hoặc thất thường. Kết quả là tim có thể đập không hiệu quả và cơ thể có thể nhận được nguồn cung cấp máu không đủ.</code> | <code>Mustang SVT Cobra là một phương tiện có thể rất đắt. Thông thường, chiếc xe được gọi là Mustang SVT Cobra có thể có giá từ 25.000 đến 50.000 đô la Mỹ.</code> |
|
| 207 |
+
| <code>cây màu gì</code> | <code>Thông thường, thân cây được cho là có nhiều màu nâu khác nhau. Tuy nhiên, chúng có thể có nhiều màu sắc khác nhau. Màu xám là màu phổ biến ở các thân cây, cũng như màu xanh lục khi chúng còn nhỏ. Các loài cây cụ thể thường có màu vỏ cụ thể vào những thời điểm cụ thể trong năm, vì vậy bạn nên tìm kiếm những cây mà bạn quan tâm nếu bạn cần thêm thông tin. Thông thường thân cây được coi là có nhiều màu nâu khác nhau. Tuy nhiên, chúng có thể có nhiều màu sắc khác nhau.</code> | <code>Câu ví dụ cho mận. 1 Tôi tỉa khi cây còn nhỏ; thì vết thương không ảnh hưởng nhiều đến chúng; nó trả tiền, và rất cần thiết. 2 Màu dâu tằm, giống như màu mà chúng ta gọi là màu mận hoặc mận khô. 3 Khi đó năng lượng của cây ở mức tối thiểu và bạn có thể cắt tỉa an toàn hơn bất kỳ lúc nào khác.</code> |
|
| 208 |
+
| <code>ootd là gì?</code> | <code>OOTD có nghĩa là gì? Dưới đây là những ý nghĩa phổ biến nhất của OOTD: Outfit Of The Day. OOTD (Outfit Of The Day) thường được sử dụng trên các trang web thời trang hoặc trên các tạp chí (thường dành cho phụ nữ) để thể hiện trang phục đặc trưng của ngày hôm nay. Ý kiến của Ngày. OOTD (Opinion Of The Day) thường được sử dụng như một lời cảnh báo để đưa ra một khẳng định có vẻ ít thẳng thắn hơn.</code> | <code>(OOTD) Ngày 24 tháng 10 năm 2014: Mặc dù gặp phải một số tuyết trong chuyến đi gần đây của chúng tôi đếnࢠ€¦ (xem toàn bộ câu chuyện) (OOTD) Ngày 13 tháng 10 năm 2014: Chỉ cần đánh giá nhanh về hai mục Gần đây tôi đã nhận hàng tại Ann Taylorࢠ€¦ (xem toàn bộ câu chuyện) A BIG DEAL: Mua sắm toàn bộ danh sách bán hàng lớn nhất và tốt nhất vào Thứ Hai Điện Tử năm 2016 hiện nayࢠ€¦ . (OOTD) Ngày 7 tháng 7 năm 2015: Chỉ là một bài đăng nhanh về trang phục cho ngày hôm nay! Đây là những gì tôi đã mặc cho bbq của chúng tôi vào ngày thứ 4ࢠ€¦ (xem toàn bộ câu chuyện) (OOTD) Ngày 3 tháng 8 năm 2015: Giữ cho nó đơn giản hơn hôm nay với Anthropolgieࢠ€Â⠄của Pina Lace topࢠ€¦ (xem toàn bộ câu chuyện)</code> |
|
| 209 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
| 210 |
+
```json
|
| 211 |
+
{
|
| 212 |
+
"loss": "MultipleNegativesRankingLoss",
|
| 213 |
+
"matryoshka_dims": [
|
| 214 |
+
768,
|
| 215 |
+
512,
|
| 216 |
+
256,
|
| 217 |
+
128
|
| 218 |
+
],
|
| 219 |
+
"matryoshka_weights": [
|
| 220 |
+
1,
|
| 221 |
+
1,
|
| 222 |
+
1,
|
| 223 |
+
1
|
| 224 |
+
],
|
| 225 |
+
"n_dims_per_step": -1
|
| 226 |
+
}
|
| 227 |
+
```
|
| 228 |
+
|
| 229 |
+
### Training Hyperparameters
|
| 230 |
+
#### Non-Default Hyperparameters
|
| 231 |
+
|
| 232 |
+
- `eval_strategy`: steps
|
| 233 |
+
- `per_device_train_batch_size`: 64
|
| 234 |
+
- `per_device_eval_batch_size`: 64
|
| 235 |
+
- `weight_decay`: 0.01
|
| 236 |
+
- `num_train_epochs`: 5
|
| 237 |
+
- `warmup_steps`: 4229
|
| 238 |
+
- `bf16`: True
|
| 239 |
+
- `gradient_checkpointing`: True
|
| 240 |
+
- `gradient_checkpointing_kwargs`: {'use_reentrant': False}
|
| 241 |
+
- `batch_sampler`: no_duplicates
|
| 242 |
+
|
| 243 |
+
#### All Hyperparameters
|
| 244 |
+
<details><summary>Click to expand</summary>
|
| 245 |
+
|
| 246 |
+
- `overwrite_output_dir`: False
|
| 247 |
+
- `do_predict`: False
|
| 248 |
+
- `eval_strategy`: steps
|
| 249 |
+
- `prediction_loss_only`: True
|
| 250 |
+
- `per_device_train_batch_size`: 64
|
| 251 |
+
- `per_device_eval_batch_size`: 64
|
| 252 |
+
- `per_gpu_train_batch_size`: None
|
| 253 |
+
- `per_gpu_eval_batch_size`: None
|
| 254 |
+
- `gradient_accumulation_steps`: 1
|
| 255 |
+
- `eval_accumulation_steps`: None
|
| 256 |
+
- `torch_empty_cache_steps`: None
|
| 257 |
+
- `learning_rate`: 5e-05
|
| 258 |
+
- `weight_decay`: 0.01
|
| 259 |
+
- `adam_beta1`: 0.9
|
| 260 |
+
- `adam_beta2`: 0.999
|
| 261 |
+
- `adam_epsilon`: 1e-08
|
| 262 |
+
- `max_grad_norm`: 1.0
|
| 263 |
+
- `num_train_epochs`: 5
|
| 264 |
+
- `max_steps`: -1
|
| 265 |
+
- `lr_scheduler_type`: linear
|
| 266 |
+
- `lr_scheduler_kwargs`: None
|
| 267 |
+
- `warmup_ratio`: 0.0
|
| 268 |
+
- `warmup_steps`: 4229
|
| 269 |
+
- `log_level`: passive
|
| 270 |
+
- `log_level_replica`: warning
|
| 271 |
+
- `log_on_each_node`: True
|
| 272 |
+
- `logging_nan_inf_filter`: True
|
| 273 |
+
- `save_safetensors`: True
|
| 274 |
+
- `save_on_each_node`: False
|
| 275 |
+
- `save_only_model`: False
|
| 276 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 277 |
+
- `no_cuda`: False
|
| 278 |
+
- `use_cpu`: False
|
| 279 |
+
- `use_mps_device`: False
|
| 280 |
+
- `seed`: 42
|
| 281 |
+
- `data_seed`: None
|
| 282 |
+
- `jit_mode_eval`: False
|
| 283 |
+
- `bf16`: True
|
| 284 |
+
- `fp16`: False
|
| 285 |
+
- `fp16_opt_level`: O1
|
| 286 |
+
- `half_precision_backend`: auto
|
| 287 |
+
- `bf16_full_eval`: False
|
| 288 |
+
- `fp16_full_eval`: False
|
| 289 |
+
- `tf32`: None
|
| 290 |
+
- `local_rank`: 0
|
| 291 |
+
- `ddp_backend`: None
|
| 292 |
+
- `tpu_num_cores`: None
|
| 293 |
+
- `tpu_metrics_debug`: False
|
| 294 |
+
- `debug`: []
|
| 295 |
+
- `dataloader_drop_last`: True
|
| 296 |
+
- `dataloader_num_workers`: 0
|
| 297 |
+
- `dataloader_prefetch_factor`: None
|
| 298 |
+
- `past_index`: -1
|
| 299 |
+
- `disable_tqdm`: False
|
| 300 |
+
- `remove_unused_columns`: True
|
| 301 |
+
- `label_names`: None
|
| 302 |
+
- `load_best_model_at_end`: False
|
| 303 |
+
- `ignore_data_skip`: False
|
| 304 |
+
- `fsdp`: []
|
| 305 |
+
- `fsdp_min_num_params`: 0
|
| 306 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 307 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 308 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 309 |
+
- `parallelism_config`: None
|
| 310 |
+
- `deepspeed`: None
|
| 311 |
+
- `label_smoothing_factor`: 0.0
|
| 312 |
+
- `optim`: adamw_torch_fused
|
| 313 |
+
- `optim_args`: None
|
| 314 |
+
- `adafactor`: False
|
| 315 |
+
- `group_by_length`: False
|
| 316 |
+
- `length_column_name`: length
|
| 317 |
+
- `project`: huggingface
|
| 318 |
+
- `trackio_space_id`: trackio
|
| 319 |
+
- `ddp_find_unused_parameters`: None
|
| 320 |
+
- `ddp_bucket_cap_mb`: None
|
| 321 |
+
- `ddp_broadcast_buffers`: False
|
| 322 |
+
- `dataloader_pin_memory`: True
|
| 323 |
+
- `dataloader_persistent_workers`: False
|
| 324 |
+
- `skip_memory_metrics`: True
|
| 325 |
+
- `use_legacy_prediction_loop`: False
|
| 326 |
+
- `push_to_hub`: False
|
| 327 |
+
- `resume_from_checkpoint`: None
|
| 328 |
+
- `hub_model_id`: None
|
| 329 |
+
- `hub_strategy`: every_save
|
| 330 |
+
- `hub_private_repo`: None
|
| 331 |
+
- `hub_always_push`: False
|
| 332 |
+
- `hub_revision`: None
|
| 333 |
+
- `gradient_checkpointing`: True
|
| 334 |
+
- `gradient_checkpointing_kwargs`: {'use_reentrant': False}
|
| 335 |
+
- `include_inputs_for_metrics`: False
|
| 336 |
+
- `include_for_metrics`: []
|
| 337 |
+
- `eval_do_concat_batches`: True
|
| 338 |
+
- `fp16_backend`: auto
|
| 339 |
+
- `push_to_hub_model_id`: None
|
| 340 |
+
- `push_to_hub_organization`: None
|
| 341 |
+
- `mp_parameters`:
|
| 342 |
+
- `auto_find_batch_size`: False
|
| 343 |
+
- `full_determinism`: False
|
| 344 |
+
- `torchdynamo`: None
|
| 345 |
+
- `ray_scope`: last
|
| 346 |
+
- `ddp_timeout`: 1800
|
| 347 |
+
- `torch_compile`: False
|
| 348 |
+
- `torch_compile_backend`: None
|
| 349 |
+
- `torch_compile_mode`: None
|
| 350 |
+
- `include_tokens_per_second`: False
|
| 351 |
+
- `include_num_input_tokens_seen`: no
|
| 352 |
+
- `neftune_noise_alpha`: None
|
| 353 |
+
- `optim_target_modules`: None
|
| 354 |
+
- `batch_eval_metrics`: False
|
| 355 |
+
- `eval_on_start`: False
|
| 356 |
+
- `use_liger_kernel`: False
|
| 357 |
+
- `liger_kernel_config`: None
|
| 358 |
+
- `eval_use_gather_object`: False
|
| 359 |
+
- `average_tokens_across_devices`: True
|
| 360 |
+
- `prompts`: None
|
| 361 |
+
- `batch_sampler`: no_duplicates
|
| 362 |
+
- `multi_dataset_batch_sampler`: proportional
|
| 363 |
+
- `router_mapping`: {}
|
| 364 |
+
- `learning_rate_mapping`: {}
|
| 365 |
+
|
| 366 |
+
</details>
|
| 367 |
+
|
| 368 |
+
### Training Logs
|
| 369 |
+
| Epoch | Step | Training Loss | validation loss |
|
| 370 |
+
|:------:|:----:|:-------------:|:---------------:|
|
| 371 |
+
| 0.0118 | 50 | 15.9603 | - |
|
| 372 |
+
| 0.0237 | 100 | 14.7061 | - |
|
| 373 |
+
| 0.0355 | 150 | 12.797 | - |
|
| 374 |
+
| 0.0473 | 200 | 10.4224 | - |
|
| 375 |
+
| 0.0591 | 250 | 7.7023 | - |
|
| 376 |
+
| 0.0710 | 300 | 6.1814 | - |
|
| 377 |
+
| 0.0828 | 350 | 5.1295 | - |
|
| 378 |
+
| 0.0946 | 400 | 4.5724 | - |
|
| 379 |
+
| 0.1064 | 450 | 4.3299 | - |
|
| 380 |
+
| 0.1183 | 500 | 3.9241 | - |
|
| 381 |
+
| 0.1301 | 550 | 3.7726 | - |
|
| 382 |
+
| 0.1419 | 600 | 3.5488 | - |
|
| 383 |
+
| 0.1537 | 650 | 3.4224 | - |
|
| 384 |
+
| 0.1656 | 700 | 3.1461 | - |
|
| 385 |
+
| 0.1774 | 750 | 3.091 | - |
|
| 386 |
+
| 0.1892 | 800 | 3.0397 | - |
|
| 387 |
+
| 0.2010 | 850 | 2.7937 | - |
|
| 388 |
+
| 0.2129 | 900 | 2.7832 | - |
|
| 389 |
+
| 0.2247 | 950 | 2.7144 | - |
|
| 390 |
+
| 0.2365 | 1000 | 2.4957 | - |
|
| 391 |
+
| 0.2483 | 1050 | 2.5517 | - |
|
| 392 |
+
| 0.2602 | 1100 | 2.571 | - |
|
| 393 |
+
| 0.2720 | 1150 | 2.5598 | - |
|
| 394 |
+
| 0.2838 | 1200 | 2.4329 | - |
|
| 395 |
+
| 0.2956 | 1250 | 2.443 | - |
|
| 396 |
+
| 0.3075 | 1300 | 2.3928 | - |
|
| 397 |
+
| 0.3193 | 1350 | 2.3792 | - |
|
| 398 |
+
| 0.3311 | 1400 | 2.2843 | - |
|
| 399 |
+
| 0.3430 | 1450 | 2.1745 | - |
|
| 400 |
+
| 0.3548 | 1500 | 2.2979 | - |
|
| 401 |
+
| 0.3666 | 1550 | 2.2486 | - |
|
| 402 |
+
| 0.3784 | 1600 | 2.0867 | - |
|
| 403 |
+
| 0.3903 | 1650 | 2.2764 | - |
|
| 404 |
+
| 0.4021 | 1700 | 2.1324 | - |
|
| 405 |
+
| 0.4139 | 1750 | 2.0987 | - |
|
| 406 |
+
| 0.4257 | 1800 | 2.1326 | - |
|
| 407 |
+
| 0.4376 | 1850 | 2.0193 | - |
|
| 408 |
+
| 0.4494 | 1900 | 2.0284 | - |
|
| 409 |
+
| 0.4612 | 1950 | 2.0608 | - |
|
| 410 |
+
| 0.4730 | 2000 | 2.0469 | - |
|
| 411 |
+
| 0.4849 | 2050 | 2.0067 | - |
|
| 412 |
+
| 0.4967 | 2100 | 2.0569 | 3.4283 |
|
| 413 |
+
|
| 414 |
+
|
| 415 |
+
### Framework Versions
|
| 416 |
+
- Python: 3.11.15
|
| 417 |
+
- Sentence Transformers: 5.3.0
|
| 418 |
+
- Transformers: 4.57.6
|
| 419 |
+
- PyTorch: 2.11.0+cu130
|
| 420 |
+
- Accelerate: 1.13.0
|
| 421 |
+
- Datasets: 3.6.0
|
| 422 |
+
- Tokenizers: 0.22.2
|
| 423 |
+
|
| 424 |
+
## Citation
|
| 425 |
+
|
| 426 |
+
### BibTeX
|
| 427 |
+
|
| 428 |
+
#### Sentence Transformers
|
| 429 |
+
```bibtex
|
| 430 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 431 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 432 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 433 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 434 |
+
month = "11",
|
| 435 |
+
year = "2019",
|
| 436 |
+
publisher = "Association for Computational Linguistics",
|
| 437 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 438 |
+
}
|
| 439 |
+
```
|
| 440 |
+
|
| 441 |
+
#### MatryoshkaLoss
|
| 442 |
+
```bibtex
|
| 443 |
+
@misc{kusupati2024matryoshka,
|
| 444 |
+
title={Matryoshka Representation Learning},
|
| 445 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
| 446 |
+
year={2024},
|
| 447 |
+
eprint={2205.13147},
|
| 448 |
+
archivePrefix={arXiv},
|
| 449 |
+
primaryClass={cs.LG}
|
| 450 |
+
}
|
| 451 |
+
```
|
| 452 |
+
|
| 453 |
+
#### MultipleNegativesRankingLoss
|
| 454 |
+
```bibtex
|
| 455 |
+
@misc{oord2019representationlearningcontrastivepredictive,
|
| 456 |
+
title={Representation Learning with Contrastive Predictive Coding},
|
| 457 |
+
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
|
| 458 |
+
year={2019},
|
| 459 |
+
eprint={1807.03748},
|
| 460 |
+
archivePrefix={arXiv},
|
| 461 |
+
primaryClass={cs.LG},
|
| 462 |
+
url={https://arxiv.org/abs/1807.03748},
|
| 463 |
+
}
|
| 464 |
+
```
|
| 465 |
+
|
| 466 |
+
<!--
|
| 467 |
+
## Glossary
|
| 468 |
+
|
| 469 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 470 |
+
-->
|
| 471 |
+
|
| 472 |
+
<!--
|
| 473 |
+
## Model Card Authors
|
| 474 |
+
|
| 475 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 476 |
+
-->
|
| 477 |
+
|
| 478 |
+
<!--
|
| 479 |
+
## Model Card Contact
|
| 480 |
+
|
| 481 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 482 |
+
-->
|
checkpoints/checkpoint-2100/config.json
ADDED
|
@@ -0,0 +1,45 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"ModernBertModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_bias": false,
|
| 6 |
+
"attention_dropout": 0.0,
|
| 7 |
+
"bos_token_id": 0,
|
| 8 |
+
"classifier_activation": "silu",
|
| 9 |
+
"classifier_bias": false,
|
| 10 |
+
"classifier_dropout": 0.0,
|
| 11 |
+
"classifier_pooling": "mean",
|
| 12 |
+
"cls_token_id": 0,
|
| 13 |
+
"decoder_bias": true,
|
| 14 |
+
"deterministic_flash_attn": false,
|
| 15 |
+
"dtype": "float32",
|
| 16 |
+
"embedding_dropout": 0.0,
|
| 17 |
+
"eos_token_id": 3,
|
| 18 |
+
"global_attn_every_n_layers": 3,
|
| 19 |
+
"global_rope_theta": 160000.0,
|
| 20 |
+
"gradient_checkpointing": false,
|
| 21 |
+
"hidden_activation": "gelu",
|
| 22 |
+
"hidden_size": 768,
|
| 23 |
+
"initializer_cutoff_factor": 2.0,
|
| 24 |
+
"initializer_range": 0.02,
|
| 25 |
+
"intermediate_size": 1152,
|
| 26 |
+
"layer_norm_eps": 1e-05,
|
| 27 |
+
"local_attention": 128,
|
| 28 |
+
"local_rope_theta": 160000.0,
|
| 29 |
+
"max_position_embeddings": 4096,
|
| 30 |
+
"mlp_bias": false,
|
| 31 |
+
"mlp_dropout": 0.0,
|
| 32 |
+
"model_type": "modernbert",
|
| 33 |
+
"norm_bias": false,
|
| 34 |
+
"norm_eps": 1e-05,
|
| 35 |
+
"num_attention_heads": 12,
|
| 36 |
+
"num_hidden_layers": 22,
|
| 37 |
+
"pad_token_id": 2,
|
| 38 |
+
"position_embedding_type": "absolute",
|
| 39 |
+
"repad_logits_with_grad": false,
|
| 40 |
+
"sep_token_id": 3,
|
| 41 |
+
"sparse_pred_ignore_index": -100,
|
| 42 |
+
"sparse_prediction": false,
|
| 43 |
+
"transformers_version": "4.57.6",
|
| 44 |
+
"vocab_size": 32064
|
| 45 |
+
}
|
checkpoints/checkpoint-2100/config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"model_type": "SentenceTransformer",
|
| 3 |
+
"__version__": {
|
| 4 |
+
"sentence_transformers": "5.3.0",
|
| 5 |
+
"transformers": "4.57.6",
|
| 6 |
+
"pytorch": "2.11.0+cu130"
|
| 7 |
+
},
|
| 8 |
+
"prompts": {
|
| 9 |
+
"query": "",
|
| 10 |
+
"document": ""
|
| 11 |
+
},
|
| 12 |
+
"default_prompt_name": null,
|
| 13 |
+
"similarity_fn_name": "cosine"
|
| 14 |
+
}
|
checkpoints/checkpoint-2100/model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:18ebe519bc9a02e147f059d3a1f4b45236dfbc1712f46f9d3e9ae63734a85c5c
|
| 3 |
+
size 539840248
|
checkpoints/checkpoint-2100/modules.json
ADDED
|
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
},
|
| 14 |
+
{
|
| 15 |
+
"idx": 2,
|
| 16 |
+
"name": "2",
|
| 17 |
+
"path": "2_Normalize",
|
| 18 |
+
"type": "sentence_transformers.models.Normalize"
|
| 19 |
+
}
|
| 20 |
+
]
|
checkpoints/checkpoint-2100/optimizer.pt
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:5ab660154566ed8861c1cb8d361c408fb464eec3c8b792af6ec455eb6468844d
|
| 3 |
+
size 1079769611
|
checkpoints/checkpoint-2100/rng_state_0.pth
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:60c96e0ca9dd9b4c5d2d91984ff4a9d05c40210daf3462a66de8857ef83eeb27
|
| 3 |
+
size 14917
|
checkpoints/checkpoint-2100/rng_state_1.pth
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:9b9c6aaa284dbb69b674c875130bd71b0c1166b0387f9efc946ea9ed97ea3008
|
| 3 |
+
size 14917
|
checkpoints/checkpoint-2100/scheduler.pt
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:aadc679658086766ea02f05873ddcc45db90da2c7048b354cc84214ed4c15db0
|
| 3 |
+
size 1465
|
checkpoints/checkpoint-2100/sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 512,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
checkpoints/checkpoint-2100/special_tokens_map.json
ADDED
|
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"cls_token": {
|
| 3 |
+
"content": "[CLS]",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"mask_token": {
|
| 10 |
+
"content": "[MASK]",
|
| 11 |
+
"lstrip": true,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"pad_token": {
|
| 17 |
+
"content": "[PAD]",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"sep_token": {
|
| 24 |
+
"content": "[SEP]",
|
| 25 |
+
"lstrip": false,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
},
|
| 30 |
+
"unk_token": {
|
| 31 |
+
"content": "[UNK]",
|
| 32 |
+
"lstrip": false,
|
| 33 |
+
"normalized": false,
|
| 34 |
+
"rstrip": false,
|
| 35 |
+
"single_word": false
|
| 36 |
+
}
|
| 37 |
+
}
|
checkpoints/checkpoint-2100/tokenizer.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
checkpoints/checkpoint-2100/tokenizer_config.json
ADDED
|
@@ -0,0 +1,569 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "[CLS]",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "[MASK]",
|
| 13 |
+
"lstrip": true,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "[PAD]",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "[SEP]",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"4": {
|
| 36 |
+
"content": "[UNK]",
|
| 37 |
+
"lstrip": false,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
},
|
| 43 |
+
"32000": {
|
| 44 |
+
"content": "[unused1]",
|
| 45 |
+
"lstrip": false,
|
| 46 |
+
"normalized": false,
|
| 47 |
+
"rstrip": false,
|
| 48 |
+
"single_word": false,
|
| 49 |
+
"special": true
|
| 50 |
+
},
|
| 51 |
+
"32001": {
|
| 52 |
+
"content": "[unused2]",
|
| 53 |
+
"lstrip": false,
|
| 54 |
+
"normalized": false,
|
| 55 |
+
"rstrip": false,
|
| 56 |
+
"single_word": false,
|
| 57 |
+
"special": true
|
| 58 |
+
},
|
| 59 |
+
"32002": {
|
| 60 |
+
"content": "[unused3]",
|
| 61 |
+
"lstrip": false,
|
| 62 |
+
"normalized": false,
|
| 63 |
+
"rstrip": false,
|
| 64 |
+
"single_word": false,
|
| 65 |
+
"special": true
|
| 66 |
+
},
|
| 67 |
+
"32003": {
|
| 68 |
+
"content": "[unused4]",
|
| 69 |
+
"lstrip": false,
|
| 70 |
+
"normalized": false,
|
| 71 |
+
"rstrip": false,
|
| 72 |
+
"single_word": false,
|
| 73 |
+
"special": true
|
| 74 |
+
},
|
| 75 |
+
"32004": {
|
| 76 |
+
"content": "[unused5]",
|
| 77 |
+
"lstrip": false,
|
| 78 |
+
"normalized": false,
|
| 79 |
+
"rstrip": false,
|
| 80 |
+
"single_word": false,
|
| 81 |
+
"special": true
|
| 82 |
+
},
|
| 83 |
+
"32005": {
|
| 84 |
+
"content": "[unused6]",
|
| 85 |
+
"lstrip": false,
|
| 86 |
+
"normalized": false,
|
| 87 |
+
"rstrip": false,
|
| 88 |
+
"single_word": false,
|
| 89 |
+
"special": true
|
| 90 |
+
},
|
| 91 |
+
"32006": {
|
| 92 |
+
"content": "[unused7]",
|
| 93 |
+
"lstrip": false,
|
| 94 |
+
"normalized": false,
|
| 95 |
+
"rstrip": false,
|
| 96 |
+
"single_word": false,
|
| 97 |
+
"special": true
|
| 98 |
+
},
|
| 99 |
+
"32007": {
|
| 100 |
+
"content": "[unused8]",
|
| 101 |
+
"lstrip": false,
|
| 102 |
+
"normalized": false,
|
| 103 |
+
"rstrip": false,
|
| 104 |
+
"single_word": false,
|
| 105 |
+
"special": true
|
| 106 |
+
},
|
| 107 |
+
"32008": {
|
| 108 |
+
"content": "[unused9]",
|
| 109 |
+
"lstrip": false,
|
| 110 |
+
"normalized": false,
|
| 111 |
+
"rstrip": false,
|
| 112 |
+
"single_word": false,
|
| 113 |
+
"special": true
|
| 114 |
+
},
|
| 115 |
+
"32009": {
|
| 116 |
+
"content": "[unused10]",
|
| 117 |
+
"lstrip": false,
|
| 118 |
+
"normalized": false,
|
| 119 |
+
"rstrip": false,
|
| 120 |
+
"single_word": false,
|
| 121 |
+
"special": true
|
| 122 |
+
},
|
| 123 |
+
"32010": {
|
| 124 |
+
"content": "[unused11]",
|
| 125 |
+
"lstrip": false,
|
| 126 |
+
"normalized": false,
|
| 127 |
+
"rstrip": false,
|
| 128 |
+
"single_word": false,
|
| 129 |
+
"special": true
|
| 130 |
+
},
|
| 131 |
+
"32011": {
|
| 132 |
+
"content": "[unused12]",
|
| 133 |
+
"lstrip": false,
|
| 134 |
+
"normalized": false,
|
| 135 |
+
"rstrip": false,
|
| 136 |
+
"single_word": false,
|
| 137 |
+
"special": true
|
| 138 |
+
},
|
| 139 |
+
"32012": {
|
| 140 |
+
"content": "[unused13]",
|
| 141 |
+
"lstrip": false,
|
| 142 |
+
"normalized": false,
|
| 143 |
+
"rstrip": false,
|
| 144 |
+
"single_word": false,
|
| 145 |
+
"special": true
|
| 146 |
+
},
|
| 147 |
+
"32013": {
|
| 148 |
+
"content": "[unused14]",
|
| 149 |
+
"lstrip": false,
|
| 150 |
+
"normalized": false,
|
| 151 |
+
"rstrip": false,
|
| 152 |
+
"single_word": false,
|
| 153 |
+
"special": true
|
| 154 |
+
},
|
| 155 |
+
"32014": {
|
| 156 |
+
"content": "[unused15]",
|
| 157 |
+
"lstrip": false,
|
| 158 |
+
"normalized": false,
|
| 159 |
+
"rstrip": false,
|
| 160 |
+
"single_word": false,
|
| 161 |
+
"special": true
|
| 162 |
+
},
|
| 163 |
+
"32015": {
|
| 164 |
+
"content": "[unused16]",
|
| 165 |
+
"lstrip": false,
|
| 166 |
+
"normalized": false,
|
| 167 |
+
"rstrip": false,
|
| 168 |
+
"single_word": false,
|
| 169 |
+
"special": true
|
| 170 |
+
},
|
| 171 |
+
"32016": {
|
| 172 |
+
"content": "[unused17]",
|
| 173 |
+
"lstrip": false,
|
| 174 |
+
"normalized": false,
|
| 175 |
+
"rstrip": false,
|
| 176 |
+
"single_word": false,
|
| 177 |
+
"special": true
|
| 178 |
+
},
|
| 179 |
+
"32017": {
|
| 180 |
+
"content": "[unused18]",
|
| 181 |
+
"lstrip": false,
|
| 182 |
+
"normalized": false,
|
| 183 |
+
"rstrip": false,
|
| 184 |
+
"single_word": false,
|
| 185 |
+
"special": true
|
| 186 |
+
},
|
| 187 |
+
"32018": {
|
| 188 |
+
"content": "[unused19]",
|
| 189 |
+
"lstrip": false,
|
| 190 |
+
"normalized": false,
|
| 191 |
+
"rstrip": false,
|
| 192 |
+
"single_word": false,
|
| 193 |
+
"special": true
|
| 194 |
+
},
|
| 195 |
+
"32019": {
|
| 196 |
+
"content": "[unused20]",
|
| 197 |
+
"lstrip": false,
|
| 198 |
+
"normalized": false,
|
| 199 |
+
"rstrip": false,
|
| 200 |
+
"single_word": false,
|
| 201 |
+
"special": true
|
| 202 |
+
},
|
| 203 |
+
"32020": {
|
| 204 |
+
"content": "[unused21]",
|
| 205 |
+
"lstrip": false,
|
| 206 |
+
"normalized": false,
|
| 207 |
+
"rstrip": false,
|
| 208 |
+
"single_word": false,
|
| 209 |
+
"special": true
|
| 210 |
+
},
|
| 211 |
+
"32021": {
|
| 212 |
+
"content": "[unused22]",
|
| 213 |
+
"lstrip": false,
|
| 214 |
+
"normalized": false,
|
| 215 |
+
"rstrip": false,
|
| 216 |
+
"single_word": false,
|
| 217 |
+
"special": true
|
| 218 |
+
},
|
| 219 |
+
"32022": {
|
| 220 |
+
"content": "[unused23]",
|
| 221 |
+
"lstrip": false,
|
| 222 |
+
"normalized": false,
|
| 223 |
+
"rstrip": false,
|
| 224 |
+
"single_word": false,
|
| 225 |
+
"special": true
|
| 226 |
+
},
|
| 227 |
+
"32023": {
|
| 228 |
+
"content": "[unused24]",
|
| 229 |
+
"lstrip": false,
|
| 230 |
+
"normalized": false,
|
| 231 |
+
"rstrip": false,
|
| 232 |
+
"single_word": false,
|
| 233 |
+
"special": true
|
| 234 |
+
},
|
| 235 |
+
"32024": {
|
| 236 |
+
"content": "[unused25]",
|
| 237 |
+
"lstrip": false,
|
| 238 |
+
"normalized": false,
|
| 239 |
+
"rstrip": false,
|
| 240 |
+
"single_word": false,
|
| 241 |
+
"special": true
|
| 242 |
+
},
|
| 243 |
+
"32025": {
|
| 244 |
+
"content": "[unused26]",
|
| 245 |
+
"lstrip": false,
|
| 246 |
+
"normalized": false,
|
| 247 |
+
"rstrip": false,
|
| 248 |
+
"single_word": false,
|
| 249 |
+
"special": true
|
| 250 |
+
},
|
| 251 |
+
"32026": {
|
| 252 |
+
"content": "[unused27]",
|
| 253 |
+
"lstrip": false,
|
| 254 |
+
"normalized": false,
|
| 255 |
+
"rstrip": false,
|
| 256 |
+
"single_word": false,
|
| 257 |
+
"special": true
|
| 258 |
+
},
|
| 259 |
+
"32027": {
|
| 260 |
+
"content": "[unused28]",
|
| 261 |
+
"lstrip": false,
|
| 262 |
+
"normalized": false,
|
| 263 |
+
"rstrip": false,
|
| 264 |
+
"single_word": false,
|
| 265 |
+
"special": true
|
| 266 |
+
},
|
| 267 |
+
"32028": {
|
| 268 |
+
"content": "[unused29]",
|
| 269 |
+
"lstrip": false,
|
| 270 |
+
"normalized": false,
|
| 271 |
+
"rstrip": false,
|
| 272 |
+
"single_word": false,
|
| 273 |
+
"special": true
|
| 274 |
+
},
|
| 275 |
+
"32029": {
|
| 276 |
+
"content": "[unused30]",
|
| 277 |
+
"lstrip": false,
|
| 278 |
+
"normalized": false,
|
| 279 |
+
"rstrip": false,
|
| 280 |
+
"single_word": false,
|
| 281 |
+
"special": true
|
| 282 |
+
},
|
| 283 |
+
"32030": {
|
| 284 |
+
"content": "[unused31]",
|
| 285 |
+
"lstrip": false,
|
| 286 |
+
"normalized": false,
|
| 287 |
+
"rstrip": false,
|
| 288 |
+
"single_word": false,
|
| 289 |
+
"special": true
|
| 290 |
+
},
|
| 291 |
+
"32031": {
|
| 292 |
+
"content": "[unused32]",
|
| 293 |
+
"lstrip": false,
|
| 294 |
+
"normalized": false,
|
| 295 |
+
"rstrip": false,
|
| 296 |
+
"single_word": false,
|
| 297 |
+
"special": true
|
| 298 |
+
},
|
| 299 |
+
"32032": {
|
| 300 |
+
"content": "[unused33]",
|
| 301 |
+
"lstrip": false,
|
| 302 |
+
"normalized": false,
|
| 303 |
+
"rstrip": false,
|
| 304 |
+
"single_word": false,
|
| 305 |
+
"special": true
|
| 306 |
+
},
|
| 307 |
+
"32033": {
|
| 308 |
+
"content": "[unused34]",
|
| 309 |
+
"lstrip": false,
|
| 310 |
+
"normalized": false,
|
| 311 |
+
"rstrip": false,
|
| 312 |
+
"single_word": false,
|
| 313 |
+
"special": true
|
| 314 |
+
},
|
| 315 |
+
"32034": {
|
| 316 |
+
"content": "[unused35]",
|
| 317 |
+
"lstrip": false,
|
| 318 |
+
"normalized": false,
|
| 319 |
+
"rstrip": false,
|
| 320 |
+
"single_word": false,
|
| 321 |
+
"special": true
|
| 322 |
+
},
|
| 323 |
+
"32035": {
|
| 324 |
+
"content": "[unused36]",
|
| 325 |
+
"lstrip": false,
|
| 326 |
+
"normalized": false,
|
| 327 |
+
"rstrip": false,
|
| 328 |
+
"single_word": false,
|
| 329 |
+
"special": true
|
| 330 |
+
},
|
| 331 |
+
"32036": {
|
| 332 |
+
"content": "[unused37]",
|
| 333 |
+
"lstrip": false,
|
| 334 |
+
"normalized": false,
|
| 335 |
+
"rstrip": false,
|
| 336 |
+
"single_word": false,
|
| 337 |
+
"special": true
|
| 338 |
+
},
|
| 339 |
+
"32037": {
|
| 340 |
+
"content": "[unused38]",
|
| 341 |
+
"lstrip": false,
|
| 342 |
+
"normalized": false,
|
| 343 |
+
"rstrip": false,
|
| 344 |
+
"single_word": false,
|
| 345 |
+
"special": true
|
| 346 |
+
},
|
| 347 |
+
"32038": {
|
| 348 |
+
"content": "[unused39]",
|
| 349 |
+
"lstrip": false,
|
| 350 |
+
"normalized": false,
|
| 351 |
+
"rstrip": false,
|
| 352 |
+
"single_word": false,
|
| 353 |
+
"special": true
|
| 354 |
+
},
|
| 355 |
+
"32039": {
|
| 356 |
+
"content": "[unused40]",
|
| 357 |
+
"lstrip": false,
|
| 358 |
+
"normalized": false,
|
| 359 |
+
"rstrip": false,
|
| 360 |
+
"single_word": false,
|
| 361 |
+
"special": true
|
| 362 |
+
},
|
| 363 |
+
"32040": {
|
| 364 |
+
"content": "[unused41]",
|
| 365 |
+
"lstrip": false,
|
| 366 |
+
"normalized": false,
|
| 367 |
+
"rstrip": false,
|
| 368 |
+
"single_word": false,
|
| 369 |
+
"special": true
|
| 370 |
+
},
|
| 371 |
+
"32041": {
|
| 372 |
+
"content": "[unused42]",
|
| 373 |
+
"lstrip": false,
|
| 374 |
+
"normalized": false,
|
| 375 |
+
"rstrip": false,
|
| 376 |
+
"single_word": false,
|
| 377 |
+
"special": true
|
| 378 |
+
},
|
| 379 |
+
"32042": {
|
| 380 |
+
"content": "[unused43]",
|
| 381 |
+
"lstrip": false,
|
| 382 |
+
"normalized": false,
|
| 383 |
+
"rstrip": false,
|
| 384 |
+
"single_word": false,
|
| 385 |
+
"special": true
|
| 386 |
+
},
|
| 387 |
+
"32043": {
|
| 388 |
+
"content": "[unused44]",
|
| 389 |
+
"lstrip": false,
|
| 390 |
+
"normalized": false,
|
| 391 |
+
"rstrip": false,
|
| 392 |
+
"single_word": false,
|
| 393 |
+
"special": true
|
| 394 |
+
},
|
| 395 |
+
"32044": {
|
| 396 |
+
"content": "[unused45]",
|
| 397 |
+
"lstrip": false,
|
| 398 |
+
"normalized": false,
|
| 399 |
+
"rstrip": false,
|
| 400 |
+
"single_word": false,
|
| 401 |
+
"special": true
|
| 402 |
+
},
|
| 403 |
+
"32045": {
|
| 404 |
+
"content": "[unused46]",
|
| 405 |
+
"lstrip": false,
|
| 406 |
+
"normalized": false,
|
| 407 |
+
"rstrip": false,
|
| 408 |
+
"single_word": false,
|
| 409 |
+
"special": true
|
| 410 |
+
},
|
| 411 |
+
"32046": {
|
| 412 |
+
"content": "[unused47]",
|
| 413 |
+
"lstrip": false,
|
| 414 |
+
"normalized": false,
|
| 415 |
+
"rstrip": false,
|
| 416 |
+
"single_word": false,
|
| 417 |
+
"special": true
|
| 418 |
+
},
|
| 419 |
+
"32047": {
|
| 420 |
+
"content": "[unused48]",
|
| 421 |
+
"lstrip": false,
|
| 422 |
+
"normalized": false,
|
| 423 |
+
"rstrip": false,
|
| 424 |
+
"single_word": false,
|
| 425 |
+
"special": true
|
| 426 |
+
},
|
| 427 |
+
"32048": {
|
| 428 |
+
"content": "[unused49]",
|
| 429 |
+
"lstrip": false,
|
| 430 |
+
"normalized": false,
|
| 431 |
+
"rstrip": false,
|
| 432 |
+
"single_word": false,
|
| 433 |
+
"special": true
|
| 434 |
+
},
|
| 435 |
+
"32049": {
|
| 436 |
+
"content": "[unused50]",
|
| 437 |
+
"lstrip": false,
|
| 438 |
+
"normalized": false,
|
| 439 |
+
"rstrip": false,
|
| 440 |
+
"single_word": false,
|
| 441 |
+
"special": true
|
| 442 |
+
},
|
| 443 |
+
"32050": {
|
| 444 |
+
"content": "[unused51]",
|
| 445 |
+
"lstrip": false,
|
| 446 |
+
"normalized": false,
|
| 447 |
+
"rstrip": false,
|
| 448 |
+
"single_word": false,
|
| 449 |
+
"special": true
|
| 450 |
+
},
|
| 451 |
+
"32051": {
|
| 452 |
+
"content": "[unused52]",
|
| 453 |
+
"lstrip": false,
|
| 454 |
+
"normalized": false,
|
| 455 |
+
"rstrip": false,
|
| 456 |
+
"single_word": false,
|
| 457 |
+
"special": true
|
| 458 |
+
},
|
| 459 |
+
"32052": {
|
| 460 |
+
"content": "[unused53]",
|
| 461 |
+
"lstrip": false,
|
| 462 |
+
"normalized": false,
|
| 463 |
+
"rstrip": false,
|
| 464 |
+
"single_word": false,
|
| 465 |
+
"special": true
|
| 466 |
+
},
|
| 467 |
+
"32053": {
|
| 468 |
+
"content": "[unused54]",
|
| 469 |
+
"lstrip": false,
|
| 470 |
+
"normalized": false,
|
| 471 |
+
"rstrip": false,
|
| 472 |
+
"single_word": false,
|
| 473 |
+
"special": true
|
| 474 |
+
},
|
| 475 |
+
"32054": {
|
| 476 |
+
"content": "[unused55]",
|
| 477 |
+
"lstrip": false,
|
| 478 |
+
"normalized": false,
|
| 479 |
+
"rstrip": false,
|
| 480 |
+
"single_word": false,
|
| 481 |
+
"special": true
|
| 482 |
+
},
|
| 483 |
+
"32055": {
|
| 484 |
+
"content": "[unused56]",
|
| 485 |
+
"lstrip": false,
|
| 486 |
+
"normalized": false,
|
| 487 |
+
"rstrip": false,
|
| 488 |
+
"single_word": false,
|
| 489 |
+
"special": true
|
| 490 |
+
},
|
| 491 |
+
"32056": {
|
| 492 |
+
"content": "[unused57]",
|
| 493 |
+
"lstrip": false,
|
| 494 |
+
"normalized": false,
|
| 495 |
+
"rstrip": false,
|
| 496 |
+
"single_word": false,
|
| 497 |
+
"special": true
|
| 498 |
+
},
|
| 499 |
+
"32057": {
|
| 500 |
+
"content": "[unused58]",
|
| 501 |
+
"lstrip": false,
|
| 502 |
+
"normalized": false,
|
| 503 |
+
"rstrip": false,
|
| 504 |
+
"single_word": false,
|
| 505 |
+
"special": true
|
| 506 |
+
},
|
| 507 |
+
"32058": {
|
| 508 |
+
"content": "[unused59]",
|
| 509 |
+
"lstrip": false,
|
| 510 |
+
"normalized": false,
|
| 511 |
+
"rstrip": false,
|
| 512 |
+
"single_word": false,
|
| 513 |
+
"special": true
|
| 514 |
+
},
|
| 515 |
+
"32059": {
|
| 516 |
+
"content": "[unused60]",
|
| 517 |
+
"lstrip": false,
|
| 518 |
+
"normalized": false,
|
| 519 |
+
"rstrip": false,
|
| 520 |
+
"single_word": false,
|
| 521 |
+
"special": true
|
| 522 |
+
},
|
| 523 |
+
"32060": {
|
| 524 |
+
"content": "[unused61]",
|
| 525 |
+
"lstrip": false,
|
| 526 |
+
"normalized": false,
|
| 527 |
+
"rstrip": false,
|
| 528 |
+
"single_word": false,
|
| 529 |
+
"special": true
|
| 530 |
+
},
|
| 531 |
+
"32061": {
|
| 532 |
+
"content": "[unused62]",
|
| 533 |
+
"lstrip": false,
|
| 534 |
+
"normalized": false,
|
| 535 |
+
"rstrip": false,
|
| 536 |
+
"single_word": false,
|
| 537 |
+
"special": true
|
| 538 |
+
},
|
| 539 |
+
"32062": {
|
| 540 |
+
"content": "[unused63]",
|
| 541 |
+
"lstrip": false,
|
| 542 |
+
"normalized": false,
|
| 543 |
+
"rstrip": false,
|
| 544 |
+
"single_word": false,
|
| 545 |
+
"special": true
|
| 546 |
+
},
|
| 547 |
+
"32063": {
|
| 548 |
+
"content": "[unused64]",
|
| 549 |
+
"lstrip": false,
|
| 550 |
+
"normalized": false,
|
| 551 |
+
"rstrip": false,
|
| 552 |
+
"single_word": false,
|
| 553 |
+
"special": true
|
| 554 |
+
}
|
| 555 |
+
},
|
| 556 |
+
"clean_up_tokenization_spaces": true,
|
| 557 |
+
"cls_token": "[CLS]",
|
| 558 |
+
"extra_special_tokens": {},
|
| 559 |
+
"mask_token": "[MASK]",
|
| 560 |
+
"model_input_names": [
|
| 561 |
+
"input_ids",
|
| 562 |
+
"attention_mask"
|
| 563 |
+
],
|
| 564 |
+
"model_max_length": 512,
|
| 565 |
+
"pad_token": "[PAD]",
|
| 566 |
+
"sep_token": "[SEP]",
|
| 567 |
+
"tokenizer_class": "PreTrainedTokenizerFast",
|
| 568 |
+
"unk_token": "[UNK]"
|
| 569 |
+
}
|
checkpoints/checkpoint-2100/trainer_state.json
ADDED
|
@@ -0,0 +1,336 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"best_global_step": 2100,
|
| 3 |
+
"best_metric": 3.428261561244058,
|
| 4 |
+
"best_model_checkpoint": "outputs/bert-base-stage2-sbert/checkpoints/checkpoint-2100",
|
| 5 |
+
"epoch": 0.4966887417218543,
|
| 6 |
+
"eval_steps": 2100,
|
| 7 |
+
"global_step": 2100,
|
| 8 |
+
"is_hyper_param_search": false,
|
| 9 |
+
"is_local_process_zero": true,
|
| 10 |
+
"is_world_process_zero": true,
|
| 11 |
+
"log_history": [
|
| 12 |
+
{
|
| 13 |
+
"epoch": 0.011825922421948912,
|
| 14 |
+
"grad_norm": 37.17527770996094,
|
| 15 |
+
"learning_rate": 5.79333175691653e-07,
|
| 16 |
+
"loss": 15.9603,
|
| 17 |
+
"step": 50
|
| 18 |
+
},
|
| 19 |
+
{
|
| 20 |
+
"epoch": 0.023651844843897825,
|
| 21 |
+
"grad_norm": 46.39728927612305,
|
| 22 |
+
"learning_rate": 1.1704894774178294e-06,
|
| 23 |
+
"loss": 14.7061,
|
| 24 |
+
"step": 100
|
| 25 |
+
},
|
| 26 |
+
{
|
| 27 |
+
"epoch": 0.035477767265846734,
|
| 28 |
+
"grad_norm": 28.315404891967773,
|
| 29 |
+
"learning_rate": 1.761645779144006e-06,
|
| 30 |
+
"loss": 12.797,
|
| 31 |
+
"step": 150
|
| 32 |
+
},
|
| 33 |
+
{
|
| 34 |
+
"epoch": 0.04730368968779565,
|
| 35 |
+
"grad_norm": 35.562313079833984,
|
| 36 |
+
"learning_rate": 2.352802080870182e-06,
|
| 37 |
+
"loss": 10.4224,
|
| 38 |
+
"step": 200
|
| 39 |
+
},
|
| 40 |
+
{
|
| 41 |
+
"epoch": 0.05912961210974456,
|
| 42 |
+
"grad_norm": 32.73415756225586,
|
| 43 |
+
"learning_rate": 2.9439583825963587e-06,
|
| 44 |
+
"loss": 7.7023,
|
| 45 |
+
"step": 250
|
| 46 |
+
},
|
| 47 |
+
{
|
| 48 |
+
"epoch": 0.07095553453169347,
|
| 49 |
+
"grad_norm": 47.77512741088867,
|
| 50 |
+
"learning_rate": 3.535114684322535e-06,
|
| 51 |
+
"loss": 6.1814,
|
| 52 |
+
"step": 300
|
| 53 |
+
},
|
| 54 |
+
{
|
| 55 |
+
"epoch": 0.08278145695364239,
|
| 56 |
+
"grad_norm": 22.523290634155273,
|
| 57 |
+
"learning_rate": 4.126270986048711e-06,
|
| 58 |
+
"loss": 5.1295,
|
| 59 |
+
"step": 350
|
| 60 |
+
},
|
| 61 |
+
{
|
| 62 |
+
"epoch": 0.0946073793755913,
|
| 63 |
+
"grad_norm": 23.141721725463867,
|
| 64 |
+
"learning_rate": 4.717427287774888e-06,
|
| 65 |
+
"loss": 4.5724,
|
| 66 |
+
"step": 400
|
| 67 |
+
},
|
| 68 |
+
{
|
| 69 |
+
"epoch": 0.10643330179754021,
|
| 70 |
+
"grad_norm": 19.452104568481445,
|
| 71 |
+
"learning_rate": 5.308583589501064e-06,
|
| 72 |
+
"loss": 4.3299,
|
| 73 |
+
"step": 450
|
| 74 |
+
},
|
| 75 |
+
{
|
| 76 |
+
"epoch": 0.11825922421948912,
|
| 77 |
+
"grad_norm": 233.05697631835938,
|
| 78 |
+
"learning_rate": 5.899739891227241e-06,
|
| 79 |
+
"loss": 3.9241,
|
| 80 |
+
"step": 500
|
| 81 |
+
},
|
| 82 |
+
{
|
| 83 |
+
"epoch": 0.13008514664143803,
|
| 84 |
+
"grad_norm": 24.122013092041016,
|
| 85 |
+
"learning_rate": 6.4908961929534175e-06,
|
| 86 |
+
"loss": 3.7726,
|
| 87 |
+
"step": 550
|
| 88 |
+
},
|
| 89 |
+
{
|
| 90 |
+
"epoch": 0.14191106906338694,
|
| 91 |
+
"grad_norm": 25.219341278076172,
|
| 92 |
+
"learning_rate": 7.082052494679593e-06,
|
| 93 |
+
"loss": 3.5488,
|
| 94 |
+
"step": 600
|
| 95 |
+
},
|
| 96 |
+
{
|
| 97 |
+
"epoch": 0.15373699148533584,
|
| 98 |
+
"grad_norm": 20.27418327331543,
|
| 99 |
+
"learning_rate": 7.673208796405771e-06,
|
| 100 |
+
"loss": 3.4224,
|
| 101 |
+
"step": 650
|
| 102 |
+
},
|
| 103 |
+
{
|
| 104 |
+
"epoch": 0.16556291390728478,
|
| 105 |
+
"grad_norm": 18.39457130432129,
|
| 106 |
+
"learning_rate": 8.264365098131946e-06,
|
| 107 |
+
"loss": 3.1461,
|
| 108 |
+
"step": 700
|
| 109 |
+
},
|
| 110 |
+
{
|
| 111 |
+
"epoch": 0.1773888363292337,
|
| 112 |
+
"grad_norm": 15.472208023071289,
|
| 113 |
+
"learning_rate": 8.855521399858123e-06,
|
| 114 |
+
"loss": 3.091,
|
| 115 |
+
"step": 750
|
| 116 |
+
},
|
| 117 |
+
{
|
| 118 |
+
"epoch": 0.1892147587511826,
|
| 119 |
+
"grad_norm": 14.311614036560059,
|
| 120 |
+
"learning_rate": 9.4466777015843e-06,
|
| 121 |
+
"loss": 3.0397,
|
| 122 |
+
"step": 800
|
| 123 |
+
},
|
| 124 |
+
{
|
| 125 |
+
"epoch": 0.2010406811731315,
|
| 126 |
+
"grad_norm": 15.130672454833984,
|
| 127 |
+
"learning_rate": 1.0037834003310476e-05,
|
| 128 |
+
"loss": 2.7937,
|
| 129 |
+
"step": 850
|
| 130 |
+
},
|
| 131 |
+
{
|
| 132 |
+
"epoch": 0.21286660359508042,
|
| 133 |
+
"grad_norm": 16.500473022460938,
|
| 134 |
+
"learning_rate": 1.0628990305036653e-05,
|
| 135 |
+
"loss": 2.7832,
|
| 136 |
+
"step": 900
|
| 137 |
+
},
|
| 138 |
+
{
|
| 139 |
+
"epoch": 0.22469252601702933,
|
| 140 |
+
"grad_norm": 15.874606132507324,
|
| 141 |
+
"learning_rate": 1.1220146606762828e-05,
|
| 142 |
+
"loss": 2.7144,
|
| 143 |
+
"step": 950
|
| 144 |
+
},
|
| 145 |
+
{
|
| 146 |
+
"epoch": 0.23651844843897823,
|
| 147 |
+
"grad_norm": 17.386566162109375,
|
| 148 |
+
"learning_rate": 1.1811302908489005e-05,
|
| 149 |
+
"loss": 2.4957,
|
| 150 |
+
"step": 1000
|
| 151 |
+
},
|
| 152 |
+
{
|
| 153 |
+
"epoch": 0.24834437086092714,
|
| 154 |
+
"grad_norm": 16.52501106262207,
|
| 155 |
+
"learning_rate": 1.2402459210215181e-05,
|
| 156 |
+
"loss": 2.5517,
|
| 157 |
+
"step": 1050
|
| 158 |
+
},
|
| 159 |
+
{
|
| 160 |
+
"epoch": 0.26017029328287605,
|
| 161 |
+
"grad_norm": 21.434019088745117,
|
| 162 |
+
"learning_rate": 1.2993615511941356e-05,
|
| 163 |
+
"loss": 2.571,
|
| 164 |
+
"step": 1100
|
| 165 |
+
},
|
| 166 |
+
{
|
| 167 |
+
"epoch": 0.27199621570482496,
|
| 168 |
+
"grad_norm": 15.858635902404785,
|
| 169 |
+
"learning_rate": 1.3584771813667535e-05,
|
| 170 |
+
"loss": 2.5598,
|
| 171 |
+
"step": 1150
|
| 172 |
+
},
|
| 173 |
+
{
|
| 174 |
+
"epoch": 0.28382213812677387,
|
| 175 |
+
"grad_norm": 14.342907905578613,
|
| 176 |
+
"learning_rate": 1.417592811539371e-05,
|
| 177 |
+
"loss": 2.4329,
|
| 178 |
+
"step": 1200
|
| 179 |
+
},
|
| 180 |
+
{
|
| 181 |
+
"epoch": 0.2956480605487228,
|
| 182 |
+
"grad_norm": 13.743053436279297,
|
| 183 |
+
"learning_rate": 1.4767084417119887e-05,
|
| 184 |
+
"loss": 2.443,
|
| 185 |
+
"step": 1250
|
| 186 |
+
},
|
| 187 |
+
{
|
| 188 |
+
"epoch": 0.3074739829706717,
|
| 189 |
+
"grad_norm": 29.751502990722656,
|
| 190 |
+
"learning_rate": 1.5358240718846065e-05,
|
| 191 |
+
"loss": 2.3928,
|
| 192 |
+
"step": 1300
|
| 193 |
+
},
|
| 194 |
+
{
|
| 195 |
+
"epoch": 0.3192999053926206,
|
| 196 |
+
"grad_norm": 12.822844505310059,
|
| 197 |
+
"learning_rate": 1.594939702057224e-05,
|
| 198 |
+
"loss": 2.3792,
|
| 199 |
+
"step": 1350
|
| 200 |
+
},
|
| 201 |
+
{
|
| 202 |
+
"epoch": 0.33112582781456956,
|
| 203 |
+
"grad_norm": 13.577836036682129,
|
| 204 |
+
"learning_rate": 1.6540553322298415e-05,
|
| 205 |
+
"loss": 2.2843,
|
| 206 |
+
"step": 1400
|
| 207 |
+
},
|
| 208 |
+
{
|
| 209 |
+
"epoch": 0.34295175023651847,
|
| 210 |
+
"grad_norm": 16.76645278930664,
|
| 211 |
+
"learning_rate": 1.713170962402459e-05,
|
| 212 |
+
"loss": 2.1745,
|
| 213 |
+
"step": 1450
|
| 214 |
+
},
|
| 215 |
+
{
|
| 216 |
+
"epoch": 0.3547776726584674,
|
| 217 |
+
"grad_norm": 16.578153610229492,
|
| 218 |
+
"learning_rate": 1.772286592575077e-05,
|
| 219 |
+
"loss": 2.2979,
|
| 220 |
+
"step": 1500
|
| 221 |
+
},
|
| 222 |
+
{
|
| 223 |
+
"epoch": 0.3666035950804163,
|
| 224 |
+
"grad_norm": 13.334796905517578,
|
| 225 |
+
"learning_rate": 1.8314022227476947e-05,
|
| 226 |
+
"loss": 2.2486,
|
| 227 |
+
"step": 1550
|
| 228 |
+
},
|
| 229 |
+
{
|
| 230 |
+
"epoch": 0.3784295175023652,
|
| 231 |
+
"grad_norm": 17.563169479370117,
|
| 232 |
+
"learning_rate": 1.8905178529203122e-05,
|
| 233 |
+
"loss": 2.0867,
|
| 234 |
+
"step": 1600
|
| 235 |
+
},
|
| 236 |
+
{
|
| 237 |
+
"epoch": 0.3902554399243141,
|
| 238 |
+
"grad_norm": 20.97819709777832,
|
| 239 |
+
"learning_rate": 1.94963348309293e-05,
|
| 240 |
+
"loss": 2.2764,
|
| 241 |
+
"step": 1650
|
| 242 |
+
},
|
| 243 |
+
{
|
| 244 |
+
"epoch": 0.402081362346263,
|
| 245 |
+
"grad_norm": 15.547277450561523,
|
| 246 |
+
"learning_rate": 2.0087491132655476e-05,
|
| 247 |
+
"loss": 2.1324,
|
| 248 |
+
"step": 1700
|
| 249 |
+
},
|
| 250 |
+
{
|
| 251 |
+
"epoch": 0.4139072847682119,
|
| 252 |
+
"grad_norm": 11.580471992492676,
|
| 253 |
+
"learning_rate": 2.067864743438165e-05,
|
| 254 |
+
"loss": 2.0987,
|
| 255 |
+
"step": 1750
|
| 256 |
+
},
|
| 257 |
+
{
|
| 258 |
+
"epoch": 0.42573320719016083,
|
| 259 |
+
"grad_norm": 12.84550666809082,
|
| 260 |
+
"learning_rate": 2.1269803736107826e-05,
|
| 261 |
+
"loss": 2.1326,
|
| 262 |
+
"step": 1800
|
| 263 |
+
},
|
| 264 |
+
{
|
| 265 |
+
"epoch": 0.43755912961210974,
|
| 266 |
+
"grad_norm": 12.020867347717285,
|
| 267 |
+
"learning_rate": 2.1860960037834004e-05,
|
| 268 |
+
"loss": 2.0193,
|
| 269 |
+
"step": 1850
|
| 270 |
+
},
|
| 271 |
+
{
|
| 272 |
+
"epoch": 0.44938505203405865,
|
| 273 |
+
"grad_norm": 10.422323226928711,
|
| 274 |
+
"learning_rate": 2.245211633956018e-05,
|
| 275 |
+
"loss": 2.0284,
|
| 276 |
+
"step": 1900
|
| 277 |
+
},
|
| 278 |
+
{
|
| 279 |
+
"epoch": 0.46121097445600756,
|
| 280 |
+
"grad_norm": 12.45924186706543,
|
| 281 |
+
"learning_rate": 2.3043272641286358e-05,
|
| 282 |
+
"loss": 2.0608,
|
| 283 |
+
"step": 1950
|
| 284 |
+
},
|
| 285 |
+
{
|
| 286 |
+
"epoch": 0.47303689687795647,
|
| 287 |
+
"grad_norm": 10.701308250427246,
|
| 288 |
+
"learning_rate": 2.3634428943012536e-05,
|
| 289 |
+
"loss": 2.0469,
|
| 290 |
+
"step": 2000
|
| 291 |
+
},
|
| 292 |
+
{
|
| 293 |
+
"epoch": 0.4848628192999054,
|
| 294 |
+
"grad_norm": 11.961787223815918,
|
| 295 |
+
"learning_rate": 2.422558524473871e-05,
|
| 296 |
+
"loss": 2.0067,
|
| 297 |
+
"step": 2050
|
| 298 |
+
},
|
| 299 |
+
{
|
| 300 |
+
"epoch": 0.4966887417218543,
|
| 301 |
+
"grad_norm": 11.067811965942383,
|
| 302 |
+
"learning_rate": 2.4816741546464886e-05,
|
| 303 |
+
"loss": 2.0569,
|
| 304 |
+
"step": 2100
|
| 305 |
+
},
|
| 306 |
+
{
|
| 307 |
+
"epoch": 0.4966887417218543,
|
| 308 |
+
"eval_runtime": 124.5236,
|
| 309 |
+
"eval_samples_per_second": 0.0,
|
| 310 |
+
"eval_steps_per_second": 0.0,
|
| 311 |
+
"eval_validation_loss": 3.428261561244058,
|
| 312 |
+
"step": 2100
|
| 313 |
+
}
|
| 314 |
+
],
|
| 315 |
+
"logging_steps": 50,
|
| 316 |
+
"max_steps": 21140,
|
| 317 |
+
"num_input_tokens_seen": 0,
|
| 318 |
+
"num_train_epochs": 5,
|
| 319 |
+
"save_steps": 2100,
|
| 320 |
+
"stateful_callbacks": {
|
| 321 |
+
"TrainerControl": {
|
| 322 |
+
"args": {
|
| 323 |
+
"should_epoch_stop": false,
|
| 324 |
+
"should_evaluate": false,
|
| 325 |
+
"should_log": false,
|
| 326 |
+
"should_save": true,
|
| 327 |
+
"should_training_stop": false
|
| 328 |
+
},
|
| 329 |
+
"attributes": {}
|
| 330 |
+
}
|
| 331 |
+
},
|
| 332 |
+
"total_flos": 0.0,
|
| 333 |
+
"train_batch_size": 64,
|
| 334 |
+
"trial_name": null,
|
| 335 |
+
"trial_params": null
|
| 336 |
+
}
|
checkpoints/checkpoint-2100/training_args.bin
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:cc7b272d45391513ca51baa876ef22de7a259e4d04c7ed5ec6b8d40e591e2db5
|
| 3 |
+
size 6225
|