yenstdi commited on
Commit
4c0ff50
·
verified ·
1 Parent(s): a2b1156

Upload folder using huggingface_hub

Browse files
README.md CHANGED
@@ -9,31 +9,31 @@ tags:
9
  - loss:MultipleNegativesRankingLoss
10
  base_model: BAAI/bge-large-zh-v1.5
11
  widget:
12
- - source_sentence: 機器學習演算法工程師
13
  sentences:
14
- - 採用 React 或 Vue 生態系搭配 TypeScript,能有效提升大型休閒平台前端介面的可維護性使用者互動體驗
15
- - 運用 PyTorch 或 TensorFlow 建立深度學習模型,並透過 scikit-learn 進行特徵工程
16
- - 規劃國內外旅遊路線、協調交通住宿並提供旅客諮詢服務是旅行社企劃人員主要職責
17
- - source_sentence: 開發休閒類行動應用程式伺服器端框架選擇
18
  sentences:
19
- - 對於需要快速開發與迭代的娛樂型 AppPython 的 FastAPI 或 Django 建立穩定後端服務理想選擇
20
- - 可以詢問其對 Vuex 狀態管理、Vue Router 由控制以及 Nuxt.js 框架優缺點看法
21
- - 職位要求熟悉 Gin 或 Echo 等 Web 框架並具備 gRPC 通訊協定開發實務
22
- - source_sentence: 雲端架構維運與 DevOps 技能
23
  sentences:
24
- - 熟練操 AWS EC2 與 RDS 服務,並具備 Docker 容器化技術與 Kubernetes 叢集管理能力
25
- - 除了基礎的 Express 外,具備 Nest.js 或 Koa 框架開發經驗者在後端職位競爭中更具優勢
26
- - Jenkins 與 GitLab CI 結合 Docker 容器技術,可以實現遊戲伺服器版本無縫更新持續整合 (CI/CD)
27
- - source_sentence: React 前端工程師職位要求
28
  sentences:
29
- - 具備 Docker 與 Kubernetes 部署經驗,並能透 Helm 管理 K8s 應用式的生命週期
30
- - Matplotlib、Seaborn 或 Plotly 等工具將複雜數據轉化為直觀圖表與報表
31
- - 應徵者需熟悉 Redux 狀態管理React Router 路由配置並具備 Next.js 伺服器端渲染開發經驗
32
- - source_sentence: 尋找熟悉微服務架構 Java 開發者
33
  sentences:
34
- - 本職位要求應徵者具備 Django 或 FastAPI 實務驗,並能運用 Celery 處理非同步任務
35
- - 透過 JenkinsGitLab CI GitHub Actions 實作 CI/CD 管線以提升軟體交付效率
36
- - 精通 Spring Boot 與 Spring Cloud並具備 Maven 或 Gradle 專案建置經驗
37
  datasets:
38
  - yenstdi/embbedding_text_1111
39
  pipeline_tag: sentence-similarity
@@ -91,9 +91,9 @@ from sentence_transformers import SentenceTransformer
91
  model = SentenceTransformer("sentence_transformers_model_id")
92
  # Run inference
93
  sentences = [
94
- '尋找熟悉微服務架構 Java 開發者',
95
- '精通 Spring Boot Spring Cloud並具備 Maven 或 Gradle 專案建置經驗',
96
- '透過 JenkinsGitLab CI GitHub Actions 實作 CI/CD 管線以提升軟體交付效率',
97
  ]
98
  embeddings = model.encode(sentences)
99
  print(embeddings.shape)
@@ -102,9 +102,9 @@ print(embeddings.shape)
102
  # Get the similarity scores for the embeddings
103
  similarities = model.similarity(embeddings, embeddings)
104
  print(similarities)
105
- # tensor([[1.0000, 0.6469, 0.3960],
106
- # [0.6469, 1.0000, 0.4859],
107
- # [0.3960, 0.4859, 1.0000]])
108
  ```
109
 
110
  <!--
@@ -172,9 +172,37 @@ You can finetune this model on your own dataset.
172
  }
173
  ```
174
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
175
  ### Training Hyperparameters
176
  #### Non-Default Hyperparameters
177
 
 
178
  - `per_device_train_batch_size`: 64
179
  - `per_device_eval_batch_size`: 64
180
  - `num_train_epochs`: 10
@@ -185,7 +213,7 @@ You can finetune this model on your own dataset.
185
 
186
  - `overwrite_output_dir`: False
187
  - `do_predict`: False
188
- - `eval_strategy`: no
189
  - `prediction_loss_only`: True
190
  - `per_device_train_batch_size`: 64
191
  - `per_device_eval_batch_size`: 64
@@ -306,18 +334,18 @@ You can finetune this model on your own dataset.
306
  </details>
307
 
308
  ### Training Logs
309
- | Epoch | Step | Training Loss |
310
- |:-----:|:----:|:-------------:|
311
- | 1.0 | 1 | 2.4771 |
312
- | 2.0 | 2 | 2.5696 |
313
- | 3.0 | 3 | 2.4096 |
314
- | 4.0 | 4 | 2.4025 |
315
- | 5.0 | 5 | 2.2429 |
316
- | 6.0 | 6 | 2.1532 |
317
- | 7.0 | 7 | 2.0347 |
318
- | 8.0 | 8 | 1.8817 |
319
- | 9.0 | 9 | 1.7143 |
320
- | 10.0 | 10 | 1.4908 |
321
 
322
 
323
  ### Framework Versions
 
9
  - loss:MultipleNegativesRankingLoss
10
  base_model: BAAI/bge-large-zh-v1.5
11
  widget:
12
+ - source_sentence: 定期定額投資的優缺點
13
  sentences:
14
+ - 近年來大型語言模型擴散模型在圖像與文本生成領域取得突破性進展
15
+ - 國際間的生產與物流體系正在發生重大的組織變革與調整。
16
+ - 透過固定金額長期投入,投資者能有效攤平市場波動帶來成本風險,但可能在強勁牛市中錯失更高的單筆申購報酬
17
+ - source_sentence: 京都最適合賞楓季節是什麼時候?
18
  sentences:
19
+ - 秋季前往關西地區十一月中旬到十二月初通常觀賞紅葉最佳時機
20
+ - 使用 asyncio 庫可以實現非阻塞的 I/O 操作,顯著提升網爬蟲或 API 請求並發性能
21
+ - 在快速變遷的場環境中持續獲取新知識與技能是維持個人競爭力與適應力關鍵
22
+ - source_sentence: 長期失眠該如何改善?
23
  sentences:
24
+ - 建立規律的息時間、減少睡前使用電子產品,並營造舒適的睡眠環境有助於緩解睡眠障礙
25
+ - 植物透過葉綠體吸收太陽能,將二氧化碳與水轉化為葡萄糖並釋放氧氣,這是地球能量循環的基礎。
26
+ - 辦理信貸款通常要求穩定收入證明良好的信用評分
27
+ - source_sentence: 如何減少日常生活中的碳足跡
28
  sentences:
29
+ - 在推動組織數位化過程中,往往會面臨技術債、員工抗拒改變以及缺乏清晰策略等難題
30
+ - 該行動裝置的電力持久度表現優異,能滿足時間使用的需求
31
+ - 透過節能家電搭乘大眾運輸及實踐蔬食生活能有效降低個人的環境影響
32
+ - source_sentence: 京都最值得造訪歷史古蹟
33
  sentences:
34
+ - 這座日古都擁有眾多世界文化遺產,如清水寺、金閣寺與伏見稻荷大社,是體驗傳統文化之地
35
+ - 患者通常會感到胸口灼熱(俗稱火燒心)胃酸逆流,有時還會伴隨慢性咳嗽喉嚨發炎。
36
+ - 這種以植物性食物、橄欖油和適量深海魚為主的飲食模式被證實能有效預防心血管疾病。
37
  datasets:
38
  - yenstdi/embbedding_text_1111
39
  pipeline_tag: sentence-similarity
 
91
  model = SentenceTransformer("sentence_transformers_model_id")
92
  # Run inference
93
  sentences = [
94
+ '京都最值得造訪歷史古蹟',
95
+ '這座日本古都擁有眾多世界文化遺產,如清水寺、金閣寺伏見稻荷大社是體傳統文化的必經之地。',
96
+ '患者通常會感到胸口灼熱(俗稱火燒心)胃酸逆流,有時還會伴隨慢性咳嗽喉嚨發炎。',
97
  ]
98
  embeddings = model.encode(sentences)
99
  print(embeddings.shape)
 
102
  # Get the similarity scores for the embeddings
103
  similarities = model.similarity(embeddings, embeddings)
104
  print(similarities)
105
+ # tensor([[1.0000, 0.6986, 0.1182],
106
+ # [0.6986, 1.0000, 0.1618],
107
+ # [0.1182, 0.1618, 1.0000]])
108
  ```
109
 
110
  <!--
 
172
  }
173
  ```
174
 
175
+ ### Evaluation Dataset
176
+
177
+ #### embbedding_text_1111
178
+
179
+ * Dataset: [embbedding_text_1111](https://huggingface.co/datasets/yenstdi/embbedding_text_1111) at [610ac14](https://huggingface.co/datasets/yenstdi/embbedding_text_1111/tree/610ac1456cc501416303e62f7813f2ee87ee95e3)
180
+ * Size: 25 evaluation samples
181
+ * Columns: <code>anchor</code> and <code>positive</code>
182
+ * Approximate statistics based on the first 25 samples:
183
+ | | anchor | positive |
184
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
185
+ | type | string | string |
186
+ | details | <ul><li>min: 11 tokens</li><li>mean: 15.16 tokens</li><li>max: 20 tokens</li></ul> | <ul><li>min: 28 tokens</li><li>mean: 39.36 tokens</li><li>max: 54 tokens</li></ul> |
187
+ * Samples:
188
+ | anchor | positive |
189
+ |:-------------------------------|:----------------------------------------------------------------------|
190
+ | <code>這款手機的電池續航力令人印象深刻。</code> | <code>該行動裝置的電力持久度表現優異,能滿足長時間使用的需求。</code> |
191
+ | <code>什麼是機器學習中的過擬合現象?</code> | <code>當模型在訓練數據上表現極佳,但在未見過的測試數據上預測準確率大幅下降時,通常就是發生了 Overfitting。</code> |
192
+ | <code>2024年全球永續能源趨勢報告</code> | <code>隨著各國減碳政策的推進,太陽能與離岸風電在未來幾年將成為再生能源成長的核心動力。</code> |
193
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
194
+ ```json
195
+ {
196
+ "scale": 20.0,
197
+ "similarity_fct": "cos_sim",
198
+ "gather_across_devices": false
199
+ }
200
+ ```
201
+
202
  ### Training Hyperparameters
203
  #### Non-Default Hyperparameters
204
 
205
+ - `eval_strategy`: epoch
206
  - `per_device_train_batch_size`: 64
207
  - `per_device_eval_batch_size`: 64
208
  - `num_train_epochs`: 10
 
213
 
214
  - `overwrite_output_dir`: False
215
  - `do_predict`: False
216
+ - `eval_strategy`: epoch
217
  - `prediction_loss_only`: True
218
  - `per_device_train_batch_size`: 64
219
  - `per_device_eval_batch_size`: 64
 
334
  </details>
335
 
336
  ### Training Logs
337
+ | Epoch | Step | Training Loss | Validation Loss |
338
+ |:-----:|:----:|:-------------:|:---------------:|
339
+ | 1.0 | 1 | 2.4771 | 0.4011 |
340
+ | 2.0 | 2 | 2.5696 | 0.3978 |
341
+ | 3.0 | 3 | 2.4096 | 0.3917 |
342
+ | 4.0 | 4 | 2.4025 | 0.3832 |
343
+ | 5.0 | 5 | 2.2429 | 0.3730 |
344
+ | 6.0 | 6 | 2.1532 | 0.3615 |
345
+ | 7.0 | 7 | 2.0347 | 0.3499 |
346
+ | 8.0 | 8 | 1.8817 | 0.3384 |
347
+ | 9.0 | 9 | 1.7143 | 0.3277 |
348
+ | 10.0 | 10 | 1.4908 | 0.3180 |
349
 
350
 
351
  ### Framework Versions
checkpoint-10/README.md CHANGED
@@ -9,31 +9,31 @@ tags:
9
  - loss:MultipleNegativesRankingLoss
10
  base_model: BAAI/bge-large-zh-v1.5
11
  widget:
12
- - source_sentence: 機器學習演算法工程師
13
  sentences:
14
- - 採用 React 或 Vue 生態系搭配 TypeScript,能有效提升大型休閒平台前端介面的可維護性使用者互動體驗
15
- - 運用 PyTorch 或 TensorFlow 建立深度學習模型,並透過 scikit-learn 進行特徵工程
16
- - 規劃國內外旅遊路線、協調交通住宿並提供旅客諮詢服務是旅行社企劃人員主要職責
17
- - source_sentence: 開發休閒類行動應用程式伺服器端框架選擇
18
  sentences:
19
- - 對於需要快速開發與迭代的娛樂型 AppPython 的 FastAPI 或 Django 建立穩定後端服務理想選擇
20
- - 可以詢問其對 Vuex 狀態管理、Vue Router 由控制以及 Nuxt.js 框架優缺點看法
21
- - 職位要求熟悉 Gin 或 Echo 等 Web 框架並具備 gRPC 通訊協定開發實務
22
- - source_sentence: 雲端架構維運與 DevOps 技能
23
  sentences:
24
- - 熟練操 AWS EC2 與 RDS 服務,並具備 Docker 容器化技術與 Kubernetes 叢集管理能力
25
- - 除了基礎的 Express 外,具備 Nest.js 或 Koa 框架開發經驗者在後端職位競爭中更具優勢
26
- - Jenkins 與 GitLab CI 結合 Docker 容器技術,可以實現遊戲伺服器版本無縫更新持續整合 (CI/CD)
27
- - source_sentence: React 前端工程師職位要求
28
  sentences:
29
- - 具備 Docker 與 Kubernetes 部署經驗,並能透 Helm 管理 K8s 應用式的生命週期
30
- - Matplotlib、Seaborn 或 Plotly 等工具將複雜數據轉化為直觀圖表與報表
31
- - 應徵者需熟悉 Redux 狀態管理React Router 路由配置並具備 Next.js 伺服器端渲染開發經驗
32
- - source_sentence: 尋找熟悉微服務架構 Java 開發者
33
  sentences:
34
- - 本職位要求應徵者具備 Django 或 FastAPI 實務驗,並能運用 Celery 處理非同步任務
35
- - 透過 JenkinsGitLab CI GitHub Actions 實作 CI/CD 管線以提升軟體交付效率
36
- - 精通 Spring Boot 與 Spring Cloud並具備 Maven 或 Gradle 專案建置經驗
37
  datasets:
38
  - yenstdi/embbedding_text_1111
39
  pipeline_tag: sentence-similarity
@@ -91,9 +91,9 @@ from sentence_transformers import SentenceTransformer
91
  model = SentenceTransformer("sentence_transformers_model_id")
92
  # Run inference
93
  sentences = [
94
- '尋找熟悉微服務架構 Java 開發者',
95
- '精通 Spring Boot Spring Cloud並具備 Maven 或 Gradle 專案建置經驗',
96
- '透過 JenkinsGitLab CI GitHub Actions 實作 CI/CD 管線以提升軟體交付效率',
97
  ]
98
  embeddings = model.encode(sentences)
99
  print(embeddings.shape)
@@ -102,9 +102,9 @@ print(embeddings.shape)
102
  # Get the similarity scores for the embeddings
103
  similarities = model.similarity(embeddings, embeddings)
104
  print(similarities)
105
- # tensor([[1.0000, 0.6469, 0.3960],
106
- # [0.6469, 1.0000, 0.4859],
107
- # [0.3960, 0.4859, 1.0000]])
108
  ```
109
 
110
  <!--
@@ -172,9 +172,37 @@ You can finetune this model on your own dataset.
172
  }
173
  ```
174
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
175
  ### Training Hyperparameters
176
  #### Non-Default Hyperparameters
177
 
 
178
  - `per_device_train_batch_size`: 64
179
  - `per_device_eval_batch_size`: 64
180
  - `num_train_epochs`: 10
@@ -185,7 +213,7 @@ You can finetune this model on your own dataset.
185
 
186
  - `overwrite_output_dir`: False
187
  - `do_predict`: False
188
- - `eval_strategy`: no
189
  - `prediction_loss_only`: True
190
  - `per_device_train_batch_size`: 64
191
  - `per_device_eval_batch_size`: 64
@@ -306,18 +334,18 @@ You can finetune this model on your own dataset.
306
  </details>
307
 
308
  ### Training Logs
309
- | Epoch | Step | Training Loss |
310
- |:-----:|:----:|:-------------:|
311
- | 1.0 | 1 | 2.4771 |
312
- | 2.0 | 2 | 2.5696 |
313
- | 3.0 | 3 | 2.4096 |
314
- | 4.0 | 4 | 2.4025 |
315
- | 5.0 | 5 | 2.2429 |
316
- | 6.0 | 6 | 2.1532 |
317
- | 7.0 | 7 | 2.0347 |
318
- | 8.0 | 8 | 1.8817 |
319
- | 9.0 | 9 | 1.7143 |
320
- | 10.0 | 10 | 1.4908 |
321
 
322
 
323
  ### Framework Versions
 
9
  - loss:MultipleNegativesRankingLoss
10
  base_model: BAAI/bge-large-zh-v1.5
11
  widget:
12
+ - source_sentence: 定期定額投資的優缺點
13
  sentences:
14
+ - 近年來大型語言模型擴散模型在圖像與文本生成領域取得突破性進展
15
+ - 國際間的生產與物流體系正在發生重大的組織變革與調整。
16
+ - 透過固定金額長期投入,投資者能有效攤平市場波動帶來成本風險,但可能在強勁牛市中錯失更高的單筆申購報酬
17
+ - source_sentence: 京都最適合賞楓季節是什麼時候?
18
  sentences:
19
+ - 秋季前往關西地區十一月中旬到十二月初通常觀賞紅葉最佳時機
20
+ - 使用 asyncio 庫可以實現非阻塞的 I/O 操作,顯著提升網爬蟲或 API 請求並發性能
21
+ - 在快速變遷的場環境中持續獲取新知識與技能是維持個人競爭力與適應力關鍵
22
+ - source_sentence: 長期失眠該如何改善?
23
  sentences:
24
+ - 建立規律的息時間、減少睡前使用電子產品,並營造舒適的睡眠環境有助於緩解睡眠障礙
25
+ - 植物透過葉綠體吸收太陽能,將二氧化碳與水轉化為葡萄糖並釋放氧氣,這是地球能量循環的基礎。
26
+ - 辦理信貸款通常要求穩定收入證明良好的信用評分
27
+ - source_sentence: 如何減少日常生活中的碳足跡
28
  sentences:
29
+ - 在推動組織數位化過程中,往往會面臨技術債、員工抗拒改變以及缺乏清晰策略等難題
30
+ - 該行動裝置的電力持久度表現優異,能滿足時間使用的需求
31
+ - 透過節能家電搭乘大眾運輸及實踐蔬食生活能有效降低個人的環境影響
32
+ - source_sentence: 京都最值得造訪歷史古蹟
33
  sentences:
34
+ - 這座日古都擁有眾多世界文化遺產,如清水寺、金閣寺與伏見稻荷大社,是體驗傳統文化之地
35
+ - 患者通常會感到胸口灼熱(俗稱火燒心)胃酸逆流,有時還會伴隨慢性咳嗽喉嚨發炎。
36
+ - 這種以植物性食物、橄欖油和適量深海魚為主的飲食模式被證實能有效預防心血管疾病。
37
  datasets:
38
  - yenstdi/embbedding_text_1111
39
  pipeline_tag: sentence-similarity
 
91
  model = SentenceTransformer("sentence_transformers_model_id")
92
  # Run inference
93
  sentences = [
94
+ '京都最值得造訪歷史古蹟',
95
+ '這座日本古都擁有眾多世界文化遺產,如清水寺、金閣寺伏見稻荷大社是體傳統文化的必經之地。',
96
+ '患者通常會感到胸口灼熱(俗稱火燒心)胃酸逆流,有時還會伴隨慢性咳嗽喉嚨發炎。',
97
  ]
98
  embeddings = model.encode(sentences)
99
  print(embeddings.shape)
 
102
  # Get the similarity scores for the embeddings
103
  similarities = model.similarity(embeddings, embeddings)
104
  print(similarities)
105
+ # tensor([[1.0000, 0.6986, 0.1182],
106
+ # [0.6986, 1.0000, 0.1618],
107
+ # [0.1182, 0.1618, 1.0000]])
108
  ```
109
 
110
  <!--
 
172
  }
173
  ```
174
 
175
+ ### Evaluation Dataset
176
+
177
+ #### embbedding_text_1111
178
+
179
+ * Dataset: [embbedding_text_1111](https://huggingface.co/datasets/yenstdi/embbedding_text_1111) at [610ac14](https://huggingface.co/datasets/yenstdi/embbedding_text_1111/tree/610ac1456cc501416303e62f7813f2ee87ee95e3)
180
+ * Size: 25 evaluation samples
181
+ * Columns: <code>anchor</code> and <code>positive</code>
182
+ * Approximate statistics based on the first 25 samples:
183
+ | | anchor | positive |
184
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
185
+ | type | string | string |
186
+ | details | <ul><li>min: 11 tokens</li><li>mean: 15.16 tokens</li><li>max: 20 tokens</li></ul> | <ul><li>min: 28 tokens</li><li>mean: 39.36 tokens</li><li>max: 54 tokens</li></ul> |
187
+ * Samples:
188
+ | anchor | positive |
189
+ |:-------------------------------|:----------------------------------------------------------------------|
190
+ | <code>這款手機的電池續航力令人印象深刻。</code> | <code>該行動裝置的電力持久度表現優異,能滿足長時間使用的需求。</code> |
191
+ | <code>什麼是機器學習中的過擬合現象?</code> | <code>當模型在訓練數據上表現極佳,但在未見過的測試數據上預測準確率大幅下降時,通常就是發生了 Overfitting。</code> |
192
+ | <code>2024年全球永續能源趨勢報告</code> | <code>隨著各國減碳政策的推進,太陽能與離岸風電在未來幾年將成為再生能源成長的核心動力。</code> |
193
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
194
+ ```json
195
+ {
196
+ "scale": 20.0,
197
+ "similarity_fct": "cos_sim",
198
+ "gather_across_devices": false
199
+ }
200
+ ```
201
+
202
  ### Training Hyperparameters
203
  #### Non-Default Hyperparameters
204
 
205
+ - `eval_strategy`: epoch
206
  - `per_device_train_batch_size`: 64
207
  - `per_device_eval_batch_size`: 64
208
  - `num_train_epochs`: 10
 
213
 
214
  - `overwrite_output_dir`: False
215
  - `do_predict`: False
216
+ - `eval_strategy`: epoch
217
  - `prediction_loss_only`: True
218
  - `per_device_train_batch_size`: 64
219
  - `per_device_eval_batch_size`: 64
 
334
  </details>
335
 
336
  ### Training Logs
337
+ | Epoch | Step | Training Loss | Validation Loss |
338
+ |:-----:|:----:|:-------------:|:---------------:|
339
+ | 1.0 | 1 | 2.4771 | 0.4011 |
340
+ | 2.0 | 2 | 2.5696 | 0.3978 |
341
+ | 3.0 | 3 | 2.4096 | 0.3917 |
342
+ | 4.0 | 4 | 2.4025 | 0.3832 |
343
+ | 5.0 | 5 | 2.2429 | 0.3730 |
344
+ | 6.0 | 6 | 2.1532 | 0.3615 |
345
+ | 7.0 | 7 | 2.0347 | 0.3499 |
346
+ | 8.0 | 8 | 1.8817 | 0.3384 |
347
+ | 9.0 | 9 | 1.7143 | 0.3277 |
348
+ | 10.0 | 10 | 1.4908 | 0.3180 |
349
 
350
 
351
  ### Framework Versions
checkpoint-10/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:765517977b6d782ca23707e28659df678828881b9338528bd66691476ad14606
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a9ac82c8753156d3621dbec1995af4174a4a918aea621395fd088d22fb439e8f
3
  size 14645
checkpoint-10/trainer_state.json CHANGED
@@ -16,6 +16,14 @@
16
  "loss": 2.4771,
17
  "step": 1
18
  },
 
 
 
 
 
 
 
 
19
  {
20
  "epoch": 2.0,
21
  "grad_norm": 17.471435546875,
@@ -23,6 +31,14 @@
23
  "loss": 2.5696,
24
  "step": 2
25
  },
 
 
 
 
 
 
 
 
26
  {
27
  "epoch": 3.0,
28
  "grad_norm": 16.502605438232422,
@@ -30,6 +46,14 @@
30
  "loss": 2.4096,
31
  "step": 3
32
  },
 
 
 
 
 
 
 
 
33
  {
34
  "epoch": 4.0,
35
  "grad_norm": 15.583235740661621,
@@ -37,6 +61,14 @@
37
  "loss": 2.4025,
38
  "step": 4
39
  },
 
 
 
 
 
 
 
 
40
  {
41
  "epoch": 5.0,
42
  "grad_norm": 15.021787643432617,
@@ -44,6 +76,14 @@
44
  "loss": 2.2429,
45
  "step": 5
46
  },
 
 
 
 
 
 
 
 
47
  {
48
  "epoch": 6.0,
49
  "grad_norm": 14.483270645141602,
@@ -51,6 +91,14 @@
51
  "loss": 2.1532,
52
  "step": 6
53
  },
 
 
 
 
 
 
 
 
54
  {
55
  "epoch": 7.0,
56
  "grad_norm": 13.854901313781738,
@@ -58,6 +106,14 @@
58
  "loss": 2.0347,
59
  "step": 7
60
  },
 
 
 
 
 
 
 
 
61
  {
62
  "epoch": 8.0,
63
  "grad_norm": 13.282709121704102,
@@ -65,6 +121,14 @@
65
  "loss": 1.8817,
66
  "step": 8
67
  },
 
 
 
 
 
 
 
 
68
  {
69
  "epoch": 9.0,
70
  "grad_norm": 12.319931983947754,
@@ -72,12 +136,28 @@
72
  "loss": 1.7143,
73
  "step": 9
74
  },
 
 
 
 
 
 
 
 
75
  {
76
  "epoch": 10.0,
77
  "grad_norm": 11.570226669311523,
78
  "learning_rate": 4.5e-06,
79
  "loss": 1.4908,
80
  "step": 10
 
 
 
 
 
 
 
 
81
  }
82
  ],
83
  "logging_steps": 1,
 
16
  "loss": 2.4771,
17
  "step": 1
18
  },
19
+ {
20
+ "epoch": 1.0,
21
+ "eval_loss": 0.40109243988990784,
22
+ "eval_runtime": 0.2966,
23
+ "eval_samples_per_second": 84.299,
24
+ "eval_steps_per_second": 3.372,
25
+ "step": 1
26
+ },
27
  {
28
  "epoch": 2.0,
29
  "grad_norm": 17.471435546875,
 
31
  "loss": 2.5696,
32
  "step": 2
33
  },
34
+ {
35
+ "epoch": 2.0,
36
+ "eval_loss": 0.3977726995944977,
37
+ "eval_runtime": 0.3347,
38
+ "eval_samples_per_second": 74.701,
39
+ "eval_steps_per_second": 2.988,
40
+ "step": 2
41
+ },
42
  {
43
  "epoch": 3.0,
44
  "grad_norm": 16.502605438232422,
 
46
  "loss": 2.4096,
47
  "step": 3
48
  },
49
+ {
50
+ "epoch": 3.0,
51
+ "eval_loss": 0.3917332589626312,
52
+ "eval_runtime": 0.3382,
53
+ "eval_samples_per_second": 73.931,
54
+ "eval_steps_per_second": 2.957,
55
+ "step": 3
56
+ },
57
  {
58
  "epoch": 4.0,
59
  "grad_norm": 15.583235740661621,
 
61
  "loss": 2.4025,
62
  "step": 4
63
  },
64
+ {
65
+ "epoch": 4.0,
66
+ "eval_loss": 0.38322871923446655,
67
+ "eval_runtime": 0.3277,
68
+ "eval_samples_per_second": 76.279,
69
+ "eval_steps_per_second": 3.051,
70
+ "step": 4
71
+ },
72
  {
73
  "epoch": 5.0,
74
  "grad_norm": 15.021787643432617,
 
76
  "loss": 2.2429,
77
  "step": 5
78
  },
79
+ {
80
+ "epoch": 5.0,
81
+ "eval_loss": 0.37303000688552856,
82
+ "eval_runtime": 0.3473,
83
+ "eval_samples_per_second": 71.987,
84
+ "eval_steps_per_second": 2.879,
85
+ "step": 5
86
+ },
87
  {
88
  "epoch": 6.0,
89
  "grad_norm": 14.483270645141602,
 
91
  "loss": 2.1532,
92
  "step": 6
93
  },
94
+ {
95
+ "epoch": 6.0,
96
+ "eval_loss": 0.3615022897720337,
97
+ "eval_runtime": 0.3447,
98
+ "eval_samples_per_second": 72.53,
99
+ "eval_steps_per_second": 2.901,
100
+ "step": 6
101
+ },
102
  {
103
  "epoch": 7.0,
104
  "grad_norm": 13.854901313781738,
 
106
  "loss": 2.0347,
107
  "step": 7
108
  },
109
+ {
110
+ "epoch": 7.0,
111
+ "eval_loss": 0.3498750925064087,
112
+ "eval_runtime": 0.3575,
113
+ "eval_samples_per_second": 69.926,
114
+ "eval_steps_per_second": 2.797,
115
+ "step": 7
116
+ },
117
  {
118
  "epoch": 8.0,
119
  "grad_norm": 13.282709121704102,
 
121
  "loss": 1.8817,
122
  "step": 8
123
  },
124
+ {
125
+ "epoch": 8.0,
126
+ "eval_loss": 0.33841240406036377,
127
+ "eval_runtime": 0.3574,
128
+ "eval_samples_per_second": 69.957,
129
+ "eval_steps_per_second": 2.798,
130
+ "step": 8
131
+ },
132
  {
133
  "epoch": 9.0,
134
  "grad_norm": 12.319931983947754,
 
136
  "loss": 1.7143,
137
  "step": 9
138
  },
139
+ {
140
+ "epoch": 9.0,
141
+ "eval_loss": 0.3276784420013428,
142
+ "eval_runtime": 0.3673,
143
+ "eval_samples_per_second": 68.066,
144
+ "eval_steps_per_second": 2.723,
145
+ "step": 9
146
+ },
147
  {
148
  "epoch": 10.0,
149
  "grad_norm": 11.570226669311523,
150
  "learning_rate": 4.5e-06,
151
  "loss": 1.4908,
152
  "step": 10
153
+ },
154
+ {
155
+ "epoch": 10.0,
156
+ "eval_loss": 0.3180310130119324,
157
+ "eval_runtime": 0.3552,
158
+ "eval_samples_per_second": 70.379,
159
+ "eval_steps_per_second": 2.815,
160
+ "step": 10
161
  }
162
  ],
163
  "logging_steps": 1,
checkpoint-10/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:30733f8369e31c3b52d3aad89cff6e2b530d9e8987b93399d2713a72f96ed2ab
3
  size 6097
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d7b798ac8b0e0d41d12d4c6ffa18e77feeb9b8c3acefa12c37b4d8f455c740ca
3
  size 6097
checkpoint-9/README.md CHANGED
@@ -9,31 +9,31 @@ tags:
9
  - loss:MultipleNegativesRankingLoss
10
  base_model: BAAI/bge-large-zh-v1.5
11
  widget:
12
- - source_sentence: 機器學習演算法工程師
13
  sentences:
14
- - 採用 React 或 Vue 生態系搭配 TypeScript,能有效提升大型休閒平台前端介面的可維護性使用者互動體驗
15
- - 運用 PyTorch 或 TensorFlow 建立深度學習模型,並透過 scikit-learn 進行特徵工程
16
- - 規劃國內外旅遊路線、協調交通住宿並提供旅客諮詢服務是旅行社企劃人員主要職責
17
- - source_sentence: 開發休閒類行動應用程式伺服器端框架選擇
18
  sentences:
19
- - 對於需要快速開發與迭代的娛樂型 AppPython 的 FastAPI 或 Django 建立穩定後端服務理想選擇
20
- - 可以詢問其對 Vuex 狀態管理、Vue Router 由控制以及 Nuxt.js 框架優缺點看法
21
- - 職位要求熟悉 Gin 或 Echo 等 Web 框架並具備 gRPC 通訊協定開發實務
22
- - source_sentence: 雲端架構維運與 DevOps 技能
23
  sentences:
24
- - 熟練操 AWS EC2 與 RDS 服務,並具備 Docker 容器化技術與 Kubernetes 叢集管理能力
25
- - 除了基礎的 Express 外,具備 Nest.js 或 Koa 框架開發經驗者在後端職位競爭中更具優勢
26
- - Jenkins 與 GitLab CI 結合 Docker 容器技術,可以實現遊戲伺服器版本無縫更新持續整合 (CI/CD)
27
- - source_sentence: React 前端工程師職位要求
28
  sentences:
29
- - 具備 Docker 與 Kubernetes 部署經驗,並能透 Helm 管理 K8s 應用式的生命週期
30
- - Matplotlib、Seaborn 或 Plotly 等工具將複雜數據轉化為直觀圖表與報表
31
- - 應徵者需熟悉 Redux 狀態管理React Router 路由配置並具備 Next.js 伺服器端渲染開發經驗
32
- - source_sentence: 尋找熟悉微服務架構 Java 開發者
33
  sentences:
34
- - 本職位要求應徵者具備 Django 或 FastAPI 實務驗,並能運用 Celery 處理非同步任務
35
- - 透過 JenkinsGitLab CI GitHub Actions 實作 CI/CD 管線以提升軟體交付效率
36
- - 精通 Spring Boot 與 Spring Cloud並具備 Maven 或 Gradle 專案建置經驗
37
  datasets:
38
  - yenstdi/embbedding_text_1111
39
  pipeline_tag: sentence-similarity
@@ -91,9 +91,9 @@ from sentence_transformers import SentenceTransformer
91
  model = SentenceTransformer("sentence_transformers_model_id")
92
  # Run inference
93
  sentences = [
94
- '尋找熟悉微服務架構 Java 開發者',
95
- '精通 Spring Boot Spring Cloud並具備 Maven 或 Gradle 專案建置經驗',
96
- '透過 JenkinsGitLab CI GitHub Actions 實作 CI/CD 管線以提升軟體交付效率',
97
  ]
98
  embeddings = model.encode(sentences)
99
  print(embeddings.shape)
@@ -102,9 +102,9 @@ print(embeddings.shape)
102
  # Get the similarity scores for the embeddings
103
  similarities = model.similarity(embeddings, embeddings)
104
  print(similarities)
105
- # tensor([[1.0000, 0.6457, 0.4137],
106
- # [0.6457, 1.0000, 0.5084],
107
- # [0.4137, 0.5084, 1.0000]])
108
  ```
109
 
110
  <!--
@@ -172,9 +172,37 @@ You can finetune this model on your own dataset.
172
  }
173
  ```
174
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
175
  ### Training Hyperparameters
176
  #### Non-Default Hyperparameters
177
 
 
178
  - `per_device_train_batch_size`: 64
179
  - `per_device_eval_batch_size`: 64
180
  - `num_train_epochs`: 10
@@ -185,7 +213,7 @@ You can finetune this model on your own dataset.
185
 
186
  - `overwrite_output_dir`: False
187
  - `do_predict`: False
188
- - `eval_strategy`: no
189
  - `prediction_loss_only`: True
190
  - `per_device_train_batch_size`: 64
191
  - `per_device_eval_batch_size`: 64
@@ -306,17 +334,17 @@ You can finetune this model on your own dataset.
306
  </details>
307
 
308
  ### Training Logs
309
- | Epoch | Step | Training Loss |
310
- |:-----:|:----:|:-------------:|
311
- | 1.0 | 1 | 2.4771 |
312
- | 2.0 | 2 | 2.5696 |
313
- | 3.0 | 3 | 2.4096 |
314
- | 4.0 | 4 | 2.4025 |
315
- | 5.0 | 5 | 2.2429 |
316
- | 6.0 | 6 | 2.1532 |
317
- | 7.0 | 7 | 2.0347 |
318
- | 8.0 | 8 | 1.8817 |
319
- | 9.0 | 9 | 1.7143 |
320
 
321
 
322
  ### Framework Versions
 
9
  - loss:MultipleNegativesRankingLoss
10
  base_model: BAAI/bge-large-zh-v1.5
11
  widget:
12
+ - source_sentence: 定期定額投資的優缺點
13
  sentences:
14
+ - 近年來大型語言模型擴散模型在圖像與文本生成領域取得突破性進展
15
+ - 國際間的生產與物流體系正在發生重大的組織變革與調整。
16
+ - 透過固定金額長期投入,投資者能有效攤平市場波動帶來成本風險,但可能在強勁牛市中錯失更高的單筆申購報酬
17
+ - source_sentence: 京都最適合賞楓季節是什麼時候?
18
  sentences:
19
+ - 秋季前往關西地區十一月中旬到十二月初通常觀賞紅葉最佳時機
20
+ - 使用 asyncio 庫可以實現非阻塞的 I/O 操作,顯著提升網爬蟲或 API 請求並發性能
21
+ - 在快速變遷的場環境中持續獲取新知識與技能是維持個人競爭力與適應力關鍵
22
+ - source_sentence: 長期失眠該如何改善?
23
  sentences:
24
+ - 建立規律的息時間、減少睡前使用電子產品,並營造舒適的睡眠環境有助於緩解睡眠障礙
25
+ - 植物透過葉綠體吸收太陽能,將二氧化碳與水轉化為葡萄糖並釋放氧氣,這是地球能量循環的基礎。
26
+ - 辦理信貸款通常要求穩定收入證明良好的信用評分
27
+ - source_sentence: 如何減少日常生活中的碳足跡
28
  sentences:
29
+ - 在推動組織數位化過程中,往往會面臨技術債、員工抗拒改變以及缺乏清晰策略等難題
30
+ - 該行動裝置的電力持久度表現優異,能滿足時間使用的需求
31
+ - 透過節能家電搭乘大眾運輸及實踐蔬食生活能有效降低個人的環境影響
32
+ - source_sentence: 京都最值得造訪歷史古蹟
33
  sentences:
34
+ - 這座日古都擁有眾多世界文化遺產,如清水寺、金閣寺與伏見稻荷大社,是體驗傳統文化之地
35
+ - 患者通常會感到胸口灼熱(俗稱火燒心)胃酸逆流,有時還會伴隨慢性咳嗽喉嚨發炎。
36
+ - 這種以植物性食物、橄欖油和適量深海魚為主的飲食模式被證實能有效預防心血管疾病。
37
  datasets:
38
  - yenstdi/embbedding_text_1111
39
  pipeline_tag: sentence-similarity
 
91
  model = SentenceTransformer("sentence_transformers_model_id")
92
  # Run inference
93
  sentences = [
94
+ '京都最值得造訪歷史古蹟',
95
+ '這座日本古都擁有眾多世界文化遺產,如清水寺、金閣寺伏見稻荷大社是體傳統文化的必經之地。',
96
+ '患者通常會感到胸口灼熱(俗稱火燒心)胃酸逆流,有時還會伴隨慢性咳嗽喉嚨發炎。',
97
  ]
98
  embeddings = model.encode(sentences)
99
  print(embeddings.shape)
 
102
  # Get the similarity scores for the embeddings
103
  similarities = model.similarity(embeddings, embeddings)
104
  print(similarities)
105
+ # tensor([[1.0000, 0.6910, 0.1253],
106
+ # [0.6910, 1.0000, 0.1680],
107
+ # [0.1253, 0.1680, 1.0000]])
108
  ```
109
 
110
  <!--
 
172
  }
173
  ```
174
 
175
+ ### Evaluation Dataset
176
+
177
+ #### embbedding_text_1111
178
+
179
+ * Dataset: [embbedding_text_1111](https://huggingface.co/datasets/yenstdi/embbedding_text_1111) at [610ac14](https://huggingface.co/datasets/yenstdi/embbedding_text_1111/tree/610ac1456cc501416303e62f7813f2ee87ee95e3)
180
+ * Size: 25 evaluation samples
181
+ * Columns: <code>anchor</code> and <code>positive</code>
182
+ * Approximate statistics based on the first 25 samples:
183
+ | | anchor | positive |
184
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
185
+ | type | string | string |
186
+ | details | <ul><li>min: 11 tokens</li><li>mean: 15.16 tokens</li><li>max: 20 tokens</li></ul> | <ul><li>min: 28 tokens</li><li>mean: 39.36 tokens</li><li>max: 54 tokens</li></ul> |
187
+ * Samples:
188
+ | anchor | positive |
189
+ |:-------------------------------|:----------------------------------------------------------------------|
190
+ | <code>這款手機的電池續航力令人印象深刻。</code> | <code>該行動裝置的電力持久度表現優異,能滿足長時間使用的需求。</code> |
191
+ | <code>什麼是機器學習中的過擬合現象?</code> | <code>當模型在訓練數據上表現極佳,但在未見過的測試數據上預測準確率大幅下降時,通常就是發生了 Overfitting。</code> |
192
+ | <code>2024年全球永續能源趨勢報告</code> | <code>隨著各國減碳政策的推進,太陽能與離岸風電在未來幾年將成為再生能源成長的核心動力。</code> |
193
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
194
+ ```json
195
+ {
196
+ "scale": 20.0,
197
+ "similarity_fct": "cos_sim",
198
+ "gather_across_devices": false
199
+ }
200
+ ```
201
+
202
  ### Training Hyperparameters
203
  #### Non-Default Hyperparameters
204
 
205
+ - `eval_strategy`: epoch
206
  - `per_device_train_batch_size`: 64
207
  - `per_device_eval_batch_size`: 64
208
  - `num_train_epochs`: 10
 
213
 
214
  - `overwrite_output_dir`: False
215
  - `do_predict`: False
216
+ - `eval_strategy`: epoch
217
  - `prediction_loss_only`: True
218
  - `per_device_train_batch_size`: 64
219
  - `per_device_eval_batch_size`: 64
 
334
  </details>
335
 
336
  ### Training Logs
337
+ | Epoch | Step | Training Loss | Validation Loss |
338
+ |:-----:|:----:|:-------------:|:---------------:|
339
+ | 1.0 | 1 | 2.4771 | 0.4011 |
340
+ | 2.0 | 2 | 2.5696 | 0.3978 |
341
+ | 3.0 | 3 | 2.4096 | 0.3917 |
342
+ | 4.0 | 4 | 2.4025 | 0.3832 |
343
+ | 5.0 | 5 | 2.2429 | 0.3730 |
344
+ | 6.0 | 6 | 2.1532 | 0.3615 |
345
+ | 7.0 | 7 | 2.0347 | 0.3499 |
346
+ | 8.0 | 8 | 1.8817 | 0.3384 |
347
+ | 9.0 | 9 | 1.7143 | 0.3277 |
348
 
349
 
350
  ### Framework Versions
checkpoint-9/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e738727bded44cfa4e19444d45a6f5d3d02c86b73fcf4dde53227b17547553ba
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f43fa47aa893388f98cab13c029f33a762562f9bc90991890a71d60799592d2e
3
  size 14645
checkpoint-9/trainer_state.json CHANGED
@@ -16,6 +16,14 @@
16
  "loss": 2.4771,
17
  "step": 1
18
  },
 
 
 
 
 
 
 
 
19
  {
20
  "epoch": 2.0,
21
  "grad_norm": 17.471435546875,
@@ -23,6 +31,14 @@
23
  "loss": 2.5696,
24
  "step": 2
25
  },
 
 
 
 
 
 
 
 
26
  {
27
  "epoch": 3.0,
28
  "grad_norm": 16.502605438232422,
@@ -30,6 +46,14 @@
30
  "loss": 2.4096,
31
  "step": 3
32
  },
 
 
 
 
 
 
 
 
33
  {
34
  "epoch": 4.0,
35
  "grad_norm": 15.583235740661621,
@@ -37,6 +61,14 @@
37
  "loss": 2.4025,
38
  "step": 4
39
  },
 
 
 
 
 
 
 
 
40
  {
41
  "epoch": 5.0,
42
  "grad_norm": 15.021787643432617,
@@ -44,6 +76,14 @@
44
  "loss": 2.2429,
45
  "step": 5
46
  },
 
 
 
 
 
 
 
 
47
  {
48
  "epoch": 6.0,
49
  "grad_norm": 14.483270645141602,
@@ -51,6 +91,14 @@
51
  "loss": 2.1532,
52
  "step": 6
53
  },
 
 
 
 
 
 
 
 
54
  {
55
  "epoch": 7.0,
56
  "grad_norm": 13.854901313781738,
@@ -58,6 +106,14 @@
58
  "loss": 2.0347,
59
  "step": 7
60
  },
 
 
 
 
 
 
 
 
61
  {
62
  "epoch": 8.0,
63
  "grad_norm": 13.282709121704102,
@@ -65,12 +121,28 @@
65
  "loss": 1.8817,
66
  "step": 8
67
  },
 
 
 
 
 
 
 
 
68
  {
69
  "epoch": 9.0,
70
  "grad_norm": 12.319931983947754,
71
  "learning_rate": 4.000000000000001e-06,
72
  "loss": 1.7143,
73
  "step": 9
 
 
 
 
 
 
 
 
74
  }
75
  ],
76
  "logging_steps": 1,
 
16
  "loss": 2.4771,
17
  "step": 1
18
  },
19
+ {
20
+ "epoch": 1.0,
21
+ "eval_loss": 0.40109243988990784,
22
+ "eval_runtime": 0.2966,
23
+ "eval_samples_per_second": 84.299,
24
+ "eval_steps_per_second": 3.372,
25
+ "step": 1
26
+ },
27
  {
28
  "epoch": 2.0,
29
  "grad_norm": 17.471435546875,
 
31
  "loss": 2.5696,
32
  "step": 2
33
  },
34
+ {
35
+ "epoch": 2.0,
36
+ "eval_loss": 0.3977726995944977,
37
+ "eval_runtime": 0.3347,
38
+ "eval_samples_per_second": 74.701,
39
+ "eval_steps_per_second": 2.988,
40
+ "step": 2
41
+ },
42
  {
43
  "epoch": 3.0,
44
  "grad_norm": 16.502605438232422,
 
46
  "loss": 2.4096,
47
  "step": 3
48
  },
49
+ {
50
+ "epoch": 3.0,
51
+ "eval_loss": 0.3917332589626312,
52
+ "eval_runtime": 0.3382,
53
+ "eval_samples_per_second": 73.931,
54
+ "eval_steps_per_second": 2.957,
55
+ "step": 3
56
+ },
57
  {
58
  "epoch": 4.0,
59
  "grad_norm": 15.583235740661621,
 
61
  "loss": 2.4025,
62
  "step": 4
63
  },
64
+ {
65
+ "epoch": 4.0,
66
+ "eval_loss": 0.38322871923446655,
67
+ "eval_runtime": 0.3277,
68
+ "eval_samples_per_second": 76.279,
69
+ "eval_steps_per_second": 3.051,
70
+ "step": 4
71
+ },
72
  {
73
  "epoch": 5.0,
74
  "grad_norm": 15.021787643432617,
 
76
  "loss": 2.2429,
77
  "step": 5
78
  },
79
+ {
80
+ "epoch": 5.0,
81
+ "eval_loss": 0.37303000688552856,
82
+ "eval_runtime": 0.3473,
83
+ "eval_samples_per_second": 71.987,
84
+ "eval_steps_per_second": 2.879,
85
+ "step": 5
86
+ },
87
  {
88
  "epoch": 6.0,
89
  "grad_norm": 14.483270645141602,
 
91
  "loss": 2.1532,
92
  "step": 6
93
  },
94
+ {
95
+ "epoch": 6.0,
96
+ "eval_loss": 0.3615022897720337,
97
+ "eval_runtime": 0.3447,
98
+ "eval_samples_per_second": 72.53,
99
+ "eval_steps_per_second": 2.901,
100
+ "step": 6
101
+ },
102
  {
103
  "epoch": 7.0,
104
  "grad_norm": 13.854901313781738,
 
106
  "loss": 2.0347,
107
  "step": 7
108
  },
109
+ {
110
+ "epoch": 7.0,
111
+ "eval_loss": 0.3498750925064087,
112
+ "eval_runtime": 0.3575,
113
+ "eval_samples_per_second": 69.926,
114
+ "eval_steps_per_second": 2.797,
115
+ "step": 7
116
+ },
117
  {
118
  "epoch": 8.0,
119
  "grad_norm": 13.282709121704102,
 
121
  "loss": 1.8817,
122
  "step": 8
123
  },
124
+ {
125
+ "epoch": 8.0,
126
+ "eval_loss": 0.33841240406036377,
127
+ "eval_runtime": 0.3574,
128
+ "eval_samples_per_second": 69.957,
129
+ "eval_steps_per_second": 2.798,
130
+ "step": 8
131
+ },
132
  {
133
  "epoch": 9.0,
134
  "grad_norm": 12.319931983947754,
135
  "learning_rate": 4.000000000000001e-06,
136
  "loss": 1.7143,
137
  "step": 9
138
+ },
139
+ {
140
+ "epoch": 9.0,
141
+ "eval_loss": 0.3276784420013428,
142
+ "eval_runtime": 0.3673,
143
+ "eval_samples_per_second": 68.066,
144
+ "eval_steps_per_second": 2.723,
145
+ "step": 9
146
  }
147
  ],
148
  "logging_steps": 1,
checkpoint-9/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:30733f8369e31c3b52d3aad89cff6e2b530d9e8987b93399d2713a72f96ed2ab
3
  size 6097
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d7b798ac8b0e0d41d12d4c6ffa18e77feeb9b8c3acefa12c37b4d8f455c740ca
3
  size 6097