yosriku commited on
Commit
999d22b
·
verified ·
1 Parent(s): 2dcb43b

Selesai. Test Accuracy: 0.9945

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
2_Dense/config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"in_features": 768, "out_features": 768, "bias": true, "activation_function": "torch.nn.modules.activation.Tanh"}
2_Dense/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f40d2fe92e122fdfa6ac93fcbe981bf62e4142788a825923cbaeb49f8e166b3d
3
+ size 2362528
README.md ADDED
@@ -0,0 +1,467 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:3801
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: LazarusNLP/congen-indobert-lite-base
10
+ widget:
11
+ - source_sentence: s Siapa yang menetapkan keputusan kelayakan lingkungan?
12
+ sentences:
13
+ - Apakah bahan saya cukup?
14
+ - (3) Pakar independen dan sekretariat sebagaimana dimaksud pada ayat (3) ditetapkan
15
+ oleh Menteri, gubernur, atau bupati/walikota sesuai dengan kewenangannya. Pasal
16
+ 31 Berdasarkan hasil penilaian Komisi Penilai Amdal, Menteri, gubernur, atau bupati/walikota
17
+ menetapkan keputusan kelayakan atau ketidaklayakan lingkungan hidup sesuai dengan
18
+ kewenangannya.
19
+ - Tujuan yang hendak dicapai dari penerapan konsep pengelolaan sampah ini adalah
20
+ minimalisasi sampah, peningkatan kualitas kesehatan masyarakat, dan peningkatan
21
+ kualitas lingkungan hidup.
22
+ - source_sentence: Pidana tambahan apa yang dapat dikenakan pada badan usaha?kata
23
+ kata
24
+ sentences:
25
+ - Abstra ct Parangtritis Beach is a tourist attraction that is visited by many tourists.
26
+ The number of tourists visiting during the 2018 holiday reached 9,870 people in
27
+ one day.
28
+ - d. pakar di bidang pengetahuan yang terkait dengan dampak yang timbul dari suatu
29
+ usaha dan/atau kegiatan yang sedang dikaji; e. wakil dari masyarakat yang berpotensi
30
+ terkena dampak; dan f. organisasi lingkungan hidup
31
+ - 'perundang-undangan selaku pelaku fungsional. Pasal - 68 - Pasal 119 Selain pidana
32
+ sebagaimana dimaksud dalam Undang-Undang ini, terhadap badan usaha dapat dikenakan
33
+ pidana tambahan atau tindakan tata tertib berupa: a. perampasan keuntungan yang
34
+ diperoleh dari tindak pidana; b.'
35
+ - source_sentence: Siapa Menteri Hukum dan HAM?
36
+ sentences:
37
+ - MENTERI HUKUM DAN HAK ASASI MANUSIA REPUBLIK INDONESIA, ttd. ANDI MATTALATTA LEMBARAN
38
+ NEGARA REPUBLIK INDONESIA TAHUN 2008 NOMOR
39
+ - (3) Dalam hal setiap orang tidak mampu melakukan sendiri pengelolaan limbah B3,
40
+ pengelolaannya diserahkan kepada pihak lain. (4) Pengelolaan limbah B3 wajib mendapat
41
+ izin dari Menteri, gubernur, atau bupati/walikota sesuai dengan kewenangannya
42
+ - terletak pada area yang posisi geografisnya berada diantara 7058`33`` LS sampai
43
+ dengan 802`26`` LS dan diantara 110025`15`` BT sampai dengan 110028`15`` BT. Luas
44
+ keseluruhan wilayah Kecamatan Kretek adalah 2.677 Ha (5,28 % dari luas
45
+ - source_sentence: s Apa kewajiban usaha yang belum memiliki UKLUPL?
46
+ sentences:
47
+ - (2) Komisi Penilai Amdal wajib memiliki lisensi dari Menteri, gubernur, atau bupati/walikota
48
+ sesuai dengan kewenangannya. (3) Persyaratan dan tatacara lisensi sebagaimana
49
+ dimaksud pada ayat (2) diatur dengan Peraturan Menteri.
50
+ - menyelesaikan audit lingkungan hidup. (2) Pada - 69 - (2) Pada saat berlakunya
51
+ Undang-Undang ini, dalam waktu paling lama 2 (dua) tahun, setiap usaha dan/atau
52
+ kegiatan yang telah memiliki izin usaha dan/atau kegiatan tetapi belum memiliki
53
+ UKL-UPL wajib membuat dokumen pengelolaan lingkungan hidup.
54
+ - Desa ini mempunyai ketinggian tanah 13 m dari permukaan laut, dengan curah hujan
55
+ 110 mm/t ahun. Desa Parangtritis berada pada daerah dataran rendah pantai, suhu
56
+ udara rata -rata adalah 30 0C, dan memiliki pantang pantai sekitar 7 km seperti
57
+ terlihat pada Gambar 1
58
+ - source_sentence: Sebutkan 5 pidana tambahan bagi badan usaha S
59
+ sentences:
60
+ - adalah pembayaran/imbal yang diberikan oleh pemanfaat jasa lingkungan hidup kepada
61
+ penyedia jasa lingkungan hidup. Huruf f Yang dimaksud dengan “asuransi lingkungan
62
+ hidup” adalah asuransi yang memberikan perlindungan pada saat terjadi pencemaran
63
+ dan/atau kerusakan lingkungan hidup.
64
+ - c. perbaikan akibat tindak pidana; d. pewajiban mengerjakan apa yang dilalaikan
65
+ tanpa hak; dan/atau e. penempatan perusahaan di bawah pengampuan paling lama 3
66
+ (tiga) tahun.
67
+ - Bagaimana suhu udara rata-rata di Desa Parangtritis?
68
+ pipeline_tag: sentence-similarity
69
+ library_name: sentence-transformers
70
+ metrics:
71
+ - cosine_accuracy
72
+ model-index:
73
+ - name: SentenceTransformer based on LazarusNLP/congen-indobert-lite-base
74
+ results:
75
+ - task:
76
+ type: triplet
77
+ name: Triplet
78
+ dataset:
79
+ name: retrieval validation
80
+ type: retrieval-validation
81
+ metrics:
82
+ - type: cosine_accuracy
83
+ value: 0.9972401261329651
84
+ name: Cosine Accuracy
85
+ - task:
86
+ type: triplet
87
+ name: Triplet
88
+ dataset:
89
+ name: test
90
+ type: test
91
+ metrics:
92
+ - type: cosine_accuracy
93
+ value: 0.9944853186607361
94
+ name: Cosine Accuracy
95
+ ---
96
+
97
+ # SentenceTransformer based on LazarusNLP/congen-indobert-lite-base
98
+
99
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [LazarusNLP/congen-indobert-lite-base](https://huggingface.co/LazarusNLP/congen-indobert-lite-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
100
+
101
+ ## Model Details
102
+
103
+ ### Model Description
104
+ - **Model Type:** Sentence Transformer
105
+ - **Base model:** [LazarusNLP/congen-indobert-lite-base](https://huggingface.co/LazarusNLP/congen-indobert-lite-base) <!-- at revision e1f1ad81d3c620b317077edfaa5d1ce1b07b464b -->
106
+ - **Maximum Sequence Length:** 32 tokens
107
+ - **Output Dimensionality:** 768 dimensions
108
+ - **Similarity Function:** Cosine Similarity
109
+ <!-- - **Training Dataset:** Unknown -->
110
+ <!-- - **Language:** Unknown -->
111
+ <!-- - **License:** Unknown -->
112
+
113
+ ### Model Sources
114
+
115
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
116
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
117
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
118
+
119
+ ### Full Model Architecture
120
+
121
+ ```
122
+ SentenceTransformer(
123
+ (0): Transformer({'max_seq_length': 32, 'do_lower_case': False}) with Transformer model: AlbertModel
124
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
125
+ (2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
126
+ )
127
+ ```
128
+
129
+ ## Usage
130
+
131
+ ### Direct Usage (Sentence Transformers)
132
+
133
+ First install the Sentence Transformers library:
134
+
135
+ ```bash
136
+ pip install -U sentence-transformers
137
+ ```
138
+
139
+ Then you can load this model and run inference.
140
+ ```python
141
+ from sentence_transformers import SentenceTransformer
142
+
143
+ # Download from the 🤗 Hub
144
+ model = SentenceTransformer("yosriku/exp_data_scale_3files")
145
+ # Run inference
146
+ sentences = [
147
+ 'Sebutkan 5 pidana tambahan bagi badan usaha S',
148
+ 'c. perbaikan akibat tindak pidana; d. pewajiban mengerjakan apa yang dilalaikan tanpa hak; dan/atau e. penempatan perusahaan di bawah pengampuan paling lama 3 (tiga) tahun.',
149
+ 'Bagaimana suhu udara rata-rata di Desa Parangtritis?',
150
+ ]
151
+ embeddings = model.encode(sentences)
152
+ print(embeddings.shape)
153
+ # [3, 768]
154
+
155
+ # Get the similarity scores for the embeddings
156
+ similarities = model.similarity(embeddings, embeddings)
157
+ print(similarities.shape)
158
+ # [3, 3]
159
+ ```
160
+
161
+ <!--
162
+ ### Direct Usage (Transformers)
163
+
164
+ <details><summary>Click to see the direct usage in Transformers</summary>
165
+
166
+ </details>
167
+ -->
168
+
169
+ <!--
170
+ ### Downstream Usage (Sentence Transformers)
171
+
172
+ You can finetune this model on your own dataset.
173
+
174
+ <details><summary>Click to expand</summary>
175
+
176
+ </details>
177
+ -->
178
+
179
+ <!--
180
+ ### Out-of-Scope Use
181
+
182
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
183
+ -->
184
+
185
+ ## Evaluation
186
+
187
+ ### Metrics
188
+
189
+ #### Triplet
190
+
191
+ * Datasets: `retrieval-validation` and `test`
192
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
193
+
194
+ | Metric | retrieval-validation | test |
195
+ |:--------------------|:---------------------|:-----------|
196
+ | **cosine_accuracy** | **0.9972** | **0.9945** |
197
+
198
+ <!--
199
+ ## Bias, Risks and Limitations
200
+
201
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
202
+ -->
203
+
204
+ <!--
205
+ ### Recommendations
206
+
207
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
208
+ -->
209
+
210
+ ## Training Details
211
+
212
+ ### Training Dataset
213
+
214
+ #### Unnamed Dataset
215
+
216
+ * Size: 3,801 training samples
217
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
218
+ * Approximate statistics based on the first 1000 samples:
219
+ | | anchor | positive | negative |
220
+ |:--------|:--------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
221
+ | type | string | string | string |
222
+ | details | <ul><li>min: 3 tokens</li><li>mean: 9.2 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 29.83 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 26.91 tokens</li><li>max: 32 tokens</li></ul> |
223
+ * Samples:
224
+ | anchor | positive | negative |
225
+ |:--------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
226
+ | <code>Apa yang harus dilakukan pada paraphrase? h? h</code> | <code>j. memberikan informasi palsu, menyesatkan, menghilangkan informasi, merusak informasi, atau memberikan keterangan yang tidak benar. (2) Ketentuan - 47 - (2) Ketentuan sebagaimana dimaksud pada ayat (1) huruf h memperhatikan dengan sungguhsungguh kearifan lokal di daerah masingmasing.</code> | <code>fungsi lingkungan hidup. Huruf c Yang dimaksud dengan “sistem lembaga keuangan ramah lingkungan hidup” adalah sistem lembaga keuangan yang menerapkan persyaratan perlindungan dan pengelolaan lingkungan hidup dalam kebijakan pembiayaan dan praktik sistem lembaga keuangan bank dan lembaga keuangan nonbank.</code> |
227
+ | <code>Penjelasan Pasal 25 Ayat 2 Pasal 26 dan Pasal 27 25 27 28 29 30 31 32 33 34 35</code> | <code>Kompensasi merupakan bentuk pertanggungjawaban peme rintah terhadap pengelolaan sampah di tempat pemrosesan ak hir yang berdampak negatif terhadap orang. Ayat (2) Cukup jelas. Ayat (3) Cukup jelas. Ayat (4) Cukup jelas. Pasal 26 Cukup jelas. Pasal 27 Cukup jelas.</code> | <code>Jumlah pengunjung di Kawasan Wisata Pantai Parangtritis mencapai 9.870 orang/hari 1. Sedangkan, sampah yang dihasilkan oleh para wisatawan rata -rata 1,5 – 2,0 ton per hari pada hari biasa, dan bisa mencapai 20 ton sampah per hari pada saat liburan seperli libur lebaran 2.</code> |
228
+ | <code>se Bagaimana status peraturan?</code> | <code>(2) Peraturan daerah yang diamanatkan Undang-Undang ini diselesaikan paling lama 3 (tiga) tahun terhitu ng sejak Undang-Undang ini diundangkan. Pasal 48 Pada saat berlakunya Undang-Undang ini semua peratu ran perundang-undangan yang berkaitan dengan pengelolaa n sampah yang telah ada tetap berlaku sepanjang tidak bertentangan dengan ketentuan dalam Undang-Undang i ni.</code> | <code>Sebutkan beberapa jenis destinasi wisata di Yogyakarta.</code> |
229
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
230
+ ```json
231
+ {
232
+ "scale": 20.0,
233
+ "similarity_fct": "cos_sim"
234
+ }
235
+ ```
236
+
237
+ ### Evaluation Dataset
238
+
239
+ #### Unnamed Dataset
240
+
241
+ * Size: 1,087 evaluation samples
242
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
243
+ * Approximate statistics based on the first 1000 samples:
244
+ | | anchor | positive | negative |
245
+ |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
246
+ | type | string | string | string |
247
+ | details | <ul><li>min: 3 tokens</li><li>mean: 9.11 tokens</li><li>max: 29 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 30.03 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 27.32 tokens</li><li>max: 32 tokens</li></ul> |
248
+ * Samples:
249
+ | anchor | positive | negative |
250
+ |:---------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
251
+ | <code>Penjelasan Pasal 15 Ayat 3 dan Pasal 16 17 18 dan</code> | <code>peningkatan jumlah penduduk miskin atau terancamnya keberlanjutan penghidupan sekelompok masyarakat; dan/atau g. peningkatan risiko terhadap kesehatan dan keselamatan manusia. Ayat (3) Cukup jelas. Pasal 16 Cukup jelas. Pasal 17 Cukup jelas</code> | <code>Jumlah pengunjung di Kawasan Wisata Pantai Parangtritis mencapai 9.870 orang/hari 1. Sedangkan, sampah yang dihasilkan oleh para wisatawan rata -rata 1,5 – 2,0 ton per hari pada hari biasa, dan bisa mencapai 20 ton sampah per hari pada saat liburan seperli libur lebaran 2.</code> |
252
+ | <code>Dari mana sumber pendanaan Tim Pelaksana?</code> | <code>Agar... Peraturan Presiden mi mulai berlaku pada tanggal diund angkan. Pasal 12 Pasal 11 (1) Pendanaan yang diperluk an untuk pelaksan aan tugas Tim Pelaksana dan Sekr etariat Tim Koordin asi Nasion al dibebankan kepada Anggaran Pendapatan dan Belanja Negara.</code> | <code>udara rata-rata adalah 300C. Desa ini berjarak 4 km dari pusat Kecamatan Kretek dan 13 km dari ibukota kabupaten Bantul.</code> |
253
+ | <code>Sebutkan kriteria dampak penting lanjutankan</code> | <code>b. luas wilayah penyebaran dampak; c. intensitas dan lamanya dampak berlangsung; d. banyaknya komponen lingkungan hidup lain yang akan terkena dampak; e. sifat kumulatif dampak; f. berbalik atau tidak berbaliknya dampak;</code> | <code>Di mana saya bisa menjual barang hasil daur ulang?</code> |
254
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
255
+ ```json
256
+ {
257
+ "scale": 20.0,
258
+ "similarity_fct": "cos_sim"
259
+ }
260
+ ```
261
+
262
+ ### Training Hyperparameters
263
+ #### Non-Default Hyperparameters
264
+
265
+ - `eval_strategy`: steps
266
+ - `per_device_train_batch_size`: 128
267
+ - `per_device_eval_batch_size`: 128
268
+ - `learning_rate`: 2e-05
269
+ - `warmup_ratio`: 0.1
270
+ - `fp16`: True
271
+ - `load_best_model_at_end`: True
272
+ - `push_to_hub`: True
273
+ - `hub_model_id`: yosriku/exp_data_scale_3files
274
+ - `hub_private_repo`: True
275
+
276
+ #### All Hyperparameters
277
+ <details><summary>Click to expand</summary>
278
+
279
+ - `overwrite_output_dir`: False
280
+ - `do_predict`: False
281
+ - `eval_strategy`: steps
282
+ - `prediction_loss_only`: True
283
+ - `per_device_train_batch_size`: 128
284
+ - `per_device_eval_batch_size`: 128
285
+ - `per_gpu_train_batch_size`: None
286
+ - `per_gpu_eval_batch_size`: None
287
+ - `gradient_accumulation_steps`: 1
288
+ - `eval_accumulation_steps`: None
289
+ - `torch_empty_cache_steps`: None
290
+ - `learning_rate`: 2e-05
291
+ - `weight_decay`: 0.0
292
+ - `adam_beta1`: 0.9
293
+ - `adam_beta2`: 0.999
294
+ - `adam_epsilon`: 1e-08
295
+ - `max_grad_norm`: 1.0
296
+ - `num_train_epochs`: 3
297
+ - `max_steps`: -1
298
+ - `lr_scheduler_type`: linear
299
+ - `lr_scheduler_kwargs`: {}
300
+ - `warmup_ratio`: 0.1
301
+ - `warmup_steps`: 0
302
+ - `log_level`: passive
303
+ - `log_level_replica`: warning
304
+ - `log_on_each_node`: True
305
+ - `logging_nan_inf_filter`: True
306
+ - `save_safetensors`: True
307
+ - `save_on_each_node`: False
308
+ - `save_only_model`: False
309
+ - `restore_callback_states_from_checkpoint`: False
310
+ - `no_cuda`: False
311
+ - `use_cpu`: False
312
+ - `use_mps_device`: False
313
+ - `seed`: 42
314
+ - `data_seed`: None
315
+ - `jit_mode_eval`: False
316
+ - `use_ipex`: False
317
+ - `bf16`: False
318
+ - `fp16`: True
319
+ - `fp16_opt_level`: O1
320
+ - `half_precision_backend`: auto
321
+ - `bf16_full_eval`: False
322
+ - `fp16_full_eval`: False
323
+ - `tf32`: None
324
+ - `local_rank`: 0
325
+ - `ddp_backend`: None
326
+ - `tpu_num_cores`: None
327
+ - `tpu_metrics_debug`: False
328
+ - `debug`: []
329
+ - `dataloader_drop_last`: False
330
+ - `dataloader_num_workers`: 0
331
+ - `dataloader_prefetch_factor`: None
332
+ - `past_index`: -1
333
+ - `disable_tqdm`: False
334
+ - `remove_unused_columns`: True
335
+ - `label_names`: None
336
+ - `load_best_model_at_end`: True
337
+ - `ignore_data_skip`: False
338
+ - `fsdp`: []
339
+ - `fsdp_min_num_params`: 0
340
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
341
+ - `fsdp_transformer_layer_cls_to_wrap`: None
342
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
343
+ - `deepspeed`: None
344
+ - `label_smoothing_factor`: 0.0
345
+ - `optim`: adamw_torch
346
+ - `optim_args`: None
347
+ - `adafactor`: False
348
+ - `group_by_length`: False
349
+ - `length_column_name`: length
350
+ - `ddp_find_unused_parameters`: None
351
+ - `ddp_bucket_cap_mb`: None
352
+ - `ddp_broadcast_buffers`: False
353
+ - `dataloader_pin_memory`: True
354
+ - `dataloader_persistent_workers`: False
355
+ - `skip_memory_metrics`: True
356
+ - `use_legacy_prediction_loop`: False
357
+ - `push_to_hub`: True
358
+ - `resume_from_checkpoint`: None
359
+ - `hub_model_id`: yosriku/exp_data_scale_3files
360
+ - `hub_strategy`: every_save
361
+ - `hub_private_repo`: True
362
+ - `hub_always_push`: False
363
+ - `hub_revision`: None
364
+ - `gradient_checkpointing`: False
365
+ - `gradient_checkpointing_kwargs`: None
366
+ - `include_inputs_for_metrics`: False
367
+ - `include_for_metrics`: []
368
+ - `eval_do_concat_batches`: True
369
+ - `fp16_backend`: auto
370
+ - `push_to_hub_model_id`: None
371
+ - `push_to_hub_organization`: None
372
+ - `mp_parameters`:
373
+ - `auto_find_batch_size`: False
374
+ - `full_determinism`: False
375
+ - `torchdynamo`: None
376
+ - `ray_scope`: last
377
+ - `ddp_timeout`: 1800
378
+ - `torch_compile`: False
379
+ - `torch_compile_backend`: None
380
+ - `torch_compile_mode`: None
381
+ - `include_tokens_per_second`: False
382
+ - `include_num_input_tokens_seen`: False
383
+ - `neftune_noise_alpha`: None
384
+ - `optim_target_modules`: None
385
+ - `batch_eval_metrics`: False
386
+ - `eval_on_start`: False
387
+ - `use_liger_kernel`: False
388
+ - `liger_kernel_config`: None
389
+ - `eval_use_gather_object`: False
390
+ - `average_tokens_across_devices`: False
391
+ - `prompts`: None
392
+ - `batch_sampler`: batch_sampler
393
+ - `multi_dataset_batch_sampler`: proportional
394
+
395
+ </details>
396
+
397
+ ### Training Logs
398
+ | Epoch | Step | Validation Loss | retrieval-validation_cosine_accuracy | test_cosine_accuracy |
399
+ |:-------:|:------:|:---------------:|:------------------------------------:|:--------------------:|
400
+ | 0.3333 | 5 | 4.0280 | 0.9899 | - |
401
+ | 0.6667 | 10 | 3.5771 | 0.9917 | - |
402
+ | 1.0 | 15 | 3.3357 | 0.9945 | - |
403
+ | 1.3333 | 20 | 3.1779 | 0.9963 | - |
404
+ | 1.6667 | 25 | 3.0681 | 0.9972 | - |
405
+ | 2.0 | 30 | 2.9869 | 0.9972 | - |
406
+ | 2.3333 | 35 | 2.9313 | 0.9972 | - |
407
+ | 2.6667 | 40 | 2.8983 | 0.9972 | - |
408
+ | **3.0** | **45** | **2.8862** | **0.9972** | **-** |
409
+ | -1 | -1 | - | - | 0.9945 |
410
+
411
+ * The bold row denotes the saved checkpoint.
412
+
413
+ ### Framework Versions
414
+ - Python: 3.11.13
415
+ - Sentence Transformers: 4.1.0
416
+ - Transformers: 4.53.3
417
+ - PyTorch: 2.6.0+cu124
418
+ - Accelerate: 1.9.0
419
+ - Datasets: 4.1.1
420
+ - Tokenizers: 0.21.2
421
+
422
+ ## Citation
423
+
424
+ ### BibTeX
425
+
426
+ #### Sentence Transformers
427
+ ```bibtex
428
+ @inproceedings{reimers-2019-sentence-bert,
429
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
430
+ author = "Reimers, Nils and Gurevych, Iryna",
431
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
432
+ month = "11",
433
+ year = "2019",
434
+ publisher = "Association for Computational Linguistics",
435
+ url = "https://arxiv.org/abs/1908.10084",
436
+ }
437
+ ```
438
+
439
+ #### MultipleNegativesRankingLoss
440
+ ```bibtex
441
+ @misc{henderson2017efficient,
442
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
443
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
444
+ year={2017},
445
+ eprint={1705.00652},
446
+ archivePrefix={arXiv},
447
+ primaryClass={cs.CL}
448
+ }
449
+ ```
450
+
451
+ <!--
452
+ ## Glossary
453
+
454
+ *Clearly define terms in order to be accessible across audiences.*
455
+ -->
456
+
457
+ <!--
458
+ ## Model Card Authors
459
+
460
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
461
+ -->
462
+
463
+ <!--
464
+ ## Model Card Contact
465
+
466
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
467
+ -->
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.53.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Dense",
18
+ "type": "sentence_transformers.models.Dense"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 32,
3
+ "do_lower_case": false
4
+ }