Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +950 -0
- config.json +27 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +62 -0
.gitattributes
CHANGED
|
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
| 36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 768,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
@@ -0,0 +1,950 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- sentence-similarity
|
| 5 |
+
- feature-extraction
|
| 6 |
+
- dense
|
| 7 |
+
- generated_from_trainer
|
| 8 |
+
- dataset_size:6765
|
| 9 |
+
- loss:TripletLoss
|
| 10 |
+
base_model: hiieu/halong_embedding
|
| 11 |
+
widget:
|
| 12 |
+
- source_sentence: Việc tích hợp siêu tụ với pin truyền thống có tác dụng gì đối với
|
| 13 |
+
tuổi thọ pin?
|
| 14 |
+
sentences:
|
| 15 |
+
- "Public_066\nCác phương pháp đặc tả mô hình\nMáy trạng thái UML\nCác phương pháp\
|
| 16 |
+
\ đặc tả hình thức như máy hữu hạn trạng thái, biểu đồ trạng thái, v.v. giúp ta\
|
| 17 |
+
\ đặc tả các hệ thống một cách chính xác với ý nghĩa duy nhất (vì chúng sử dụng\
|
| 18 |
+
\ các công cụ toán học). Tuy nhiên, các phương pháp này thường khó được áp dụng\
|
| 19 |
+
\ trong công nghiệp vì chúng đòi hỏi các chuyên gia về đặc tả hình thức.\nMáy\
|
| 20 |
+
\ trạng thái UML được xem là giải pháp tốt để giải quyết vấn đề này. Nó có thể\
|
| 21 |
+
\ được sử dụng để đặc tả hành vi động (chuyển trạng thái) của các lớp đối tượng,\
|
| 22 |
+
\ các ca sử dụng (use cases), các hệ thống con và thậm chí là toàn bộ hệ thống.\
|
| 23 |
+
\ Tuy nhiên, máy trạng thái UML thường được sử dụng cho các lớp đối tượng. Theo\
|
| 24 |
+
\ [AJ00], biểu đồ cộng tác đặc tả bằng UML là một mô hình quan trọng trong việc\
|
| 25 |
+
\ kiểm thử hệ thống bởi mô hình này đặc tả chính xác hành vi (tương tác giữa các\
|
| 26 |
+
\ đối tượng) của hệ thống cần kiểm thử.\nTrong UML, một trạng thái ứng với một\
|
| 27 |
+
\ điều kiện quan trọng của một đối tượng. Trạng thái này được quyết định bởi các\
|
| 28 |
+
\ giá trị hiện thời của đối tượng, các mối quan hệ với các đối tượng khác và các\
|
| 29 |
+
\ hành động (phương thức) mà đối tượng này thực hiện. Một phép chuyển trạng thái\
|
| 30 |
+
\ là mối quan hệ giữa hai trạng thái. Một phép chuyển trạng thái trong UML bao\
|
| 31 |
+
\ gồm một sự kiện được kích hoạt, điều kiện và hành động tương ứng. Các sự kiện\
|
| 32 |
+
\ được kích hoạt của các phép chuyển trạng thái có thể là một trong các sự kiện\
|
| 33 |
+
\ sau:\n * Một lời gọi ứng với một phương thức\n * Một tín hiệu nhận được từ\
|
| 34 |
+
\ các trạng thái khác trong máy trạng thái\n * Một sự thay đổi giá trị của một\
|
| 35 |
+
\ thuộc tính nào đó của một đối tượng\n * Hết thời gian (timeout)\nHình 8.4 là\
|
| 36 |
+
\ ví dụ về một máy trạng thái UML đặc tả hành vi của hệ thống quản lý bán hàng.\n\
|
| 37 |
+
**Hình 8.4: Một ví dụ về máy trạng thái UML.** |<image_4>|"
|
| 38 |
+
- "Public_098\nTích hợp với pin truyền thống\n\n* Hệ thống song song: Siêu tụ xử\
|
| 39 |
+
\ lý các xung công suất cao, trong khi pin đảm nhận lưu trữ năng lượng dài hạn.\n\
|
| 40 |
+
\ * Tăng tuổi thọ pin: Giảm căng thẳng dòng điện và nhiệt cho pin, kéo dài thời\
|
| 41 |
+
\ gian sử dụng.\n * Tối ưu hiệu suất năng lượng tái tạo: Kết hợp với pin lưu\
|
| 42 |
+
\ trữ trong lưới điện gió, mặt trời."
|
| 43 |
+
- 'Public_202
|
| 44 |
+
|
| 45 |
+
TÁC DỤNG, VỊ TRÍ VÀ HÌNH DÁNG CÁC BỘ PHẬN CHỦ YẾU TRONG BUỒNG LÁI XE ÔTÔ
|
| 46 |
+
|
| 47 |
+
Vô lăng lái
|
| 48 |
+
|
| 49 |
+
Vô lăng lái dùng để điều khiển hướng chuyển động của xe ôtô.
|
| 50 |
+
|
| 51 |
+
Vị trí của vô lăng lái trong buồng lái phụ thuộc vào quy định của mỗi nước. Khi
|
| 52 |
+
quy định chiều thuận của chuyển động là bên phải (theo hướng đi của mình) thì
|
| 53 |
+
vô lăng lái được bố trí ở phía bên trái (còn gọi là tay lái thuận). Khi quy định
|
| 54 |
+
chiều thuận của chuyển động là bên trái thì vô lăng lái được bố trí ở phía bên
|
| 55 |
+
phải (còn gọi là tay lái nghịch).
|
| 56 |
+
|
| 57 |
+
Trong giáo trình này chỉ giới thiệu loại “tay lái thuận” theo đúng Luật Giao thông
|
| 58 |
+
đường bộ của nước Cộng hòa xã hội chủ nghĩa Việt Nam.
|
| 59 |
+
|
| 60 |
+
Vô lăng lái có dạng hình vành khăn tròn, các kiểu loại thông dụng được trình bày
|
| 61 |
+
trên hình 1-2.
|
| 62 |
+
|
| 63 |
+
|<image_1>|
|
| 64 |
+
|
| 65 |
+
_Hình 1-3 : **Các kiểu vô lăng lái**_
|
| 66 |
+
|
| 67 |
+
\- Điều chỉnh Vô lăng lái:
|
| 68 |
+
|
| 69 |
+
Để người lái được thoải mái khi lái xe, nhà sản xuất cho phép người sử dụng có
|
| 70 |
+
thể điều chỉnh vị trí vô lăng lái cho phù hợp
|
| 71 |
+
|
| 72 |
+
|<image_2>|
|
| 73 |
+
|
| 74 |
+
_Hình 1-4: Điều chỉnh vị trí vô lăng lái bằng cơ khí_
|
| 75 |
+
|
| 76 |
+
Để điều chỉnh vô lăng lái, người lái xe cần kéo khóa 1 theo chiều mũi tên, điều
|
| 77 |
+
chỉnh chiều cao vô lăng theo chiều mũi tên 2, điều chỉnh độ gần xa vô lăng theo
|
| 78 |
+
chiều mũi tên 3 (như trên hình 1-4).
|
| 79 |
+
|
| 80 |
+
|<image_3>|
|
| 81 |
+
|
| 82 |
+
_Hình 1-5: Điều chỉnh vô lăng bằng điện_
|
| 83 |
+
|
| 84 |
+
Để điều chỉnh vô lăng bên hông trụ lái có 4 nút điều chỉnh theo 4 hướng, người
|
| 85 |
+
lái bấm nút để điều chỉnh vô lăng lên xuống và gần, xa như trên hình 1-5.
|
| 86 |
+
|
| 87 |
+
\- Bật, tắt sưởi vô lăng: Ở trên một số xe đời mới hiện đại có trang bị hệ thống
|
| 88 |
+
sưởi cho vô lăng lái như trên hình 1-6.
|
| 89 |
+
|
| 90 |
+
|<image_4>|
|
| 91 |
+
|
| 92 |
+
_Hình 1-6: Điều khiển sưởi vô lăng_'
|
| 93 |
+
- source_sentence: MTLT hoạt động dựa trên những nguyên tắc vật lý cơ bản nào?
|
| 94 |
+
sentences:
|
| 95 |
+
- "Public_199\nKết quả nghiên cứu và bài luận\nNguyên lý hoạt động của MTLT\n###\
|
| 96 |
+
\ Các nguyên tắc hoạt động của MTLT \nMTLT hoạt động dựa trên một số nguyên tắc\
|
| 97 |
+
\ vật lý cơ bản, bao gồm nguyên lý siêu dẫn, nguyên lý bù trừ và nguyên lý siêu\
|
| 98 |
+
\ vị nhân [14] – [16]. Nguyên lý siêu dẫn (superconductivity) là nguyên tắc vật\
|
| 99 |
+
\ lý mô tả sự dẫn điện hoàn toàn của vật liệu khi được làm lạnh đến một nhiệt\
|
| 100 |
+
\ độ rất thấp. Điều này cho phép các dòng điện chạy qua vật liệu mà không gặp\
|
| 101 |
+
\ phải sự trở kháng. Nguyên tắc này được sử dụng trong các quantum bit (qubit)\
|
| 102 |
+
\ của MTLT để giữ trạng thái của qubit với độ chính xác cao. Nguyên lý bù trừ\
|
| 103 |
+
\ (quantum entanglement) là nguyên tắc vật lý mô tả sự liên kết giữa các hạt với\
|
| 104 |
+
\ nhau, dù chúng có thể ở cách xa nhau đến hàng trăm nghìn kilômét. Khi hai qubit\
|
| 105 |
+
\ liên kết với nhau thông qua nguyên tắc này, thì sự thay đổi của một qubit sẽ\
|
| 106 |
+
\ ảnh hưởng đến trạng thái của qubit kia, bất kể khoảng cách giữa hai qubit đó.\
|
| 107 |
+
\ Nguyên lý siêu vị nhân (quantum tunneling) là nguyên tắc vật lý mô tả sự xuyên\
|
| 108 |
+
\ qua của các hạt qua một vật liệu mà không gặp sự trở kháng. Điều này cho phép\
|
| 109 |
+
\ qubit có khả năng chuyển trạng thái một cách rất nhanh chóng, mà không cần mất\
|
| 110 |
+
\ thời gian để vượt qua các vật liệu giữa. Các nguyên tắc này tạo nên cơ sở cho\
|
| 111 |
+
\ sự hoạt động của MTLT, giúp nó có thể giải quyết các bài toán phức tạp một cách\
|
| 112 |
+
\ nhanh chóng hơn so với MTTT.\n### Thành phần cấu tạo của MTLT \nMTLT được tạo\
|
| 113 |
+
\ ra để thực hiện tính toán bằng cách sử dụng các phép toán trên các trạng thái\
|
| 114 |
+
\ lượng tử. Các thành phần cấu tạo của MTLT bao gồm qubit, quantum gate và quantum\
|
| 115 |
+
\ register [1], [6], [16], [19], [20], [22].\n|<image_3>|\nQubit: Qubit (quantum\
|
| 116 |
+
\ bit) là đơn vị cơ bản của MTLT và tương đương với bit trong máy tính cổ điển.\
|
| 117 |
+
\ Tuy nhiên, qubit không chỉ mang giá trị 0 hoặc 1 như bit nhị phân, mà có thể\
|
| 118 |
+
\ tồn tại trong một trạng thái siêu dẫn của 0 và 1 đồng thời (superposition) (xem\
|
| 119 |
+
\ minh họa trên hình 1). Điều này cho phép qubit thực hiện các tính toán đồng\
|
| 120 |
+
\ thời trên nhiều giá trị hơn là một giá trị duy nhất như trên máy tính cổ điển.\n\
|
| 121 |
+
|<image_4>|\nQuantum gate: là các phép toán được sử dụng để thực hiện các tính\
|
| 122 |
+
\ toán trên qubit. Hình 2 mô tả tên các phép toán lượng tử tương ứng với các quantum\
|
| 123 |
+
\ gate và ma trận toán học tương ứng. Các quantum gate có thể được sử dụng để\
|
| 124 |
+
\ biến đổi trạng thái của qubit hoặc để tạo ra sự tương tác giữa các qubit. Các\
|
| 125 |
+
\ quantum gate phổ biến bao gồm X-gate, Y-gate, Z-gate, Hadamard gate, CNOT gate,\
|
| 126 |
+
\ SWAP gate, Toffoli gate và một số các cổng khác.\nQuantum register: là tập hợp\
|
| 127 |
+
\ các qubit được sử dụng để lưu trữ và thực hiện các tính toán. Quantum register\
|
| 128 |
+
\ có thể có từ một đến hàng trăm qubit, tùy thuộc vào ứng dụng cụ thể. Các thành\
|
| 129 |
+
\ phần này cùng hoạt động để tạo ra sức mạnh tính toán của MTLT. Khi các qubit\
|
| 130 |
+
\ được kết hợp với các quantum gate và được tổ chức trong quantum register, các\
|
| 131 |
+
\ tính toán lượng tử phức tạp có thể được thực hiện. Ngoài các thành phần khác\
|
| 132 |
+
\ biệt như trình bày trên của MTLTT, các thành phần cấu tạo cơ bản khác của một\
|
| 133 |
+
\ hệ thống tính toán được giới thiệu và minh họa trong [36] (xem hình 3).\n|<image_5>|\n\
|
| 134 |
+
**3.2.3.** So sánh giữa MTLT và MTTT\nMTLT và MTTT đều là những công cụ để xử\
|
| 135 |
+
\ lý thông tin, tuy nhiên chúng khác nhau về cách thức hoạt động và cách tiếp\
|
| 136 |
+
\ cận vấn đề.\nBảng 1 trình bày sự khác nhau theo một số cách tiếp cận chính tạo\
|
| 137 |
+
\ ra sự khác biệt vượt trội như: cách biểu diễn thông tin, thao tác lưu trữ, phương\
|
| 138 |
+
\ pháp giải quyết bài toán.\nTóm lại, MTLT và MTTT đều có sức mạnh và hạn chế\
|
| 139 |
+
\ riêng, có thể được sử dụng để giải quyết các bài toán khác nhau. Tuy nhiên,\
|
| 140 |
+
\ vì tính đặc biệt của MTLT, nó có thể giải quyết các bài toán phức tạp và lớn\
|
| 141 |
+
\ hơn nhiều so với MTTT. Song việc phát triển và sử dụng MTLT vẫn còn rất khó\
|
| 142 |
+
\ khăn và đòi hỏi sự đầu tư lớn về kỹ thuật và tài chính. Hiện nay, MTLT được\
|
| 143 |
+
\ sử dụng trong nhiều lĩnh vực như tài chính, y học, và khoa học vật lý. Với sự\
|
| 144 |
+
\ phát triển của công nghệ, các ứng dụng của MTLT dự kiến sẽ tiếp tục mở rộng\
|
| 145 |
+
\ và đóng góp vào sự phát triển của nhiều lĩnh vực khác nhau."
|
| 146 |
+
- "Public_059\ninclude <stdio .h>\nnan\nvoid print_str( char* str){ printf(\"% s\"\
|
| 147 |
+
, str);\n}\nint main ( void ){\nprint_str(\" Hello ␣World !\"); return 0;\n}\n\
|
| 148 |
+
\ * **Giao diện bộ nhớ chia sẻ (shared memory):** một khối bộ nhớ được chia sẻ\
|
| 149 |
+
\ giữa hai mô-đun. Khối bộ nhớ này có thể do một trong hai mô-đun cấp phát, hoặc\
|
| 150 |
+
\ cũng có thể do một mô-đun thứ ba cấp phát. Một mô-đun sẽ ghi dữ liệu lên khối\
|
| 151 |
+
\ bộ nhớ và mô-đun kia đọc dữ liệu từ khối bộ nhớ.\nTrong ví dụ dưới đây hàm main\
|
| 152 |
+
\ và hàm print_str sử dụng bộ nhớ chia sẻ là biến str để trao đổi dữ liệu giữa\
|
| 153 |
+
\ các hàm này. Hàm main() ghi dữ liệu và hàm print_str() đọc dữ liệu. Trong trường\
|
| 154 |
+
\ hợp này, bộ nhớ cho biến str không được cấp phát mà sử dụng hằng ký tự.\n**Đoạn\
|
| 155 |
+
\ mã 10.2: Giao diện bộ nhớ chia sẻ**"
|
| 156 |
+
- "Public_014\nBiểu diễn dữ liệu trong máy tính\nBiểu diễn số trong các hệ đếm\n\
|
| 157 |
+
Hệ đếm là tập hợp các ký hiệu và qui tắc sử dụng tập ký hiệu đó để biểu diễn và\
|
| 158 |
+
\ xác định các giá trị các số. Mỗi hệ đếm có một số ký số (digits) hữu hạn. Tổng\
|
| 159 |
+
\ số ký số của mỗi hệ đếm được gọi là **cơ số** (base hay radix), ký hiệu là b.\n\
|
| 160 |
+
### Hệ đếm cơ số b\nHệ đếm cơ số b (b ≥ 2 và nguyên dương) mang tính chất sau\
|
| 161 |
+
\ :\n * Có b ký số để thể hiện giá trị số. Ký số nhỏ nhất là **0** và lớn nhất\
|
| 162 |
+
\ là **b-1**.\n * Giá trị vị trí thứ n trong một số của hệ đếm bằng cơ số b lũy\
|
| 163 |
+
\ thừa n\n * Số N(b) trong hệ đếm cơ số (b) được biểu diễn bởi:\n|<image_1>|\n\
|
| 164 |
+
trong đó, số N(b) có **n+1** ký số biểu diễn cho phần nguyên và **m** ký số lẻ\
|
| 165 |
+
\ biểu diễn cho phần b_phân, và có giá trị là:\n|<image_2>|\nTrong ngành toán\
|
| 166 |
+
\ - tin học hiện nay phổ biến 4 hệ đếm là hệ thập phân, hệ nhị phân, hệ bát phân\
|
| 167 |
+
\ và hệ thập lục phân.\n### Hệ đếm thập phân (Decimal system, b=10)\nHệ đếm thập\
|
| 168 |
+
\ phân hay hệ đếm cơ số 10 là một trong các phát minh của người Ả rập cổ, bao\
|
| 169 |
+
\ gồm 10 ký số theo ký hiệu sau:\n**0,1,2,3,4,5,6,7,8,9**\nQui tắc tính giá trị\
|
| 170 |
+
\ của hệ đếm này là mỗi đơn vị ở một hàng bất kỳ có giá trị bằng 10 đơn vị của\
|
| 171 |
+
\ hàng kế cận bên phải. Ở đây b=10. Bất kỳ số nguyên dương trong hệ thập phân\
|
| 172 |
+
\ có thể biểu diễn như là một tổng các số hạng, mỗi số hạng là tích của một số\
|
| 173 |
+
\ với 10 lũy thừa, trong đó số mũ lũy thừa được tăng thêm 1 đơn vị kể từ số mũ\
|
| 174 |
+
\ lũy thừa phía bên phải nó. Số mũ lũy thừa của hàng đơn vị trong hệ thập phân\
|
| 175 |
+
\ là 0.\nVí dụ: Số 5246 có thể được biểu diễn như sau:\n3 2 1 0\n5246 = 5 x 10\
|
| 176 |
+
\ + 2 x 10 + 4 x 10 + 6 x 10\n= 5 x 1000 + 2 x 100 + 4 x 10 + 6 x 1\nThể hiện\
|
| 177 |
+
\ như trên gọi là ký hiệu mở rộng của số nguyên vì\n5246 = 5000 + 200 + 40 + 6\n\
|
| 178 |
+
Như vậy, trong số 5246 : ký số 6 trong số nguyên đại diện cho giá trị 6 đơn vị\
|
| 179 |
+
\ (1s), ký số 4 đại diện cho giá trị 4 chục (10s), ký số 2 đại diện cho giá trị\
|
| 180 |
+
\ 2 trăm (100s) và ký số 5 đại diện cho giá trị 5 ngàn (1000s). Nghĩa là, số lũy\
|
| 181 |
+
\ thừa của 10 tăng dần 1 đơn vị từ trái sang phải tương ứng với vị trí ký hiệu\
|
| 182 |
+
\ số,\n0 1 2 3 4\n10 = 1 10 = 10 10 = 100 10 = 1000 10 = 10000 ...\nMỗi ký số\
|
| 183 |
+
\ ở thứ tự khác nhau trong số sẽ có giá trị khác nhau, ta gọi là giá trị vị trí\
|
| 184 |
+
\ (place value).\nPhần thập phân trong hệ thập phân sau dấu chấm phân cách thập\
|
| 185 |
+
\ phân (theo qui ước của Mỹ) thể hiện trong ký hiệu mở rộng bởi 10 lũy thừa âm\
|
| 186 |
+
\ tính từ phải sang trái kể từ dấu chấm phân cách:\n101101−= 1011002−= 10110003−=\
|
| 187 |
+
\ ...\n<table>\n<colgroup>\n<col/>\n<col/>\n<col/>\n<col/>\n<col/>\n</colgroup>\n\
|
| 188 |
+
<thead>\n<tr>\n<th>2</th>\n<th>1</th>\n<th>0</th>\n<th>-1</th>\n<th>-2</th>\n\
|
| 189 |
+
</tr>\n</thead>\n<tbody>\n<tr>\n<td colspan=\"3\">Ví dụ: 254.68 = 2 x 10 + 5 x\
|
| 190 |
+
\ 10 + 4 x 10 + 6 x 10</td>\n<td></td>\n<td>+ 8 x 10</td>\n</tr>\n</tbody>\n</table>\
|
| 191 |
+
\ \n### Hệ đếm nhị phân (Binary system, b=2)\nVới cơ số b=2, chúng ta có hệ đếm\
|
| 192 |
+
\ nhị phân. Đây là hệ đếm đơn giản nhất với 2 chữ số là 0 và 1, mỗi chữ số nhị\
|
| 193 |
+
\ phân gọi là BIT (viết tắt từ chữ BInary digiT). Vì hệ nhị phân chỉ có 2 trị\
|
| 194 |
+
\ số là 0 và 1, nên khi muốn diễn tả một số lớn hơn, hoặc các ký tự phức tạp hơn\
|
| 195 |
+
\ thì cần kết hợp nhiều bit với nhau. Ta có thể chuyển đổi số trong hệ nhị phân\
|
| 196 |
+
\ sang số trong hệ thập phân quen thuộc.\nVí dụ: Số 11101.11(2) sẽ tương đương\
|
| 197 |
+
\ với giá trị thập phân là :\n|<image_3>|\n### Hệ đếm bát phân (Octal system,\
|
| 198 |
+
\ b=8)\nNếu dùng 1 tập hợp 3 bit thì có thể biểu diễn 8 trị khác nhau : 000, 001,\
|
| 199 |
+
\ 010, 011, 100, 101, 110, 111. Các trị này tương đương với 8 trị trong hệ thập\
|
| 200 |
+
\ phân là 0, 1, 2, 3, 4, 5, 7. Tập hợp các chữ\n3\nsố này gọi là hệ bát phân,\
|
| 201 |
+
\ là hệ đếm với b = 8 = 2 . Trong hệ bát phân, trị vị trí là lũy thừa của 8.\n\
|
| 202 |
+
Ví dụ:\n<table>\n<colgroup>\n<col/>\n<col/>\n<col/>\n<col/>\n<col/>\n</colgroup>\n\
|
| 203 |
+
<thead>\n<tr>\n<th>2</th>\n<th>1</th>\n<th>0</th>\n<th>-1</th>\n<th>-2</th>\n\
|
| 204 |
+
</tr>\n</thead>\n<tbody>\n<tr>\n<td colspan=\"3\">235 . 64<sub>(8)</sub> = <strong>2</strong>x8\
|
| 205 |
+
\ +\n<strong>3</strong>x8 + <strong>5</strong>x8 + <strong>6</strong>x8</td>\n\
|
| 206 |
+
<td>+ <strong>4</strong>x8</td>\n<td>= 157. 8125<sub>(10)</sub></td>\n</tr>\n\
|
| 207 |
+
</tbody>\n</table> \n### Hệ đếm thập lục phân (Hexa-decimal system, b=16)\n4\n\
|
| 208 |
+
Hệ đếm thập lục phân là hệ cơ số b=16 = 2 , tương đương với tập hợp 4 chữ số nhị\
|
| 209 |
+
\ phân (4 bit). Khi thể hiện ở dạng hexa-decimal, ta có 16 ký tự gồm 10 chữ số\
|
| 210 |
+
\ từ 0 đến 9, và 6 chữ in A, B, C, D, E, F để biểu diễn các giá trị số tương ứng\
|
| 211 |
+
\ là 10, 11, 12, 13, 14, 15. Với hệ thập lục phân, trị vị trí là lũy thừa của\
|
| 212 |
+
\ 16.\nVí dụ:\n4 3 2 1 0\n34F5C(16) = 3x16 + 4x16 + 15x16 + 5x16 + 12x16 = 216294(10)\n\
|
| 213 |
+
_Ghi chú_ : Một số ngôn ngữ lập trình qui định viết số hexa phải có chữ H ở cuối\
|
| 214 |
+
\ chữ số. Ví dụ: Số 15 viết là FH.\n### Chuyển đổi một số từ hệ thập phân sang\
|
| 215 |
+
\ hệ đếm cơ số b\n#### Đổi phần nguyên từ hệ thập phân sang hệ b\nTổng quát: Lấy\
|
| 216 |
+
\ số nguyên thập phân N(10) lần lượt chia cho b cho đến khi thương số bằng 0.\
|
| 217 |
+
\ Kết\nquả số chuyển đổi N(b) là các dư số trong phép chia viết ra theo thứ tự\
|
| 218 |
+
\ ngược lại.. Ví dụ: Số 12(10)\n * ?(2). Dùng phép chia cho 2 liên tiếp, ta có\
|
| 219 |
+
\ một loạt các số dư như sau:\n|<image_4>|\n#### Đổi phần thập phân từ hệ thập\
|
| 220 |
+
\ phân sang hệ cơ số b\n|<image_5>|Tổng quát: Lấy phần thập phân N(10) lần lượt\
|
| 221 |
+
\ nhân với b cho đến khi phần thập phân của tích số bằng 0. Kết quả số chuyển\
|
| 222 |
+
\ đổi N(b) là các số phần nguyên trong phép nhân viết ra theo thứ tự\ntính toán."
|
| 223 |
+
- source_sentence: Để đẩy mạnh xây dựng và phát triển hạ tầng quản lý đô thị thông
|
| 224 |
+
minh, Bắc Giang dự kiến xây dựng những trung tâm nào?
|
| 225 |
+
sentences:
|
| 226 |
+
- 'Public_587
|
| 227 |
+
|
| 228 |
+
Đánh giá hiện trạng và xây dựng định hướng phát triển
|
| 229 |
+
|
| 230 |
+
Đánh giá hiện trạng phát triển của tỉnh khi xây dựng thành phố thông minh
|
| 231 |
+
|
| 232 |
+
**a) Điểm mạnh**
|
| 233 |
+
|
| 234 |
+
Bắc Giang có vị trí thuận lợi, nằm trên tuyến hành lang kinh tế Nam Ninh (Trung
|
| 235 |
+
Quốc) - Lạng Sơn - Hà Nội - Hải Phòng - Quảng Ninh; nằm trong vùng Thủ đô Hà Nội,
|
| 236 |
+
có hệ thống giao thông thuận tiện bao gồm cả đường bộ, đường sắt và đường thuỷ
|
| 237 |
+
tới thủ đô Hà Nội, cửa khẩu quốc tế Lạng Sơn, sân bay quốc tế Nội Bài, cảng biển
|
| 238 |
+
quốc tế Hải Phòng, Cái Lân… tạo thuận lợi trong phát triển kinh tế và giao lưu
|
| 239 |
+
văn hoá với các nước trong khu vực.
|
| 240 |
+
|
| 241 |
+
Bắc Giang đã có quy hoạch phát triển kinh tế x�� hội, quy hoạch ngành công nghệ
|
| 242 |
+
thông tin và các ngành khác đáp ứng yêu cầu phát triển của tỉnh; đã có những định
|
| 243 |
+
hướng chủ trương để đẩy mạnh ứng dụng, phát triển công nghệ thông tin; đã có chính
|
| 244 |
+
sách đẩy mạnh phát triển công nghiệp, chú trọng đến chính sách thu hút phát triển
|
| 245 |
+
ngành công nghệ cao.
|
| 246 |
+
|
| 247 |
+
Tốc độ tăng trưởng kinh tế của tỉnh Bắc Giang gia tăng liên tục nhờ sự phát triển
|
| 248 |
+
của ngành công nghiệp xây dựng, sản xuất, thương mại, dịch vụ. Tốc độ tăng trưởng
|
| 249 |
+
tổng sản phẩm của tỉnh (GRDP) đạt 13,3% (gần gấp đôi bình quân cả nước), tăng
|
| 250 |
+
cao nhất từ trước đến nay.
|
| 251 |
+
|
| 252 |
+
Các đô thị trên địa bàn tỉnh đã được quan tâm quy hoạch, đầu tư xây dựng. Quy
|
| 253 |
+
mô đô thị từng bước được mở rộng; hạ tầng kỹ thuật đô thị có nhiều cải thiện;
|
| 254 |
+
kinh tế khu vực đô thị tăng nhanh, với định hướng phát triển thành phố Bắc Giang
|
| 255 |
+
trở thành đô thị loại I trong thời gian tới.
|
| 256 |
+
|
| 257 |
+
Ứng dụng công nghệ thông tin và truyền thông được đẩy mạnh phát triển trong các
|
| 258 |
+
ngành, lĩnh vực, đặc biệt là trong việc xây dựng Chính quyền điện tử. Đạt 100%
|
| 259 |
+
đơn vị sở, ban, ngành, Ủy ban nhân dân cấp tỉnh, huyện đã có cổng thông tin điện
|
| 260 |
+
tử, ứng dụng công nghệ thông tin trong giải quyết thủ tục hành chính, triển khai
|
| 261 |
+
một cửa điện tử (với 18 sở, ngành, 10/10 huyện, thành phố, 230/230 xã, phường,
|
| 262 |
+
thị trấn triển khai), rút ngắn thời gian xử lý nhà nước, tăng tính minh bạch trong
|
| 263 |
+
hoạt động của cơ quan nhà nước; cung cấp 667 dịch vụ công mức độ 3 phục vụ người
|
| 264 |
+
dân và doanh nghiệp. 100% các sở, ngành và Ủy ban nhân dân huyện cài đặt và sử
|
| 265 |
+
dụng phần mềm quản lý văn bản và điều hành qua mạng (với 02 phần mềm mã nguồn
|
| 266 |
+
mở BGO và phần mềm thương mại BGNetOffice).
|
| 267 |
+
|
| 268 |
+
Hạ tầng kỹ thuật công nghệ thông tin tại các cơ quan, đơn vị đã được đầu tư xây
|
| 269 |
+
dựng tương đối đầy đủ, cơ bản đáp ứng nhu cầu triển khai ứng dụng công nghệ thông
|
| 270 |
+
tin. Mạng diện rộng (WAN) của tỉnh đã được triển khai và đưa vào khai thác tại
|
| 271 |
+
100% đơn vị sở, ban, ngành, địa phương. Hệ thống hội nghị trực tuyến đã được đầu
|
| 272 |
+
tư xây dựng, kết nối từ tỉnh, đến huyện đáp ứng được các cuộc họp trực tuyến giữa
|
| 273 |
+
Ủy ban nhân dân tỉnh với Chính phủ và các Bộ, ngành Trung ương và một số cuộc
|
| 274 |
+
họp trực tuyến giữa Ủy ban nhân dân tỉnh với Ủy ban nhân dân các huyện, thành
|
| 275 |
+
phố. 100% các cơ quan sở, ban, ngành, Ủy ban nhân dân cấp huyện và các đơn vị
|
| 276 |
+
trực thuộc, 100% Hội đồng nhân dân - Ủy ban nhân dân cấp xã đã triển khai sử dụng
|
| 277 |
+
chứng thư số, chữ ký số trong việc gửi, nhận văn bản, tài liệu điện tử...
|
| 278 |
+
|
| 279 |
+
Bước đầu triển khai lắp đặt hệ thống camera giám sát giao thông, an ninh trật
|
| 280 |
+
tự tại các tuyến đường trọng điểm trên địa bàn thành phố Bắc Giang, các địa điểm
|
| 281 |
+
công cộng đem lại nhiều hiệu quả tích cực, đảm bảo trật tự an toàn giao thông
|
| 282 |
+
trên địa bàn tỉnh. Triển khai các mô hình sản xuất nông nghiệp ứng dụng công nghệ
|
| 283 |
+
cao để nâng cao năng suất như xây dựng mô hình nhà màng; áp dụng các quy trình
|
| 284 |
+
sản xuất theo tiêu chuẩn VietGAP và GlobalGAP...
|
| 285 |
+
|
| 286 |
+
Nguồn nhân lực công nghệ thông tin được nâng cao về chất lượng, số lượng. Bên
|
| 287 |
+
cạnh đó, nhằm phát huy hiệu quả sử dụng các chương trình, dự án công nghệ thông
|
| 288 |
+
tin đã được đầu tư, Sở Thông tin và Truyền thông thường xuyên tổ chức các lớp
|
| 289 |
+
tập huấn, đào tạo người sử dụng.
|
| 290 |
+
|
| 291 |
+
**b) Điểm yếu**
|
| 292 |
+
|
| 293 |
+
Kinh tế của tỉnh phát triển, nhưng chưa bền vững. Số lượng doanh nghiệp trên địa
|
| 294 |
+
bàn tỉnh tăng nhanh nhưng chủ yếu là doanh nghiệp nhỏ và vừa, trình độ công nghệ
|
| 295 |
+
và khả năng cạnh tranh của các doanh nghiệp nhìn chung còn hạn chế; vì vậy chưa
|
| 296 |
+
thu hút được nhiều sự quan tâm đầu tư của các doanh nghiệp trong và ngoài nước
|
| 297 |
+
về phát triển công nghệ thông tin và truyền thông trên địa bàn tỉnh.
|
| 298 |
+
|
| 299 |
+
Dân cư sống chủ yếu tại khu vực nông thôn, phân bố không đồng đều. Tuy đời sống
|
| 300 |
+
vật chất, tinh thần của người dân ngày càng được cải thiện, nhưng chưa đồng đều,
|
| 301 |
+
vẫn còn khoảng cách giữa các khu vực nông thôn và thành thị. Việc tiếp cận, sử
|
| 302 |
+
dụng các công nghệ hiện đại trong đời sống xã hội còn hạn chế nên ảnh hưởng đến
|
| 303 |
+
việc phát triển các dịch vụ thông minh phục vụ người dân.
|
| 304 |
+
|
| 305 |
+
Công tác quản lý điều hành, đặc biệt quản lý đô thị vẫn còn nhiều khó khăn, chưa
|
| 306 |
+
có công cụ hiện đại hóa, các hệ thống thông minh hỗ trợ quản lý đô thị. Còn phát
|
| 307 |
+
sinh các vấn đề đô thị như thiếu cơ sở hạ tầng trong đô thị do đô thị hóa; tỷ
|
| 308 |
+
lệ ô nhiễm môi trường tăng nhanh do thải nước và số xe máy tăng.
|
| 309 |
+
|
| 310 |
+
Việc triển khai ứng dụng công nghệ thông tin trong nội bộ cơ quan, đơn vị vẫn
|
| 311 |
+
còn nhiều hạn chế. Một số đơn vị sở, ban, ngành, địa phương chưa thực sự tích
|
| 312 |
+
cực triển khai ứng dụng công nghệ thông tin. Vẫn còn thiếu các phần mềm chuyên
|
| 313 |
+
ngành, các cơ sở dữ liệu phục vụ quản lý điều hành, liên thông. Đa phần các ứng
|
| 314 |
+
dụng công nghệ thông tin được triển khai tại các đơn vị vẫn mang tính rời rạc,
|
| 315 |
+
chưa liên kết thành một hệ thống; dữ liệu chưa được chia sẻ và sử dụng chung.
|
| 316 |
+
|
| 317 |
+
Hạ tầng thiết bị công nghệ thông tin tại cơ quan nhà nước vẫn chưa được đầu tư
|
| 318 |
+
đồng bộ; một số thiết bị đã bị xuống cấp, hết hạn khấu hao, chưa được duy tu,
|
| 319 |
+
bảo dưỡng đầy đủ nên chưa đáp ứng được nhiều cho việc ứng dụng công nghệ thông
|
| 320 |
+
tin. Vấn đề bảo mật an toàn, an ninh thông tin vẫn còn chưa được quan tâm đúng
|
| 321 |
+
mức do điều kiện kinh phí hạn hẹp.
|
| 322 |
+
|
| 323 |
+
Nguồn nhân lực công nghệ thông tin trong các cơ quan, đơn vị vẫn còn thiếu và
|
| 324 |
+
chưa đồng bộ, đặc biệt là thiếu cán bộ công nghệ thông tin có trình độ cao. Cán
|
| 325 |
+
bộ chuyên trách công nghệ thông tin chủ yếu vẫn là kiêm nhiệm, vẫn còn hạn chế
|
| 326 |
+
về kỹ năng chuyên môn.
|
| 327 |
+
|
| 328 |
+
Chưa có cơ chế hỗ trợ, ưu đãi cho cán bộ chuyên trách công nghệ thông tin nên
|
| 329 |
+
rất khó khăn trong việc tuyển dụng, thu hút nguồn nhân lực chất lượng cao vào
|
| 330 |
+
làm việc trong cơ quan nhà nước tại tỉnh.
|
| 331 |
+
|
| 332 |
+
**c) Cơ hội**
|
| 333 |
+
|
| 334 |
+
Trong thời gian qua, Đảng, Chính phủ luôn quan tâm, coi trọng phát triển ứng dụng
|
| 335 |
+
công nghệ thông tin, đặc biệt là xây dựng chính quyền điện tử và phát triển thành
|
| 336 |
+
phố thông minh nhằm nâng cao năng lực quản lý, nâng cao chất lượng, hiệu quả hoạt
|
| 337 |
+
động kinh tế - xã hội, tạo ra môi trường, cuộc sống tươi đẹp cho người dân, doanh
|
| 338 |
+
nghiệp.
|
| 339 |
+
|
| 340 |
+
Bên cạnh đó, các xu hướng ứng dụng công nghệ thông tin trong nước và trên thế
|
| 341 |
+
giới ngày càng nhiều, với xu hướng cuộc cách mạng công nghiệp lần thứ tư, công
|
| 342 |
+
nghệ dữ liệu lớn (Big data), kết nối Internet vạn vật (IoT), trí tuệ nhân tạo
|
| 343 |
+
(AI), xu hướng xây dựng thành phố thông minh tại các nước trên thế giới và tại
|
| 344 |
+
Việt Nam... Những mô hình thành công sẽ là những gợi ý cho tỉnh tham khảo, học
|
| 345 |
+
tập trong quá trình phát triển thành phố thông minh trong thời gian tới.
|
| 346 |
+
|
| 347 |
+
Nhận thức về môi trường, về an toàn vệ sinh thực phẩm của xã hội ngày càng cao,
|
| 348 |
+
tạo ra nhu cầu đảm bảo môi trường, đảm bảo phát triển bền vững trở nên cấp thiết.
|
| 349 |
+
|
| 350 |
+
**d) Thách thức**
|
| 351 |
+
|
| 352 |
+
Với những lợi thế do gần thành phố Hà Nội, Hải Phòng và tỉnh Quảng Ninh, cũng
|
| 353 |
+
đồng thời bị hạn chế rất lớn về việc huy động và thu hút các chuyên gia công nghệ
|
| 354 |
+
thông tin, nguồn nhân lực chất lượng cao tại các tỉnh, thành trong cả nước về
|
| 355 |
+
làm việc tại tỉnh Bắc Giang do chưa có chính sách thu hút sử dụng cán bộ hợp lý.
|
| 356 |
+
|
| 357 |
+
Ngân sách tỉnh còn nhiều khó khăn nên đầu tư cho hoạt động công nghệ thông tin
|
| 358 |
+
vẫn ở mức thấp. Việc đầu tư chủ yếu mang tính nhỏ lẻ, tự phát ở từng cơ quan đơn
|
| 359 |
+
vị.
|
| 360 |
+
|
| 361 |
+
Nhận thức về vai trò, tầm quan trọng của công nghệ thông tin của các cơ quan,
|
| 362 |
+
đơn vị và doanh nghiệp chưa thực sự đầy đủ.
|
| 363 |
+
|
| 364 |
+
_**Đề xuất phát triển:**_
|
| 365 |
+
|
| 366 |
+
Từ các phân tích đánh giá thực trạng ở trên, có thể thấy thách thức đặt ra cho
|
| 367 |
+
Bắc Giang là rất lớn nhưng có cơ hội để trong vòng 5 năm đến 10 năm Bắc Giang
|
| 368 |
+
có thể đạt đư��c mục tiêu phát triển đột phá, xây dựng thành phố thông minh phù
|
| 369 |
+
hợp với tiềm năng và thực tế của tỉnh.
|
| 370 |
+
|
| 371 |
+
\- Xây dựng Kiến trúc ICT cho đô thị thông minh của tỉnh Bắc Giang.
|
| 372 |
+
|
| 373 |
+
\- Đẩy mạnh sử dụng công nghệ thông minh và các ứng dụng thông minh trong xây
|
| 374 |
+
dựng và quản lý đô thị. Cung cấp các dịch vụ thông minh trong các lĩnh vực như
|
| 375 |
+
giáo dục, y tế, nông nghiệp, xây dựng, giao thông, môi trường, năng lượng, an
|
| 376 |
+
toàn để phục vụ cho người dân và nâng cao hiệu quả quản lý nhà nước.
|
| 377 |
+
|
| 378 |
+
\- Đẩy mạnh xây dựng và phát triển hạ tầng quản lý đô thị thông minh:
|
| 379 |
+
|
| 380 |
+
\+ Xây dựng Trung tâm điều hành thành phố thông minh.
|
| 381 |
+
|
| 382 |
+
\+ Xây dựng Trung tâm dữ liệu thành phố thông minh (trung tâm mới dành riêng kết
|
| 383 |
+
nối tất cả các các ứng dụng thông minh của các lĩnh vực).
|
| 384 |
+
|
| 385 |
+
\+ Xây dựng nền tảng tích hợp dữ liệu thành phố thông minh.
|
| 386 |
+
|
| 387 |
+
\+ Xây dựng Trung tâm an toàn thông tin.
|
| 388 |
+
|
| 389 |
+
\+ Xây dựng hệ thống chiếu sáng thông minh; hệ thống cấp nước thông minh; hệ thống
|
| 390 |
+
thoát nước thông minh; hệ thống thu gom và xử lý rác thải thông minh; phát triển
|
| 391 |
+
lưới điện thông minh.
|
| 392 |
+
|
| 393 |
+
\+ Mở rộng hệ thống quan trắc và cảnh báo phóng xạ môi trường trong toàn tỉnh.
|
| 394 |
+
|
| 395 |
+
\+ Xây dựng trung tâm điều hành giao thông thông minh của tỉnh.
|
| 396 |
+
|
| 397 |
+
\+ Mở rộng hệ thống mạng lưới camera giám sát và thiết bị đo mật độ giao thông,
|
| 398 |
+
giám sát an ninh; xây dựng hệ thống cung cấp thông tin, phổ biến tình hình giao
|
| 399 |
+
thông tại các nút, đường giao thông quan trọng của tỉnh.
|
| 400 |
+
|
| 401 |
+
\- Tỉnh cần có chiến lược quy hoạch, xây dựng và quản lý đô thị hiện đại đảm bảo
|
| 402 |
+
sự phát triển bền vững.
|
| 403 |
+
|
| 404 |
+
\- Cần có chính sách thu hút nguồn nhân lực cao về công nghệ thông tin.
|
| 405 |
+
|
| 406 |
+
\- Nâng cao chất lượng nguồn nhân lực và đẩy mạnh liên kết trong nước và quốc
|
| 407 |
+
tế. Đẩy mạnh tốc độ đô thị hóa có quy hoạch, môi trường trong sạch, an toàn, quản
|
| 408 |
+
lý tốt cơ sở hạ tầng để thu hút nhân lực về làm việc tại tỉnh Bắc Giang.'
|
| 409 |
+
- "Public_088\nThách thức triển khai\n\n* **Tốc độ tính toán:** Dù xử lý song song\
|
| 410 |
+
\ mạnh mẽ, thời gian phản ứng hóa học vẫn chậm so với điện tử học tốc độ cao.\n\
|
| 411 |
+
\ * **Độ chính xác và sai số:** Lỗi lai ghép hoặc đột biến có thể gây sai kết\
|
| 412 |
+
\ quả.\n * **Chi phí tổng hợp DNA:** Dù giảm nhanh, hiện vẫn cao cho ứng dụng\
|
| 413 |
+
\ quy mô lớn.\n * **An toàn sinh học:** Cần kiểm soát nghiêm ngặt để tránh rủi\
|
| 414 |
+
\ ro sinh học và lây nhiễm.\n * **Chuẩn hóa và tích hợp:** Chưa có chuẩn chung\
|
| 415 |
+
\ để kết nối máy tính DNA với hệ thống điện tử truyền thống."
|
| 416 |
+
- 'Public_119
|
| 417 |
+
|
| 418 |
+
LDA cho bài toán với 2 classes
|
| 419 |
+
|
| 420 |
+
Xây dựng hàm mục tiêu
|
| 421 |
+
|
| 422 |
+
_Ký hiệu: dữ liệu x_n, phép chiếu y_n = w^T x_n._
|
| 423 |
+
|
| 424 |
+
Kỳ vọng mỗi lớp: m_k = (1/N_k) ∑_{n∈C_k} x_n, k=1,2. (1)
|
| 425 |
+
|
| 426 |
+
Hiệu kỳ vọng sau chiếu: m_1 − m_2 ⇒ w^T(m_1−m_2). (2)
|
| 427 |
+
|
| 428 |
+
Within-class variances (không lấy trung bình): s_k^2 = ∑_{n∈C_k} (y_n − m_k)^2.
|
| 429 |
+
(3)
|
| 430 |
+
|
| 431 |
+
Ma trận between-class: S_B = (m_1−m_2)(m_1−m_2)^T. (5)
|
| 432 |
+
|
| 433 |
+
Ma trận within-class: S_W = ∑_{k=1}^2 ∑_{n∈C_k} (x_n−m_k)(x_n−m_k)^T. (6)
|
| 434 |
+
|
| 435 |
+
**Hàm mục tiêu Fisher (2 lớp):**
|
| 436 |
+
|
| 437 |
+
J(w) = (w^T S_B w) / (w^T S_W w). (4,7)'
|
| 438 |
+
- source_sentence: Hai dạng chính tấn công khai thác lỗi không kiểm tra đầu vào là
|
| 439 |
+
gì?
|
| 440 |
+
sentences:
|
| 441 |
+
- 'Public_264
|
| 442 |
+
|
| 443 |
+
Các loại kiểu Logic bomb
|
| 444 |
+
|
| 445 |
+
Logic bomb dựa theo thời gian
|
| 446 |
+
|
| 447 |
+
Logic bomb phổ biến nhất là logic bomb theo thời gian, chúng được lập trình để
|
| 448 |
+
tự động kích hoạt vào một thời điểm cụ thể, chẳng hạn như vào ngày kỷ niệm của
|
| 449 |
+
một sự kiện quan trọng. Những logic bomb này có thể gây ra thiệt hại lớn nếu không
|
| 450 |
+
được phát hiện và ngăn chặn kịp thời.'
|
| 451 |
+
- "Public_155\nTấn công bằng mã độc\nTấn công khai thác lỗi không kiểm tra đầu vào\n\
|
| 452 |
+
### Giới thiệu\nLỗi không kiểm tra đầu vào (Unvalidated input) là một trong các\
|
| 453 |
+
\ dạng lỗ hổng bảo mật phổ biến, trong đó ứng dụng không kiểm tra, hoặc kiểm tra\
|
| 454 |
+
\ không đầy đủ các dữ liệu đầu vào, nhờ đó tin tặc có thể khai thác lỗi để tấn\
|
| 455 |
+
\ công ứng dụng và hệ thống. Dữ liệu đầu vào (Input data) cho ứng dụng rất đa\
|
| 456 |
+
\ dạng, có thể đến từ nhiều nguồn với nhiều định dạng khác nhau. Các dạng dữ liệu\
|
| 457 |
+
\ đầu vào điển hình cho ứng dụng:\n * Các trường dữ liệu văn bản (text);\n *\
|
| 458 |
+
\ Các lệnh được truyền qua địa chỉ URL để kích hoạt chương trình;\n * Các file\
|
| 459 |
+
\ âm thanh, hình ảnh, hoặc đồ họa do người dùng, hoặc các tiến trình khác cung\
|
| 460 |
+
\ cấp;\n * Các đối số đầu vào trong dòng lệnh;\n * Các dữ liệu từ mạng hoặc\
|
| 461 |
+
\ từ các nguồn không tin cậy.\nTrên thực tế, tin tặc có thể sử dụng phương pháp\
|
| 462 |
+
\ thủ công, hoặc tự động để kiểm tra các dữ liệu đầu vào và thử tất cả các khả\
|
| 463 |
+
\ năng có thể để khai thác lỗi không kiểm tra đầu vào. Theo thống kê của trang\
|
| 464 |
+
\ web OWASP [(http://www.owasp.org),](http://www.owasp.org/) một trang web chuyên\
|
| 465 |
+
\ về thông kê các lỗi bảo mật ứng dụng web, lỗi không kiểm tra đầu vào luôn chiếm\
|
| 466 |
+
\ vị trí nhóm dẫn đầu các lỗi bảo mật các trang web trong khoảng 5 năm trở lại\
|
| 467 |
+
\ đây.\n### Tấn công khai thác\nCó hai dạng chính tấn công khai thác lỗi không\
|
| 468 |
+
\ kiểm tra đầu vào: (1) cung cấp dữ liệu quá lớn hoặc sai định dạng để gây lỗi\
|
| 469 |
+
\ cho ứng dụng, và (2) chèn mã khai thác vào dữ liệu đầu vào để thực hiện trên\
|
| 470 |
+
\ hệ thống của nạn nhân, nhằm đánh cắp dữ liệu nhạy cảm hoặc thực hiện các hành\
|
| 471 |
+
\ vi phá hoại. Hình 2.18 minh họa tấn công khai thác lỗi không kiểm tra đầu vào\
|
| 472 |
+
\ dạng (1) thông qua việc nhập dữ liệu quá lớn, gây lỗi thực hiện cho trang web.\n\
|
| 473 |
+
|<image_11>||<image_12>|\n_Hình 2.18. Cung cấp dữ liệu quá lớn để gây lỗi cho\
|
| 474 |
+
\ ứng dụng_\nChúng ta minh họa tấn công khai thác lỗi không kiểm tra đầu vào dạng\
|
| 475 |
+
\ (2) bằng việc chèn mã tấn công SQL vào dữ liệu đầu vào, được thực hiện trên\
|
| 476 |
+
\ hệ quản trị cơ sở dữ liệu nhằm đánh cắp, hoặc phá hủy dữ liệu trong cơ sở dữ\
|
| 477 |
+
\ liệu. Giả thiết một trang web tìm kiếm sản phẩm sử dụng câu lệnh SQL sau để\
|
| 478 |
+
\ tìm kiếm các sản phẩm:\n\"SELECT * FROM tbl_products WHERE product_name like\
|
| 479 |
+
\ '%\" + keyword + \"%'\" trong đó _tbl_products_ là bảng lưu thông tin các sản\
|
| 480 |
+
\ phẩm, _product_name_ là trường tên\nsản phẩm và _keyword_ là từ khóa cung cấp\
|
| 481 |
+
\ từ người dùng form tìm kiếm. Nếu người dùng\nnhập từ khóa là \"iPhone 7\", khi\
|
| 482 |
+
\ đó câu lệnh SQL trở thành:\n\"SELECT * FROM tbl_products WHERE product_name\
|
| 483 |
+
\ like '%iPhone 7%'\"\nNếu trong bảng có sản phẩm thỏa mãn điều kiện tìm kiếm,\
|
| 484 |
+
\ câu lệnh SQL sẽ trả về tập bản ghi. Nếu không có sản phẩm nào thỏa mãn điều\
|
| 485 |
+
\ kiện tìm kiếm, câu lệnh SQL sẽ trả về tập bản ghi rỗng. Nếu người dùng nhập\
|
| 486 |
+
\ từ khóa \"iPhone 7'; _DELETE FROM tbl_products;--_ \", khi đó câu lệnh SQL trở\
|
| 487 |
+
\ thành:\n\"SELECT * FROM tbl_products WHERE product_name like '%iPhone 7'; _DELETE\
|
| 488 |
+
\ FROM tbl_products;--_ %'\"\nNhư vậy, câu lệnh SQL được thực hiện trên cơ sở\
|
| 489 |
+
\ dữ liệu gồm 2 câu lệnh: câu lệnh chọn SELECT ban đầu và câu lệnh xóa DELETE\
|
| 490 |
+
\ do tin tặc chèn thêm. Câu lệnh “ _DELETE FROM tbl_products_ ” sẽ xóa tất cả\
|
| 491 |
+
\ các bản ghi trong bảng _tbl_products_. Sở dĩ tin tặc có thể thực hiện điều này\
|
| 492 |
+
\ là do hầu hết các hệ quản trị cơ sở dữ liệu cho phép thực\nhiện nhiều câu lệnh\
|
| 493 |
+
\ SQL theo _mẻ_ (batch), trong đó các câu lệnh được ngăn cách bởi dấu (;). Ngoài\
|
| 494 |
+
\ ra, dấu “--” ở cuối dữ liệu nhập để loại bỏ hiệu lực của phần lệnh còn lại do\
|
| 495 |
+
\ “-- ” là ký hiệu bắt đầu phần chú thích của dòng lệnh. Ngoài DELETE, tin tặc\
|
| 496 |
+
\ có thể chèn thêm các lệnh SQL khác, như INSERT, UPDATE để thực hiện việc chèn\
|
| 497 |
+
\ thêm bản ghi hoặc sửa đổi dữ liệu theo ý đồ tấn công của mình.\n### Phòng chống\n\
|
| 498 |
+
Biện pháp chủ yếu phòng chống tấn công khai thác lỗi không kiểm tra đầu vào là\
|
| 499 |
+
\ lọc dữ liệu đầu vào. Tất cả các dữ liệu đầu vào, đặc biệt dữ liệu nhập từ người\
|
| 500 |
+
\ dùng và từ các nguồn không tin cậy cần được kiểm tra kỹ lưỡng. Các biện pháp\
|
| 501 |
+
\ cụ thể bao gồm:\n * Kiểm tra kích thước và định dạng dữ liệu đầu vào;\n *\
|
| 502 |
+
\ Kiểm tra sự hợp lý của nội dung dữ liệu;\n * Tạo các bộ lọc để lọc bỏ các ký\
|
| 503 |
+
\ tự đặc biệt và các từ khóa của các ngôn ngữ trong các trường hợp cần thiết mà\
|
| 504 |
+
\ kẻ tấn công có thể sử dụng:\n\\+ Các ký tự đặc biệt: *, ', =, --\n\\+ Các từ\
|
| 505 |
+
\ khóa ngôn ngữ: SELECT, INSERT, UPDATE, DELETE, DROP,....\n(với dạng tấn công\
|
| 506 |
+
\ chèn mã SQL)."
|
| 507 |
+
- 'Public_158
|
| 508 |
+
|
| 509 |
+
Khái quát về mã hóa khóa đối xứng
|
| 510 |
+
|
| 511 |
+
nan
|
| 512 |
+
|
| 513 |
+
Mã hóa khóa đối xứng (Symmetric key encryption) hay còn gọi là mã hóa khóa bí
|
| 514 |
+
mật (Secret key encryption) sử dụng một khóa bí mật (Secret key) duy nhất cho
|
| 515 |
+
cả quá trình mã hóa và giải mã. Khóa bí mật được sử dụng trong quá trình mã hóa
|
| 516 |
+
và giải mã còn được gọi là _khóa chia sẻ_ (Shared key) do bên gửi và bên nhận
|
| 517 |
+
cần chia sẻ khóa bí mật một cách an toàn trước khi có thể thực hiện việc mã hóa
|
| 518 |
+
và giải mã. Hình 3.14 minh họa quá trình mã hóa và giải mã sử dụng chung một khóa
|
| 519 |
+
bí mật chia sẻ.
|
| 520 |
+
|
| 521 |
+
|<image_1>|
|
| 522 |
+
|
| 523 |
+
_Hình 3.14. Mã hóa khóa đối xứng (Symmetric key encryption)_
|
| 524 |
+
|
| 525 |
+
Các hệ mã hóa khóa đối xứng thường sử dụng khóa với kích thước tương đối ngắn.
|
| 526 |
+
Một số kích thước khóa được sử dụng phổ biến là 64, 128, 192 và 256 bit. Do sự
|
| 527 |
+
phát triển nhanh về tốc độ tính toán của máy tính, nên các khóa có kích thước
|
| 528 |
+
nhỏ hơn 128 bit được xem là không an toàn và hầu hết các hệ mã hóa khóa đối xứng
|
| 529 |
+
đảm bảo an toàn hiện tại sử dụng khóa có kích thước từ 128 bit trở lên. Ưu điểm
|
| 530 |
+
nổi bật của các hệ mã hóa khóa đối xứng là có độ an toàn cao và tốc độ thực thi
|
| 531 |
+
nhanh. Tuy nhiên, nhược điểm lớn nhất của các hệ mã hóa khóa đối xứng là việc
|
| 532 |
+
quản lý và phân phối khóa rất khó khăn, đặc biệt là trong các môi trường mở như
|
| 533 |
+
mạng Internet do các bên tham gia phiên truyền thông cần thực hiện việc trao đổi
|
| 534 |
+
các khóa bí mật một cách an toàn trước khi có thể sử dụng chúng để mã hóa và giải
|
| 535 |
+
mã các thông điệp trao đổi.
|
| 536 |
+
|
| 537 |
+
Một số hệ mã hóa khóa đối xứng tiêu biểu, gồm DES (Data Encryption Standard),
|
| 538 |
+
3- DES (Triple-DES), AES (Advanced Encryption Standard), IDEA (International Data
|
| 539 |
+
Encryption Algorithm), Blowfish, Twofish, RC4 và RC5. Phần tiếp theo của mục này
|
| 540 |
+
là mô tả các giải thuật mã hóa DES, 3-DES và AES do chúng là các giải thuật đã
|
| 541 |
+
và đang được sử dụng rộng rãi nhất trên thực tế.'
|
| 542 |
+
- source_sentence: Theo tài liệu Public_119, mục tiêu của LDA là gì?
|
| 543 |
+
sentences:
|
| 544 |
+
- 'Public_496
|
| 545 |
+
|
| 546 |
+
MẠNG NƠ-RON NHÂN TẠO
|
| 547 |
+
|
| 548 |
+
Mục đích của phần thí nghiệm
|
| 549 |
+
|
| 550 |
+
<table>
|
| 551 |
+
|
| 552 |
+
<colgroup>
|
| 553 |
+
|
| 554 |
+
<col/>
|
| 555 |
+
|
| 556 |
+
</colgroup>
|
| 557 |
+
|
| 558 |
+
<thead>
|
| 559 |
+
|
| 560 |
+
<tr>
|
| 561 |
+
|
| 562 |
+
<th><p>Mục đích của phần thí nghiệm:</p>
|
| 563 |
+
|
| 564 |
+
<ul>
|
| 565 |
+
|
| 566 |
+
<li><p>Hiểu rõ khái niệm Markov Decision Process (MDP).</p></li>
|
| 567 |
+
|
| 568 |
+
<li><p>Nắm được các hàm giá trị
|
| 569 |
+
|
| 570 |
+
<math><semantics><msup><mi>V</mi><mi>π</mi></msup><annotation>V^{\pi}</annotation></semantics></math>(s),
|
| 571 |
+
|
| 572 |
+
<math><semantics><msup><mi>Q</mi><mi>π</mi></msup><annotation>Q^{\pi}</annotation></semantics></math>(s,a)</p></li>
|
| 573 |
+
|
| 574 |
+
<li><p>Làm quen với các phương trình Bellman và ý nghĩa tối ưu.</p></li>
|
| 575 |
+
|
| 576 |
+
<li><p>Áp dụng các thuật toán Q-learning, SARSA, Policy Gradient,
|
| 577 |
+
|
| 578 |
+
Actor-Critic.</p></li>
|
| 579 |
+
|
| 580 |
+
<li><p>Biết các kỹ thuật regularization và exploration trong
|
| 581 |
+
|
| 582 |
+
RL.</p></li>
|
| 583 |
+
|
| 584 |
+
</ul></th>
|
| 585 |
+
|
| 586 |
+
</tr>
|
| 587 |
+
|
| 588 |
+
</thead>
|
| 589 |
+
|
| 590 |
+
<tbody>
|
| 591 |
+
|
| 592 |
+
</tbody>
|
| 593 |
+
|
| 594 |
+
</table>'
|
| 595 |
+
- 'Public_033
|
| 596 |
+
|
| 597 |
+
Nguồn gốc của dòng điện (The Origin of the Current)
|
| 598 |
+
|
| 599 |
+
Giới thiệu về điện (Introduction to Electricity)
|
| 600 |
+
|
| 601 |
+
Mọi vật, từ nước và không khí đến đá, thực vật và động vật, đều được tạo thành
|
| 602 |
+
từ các hạt nhỏ gọi là **nguyên tử**. Nguyên tử gồm **proton, neutron và electron**.
|
| 603 |
+
Hạt nhân chứa proton (dương) và neutron (trung hòa), các electron (âm) quay quanh
|
| 604 |
+
hạt nhân. Nguyên tử có thể được so sánh với hệ mặt trời, hạt nhân là Mặt Trời,
|
| 605 |
+
electron là các hành tinh quay quanh.
|
| 606 |
+
|
| 607 |
+
Các electron có thể bị giải phóng bởi lực từ bên ngoài: từ trường, nhiệt độ, ma
|
| 608 |
+
sát hoặc phản ứng hóa học. Khi electron tự do chuyển từ nguyên tử này sang nguyên
|
| 609 |
+
tử khác, **dòng điện tử** được tạo ra – cơ sở của **dòng điện**.'
|
| 610 |
+
- 'Public_119
|
| 611 |
+
|
| 612 |
+
Giới thiệu
|
| 613 |
+
|
| 614 |
+
|
| 615 |
+
Trong hai bài viết trước, PCA (unsupervised) giữ lại tổng phương sai lớn nhất
|
| 616 |
+
nhưng không dùng nhãn. Trong phân lớp (supervised), tận dụng nhãn thường cho kết
|
| 617 |
+
quả tốt hơn. Ví dụ chiếu lên các hướng d1 (gần PC1) và d2 (gần thành phần phụ):
|
| 618 |
+
d1 có thể làm hai lớp chồng lấn, trong khi d2 tách tốt hơn cho classification.
|
| 619 |
+
Điều này cho thấy giữ lại nhiều phương sai nhất không phải lúc nào cũng tốt cho
|
| 620 |
+
phân lớp. LDA ra đời để tìm phép chiếu tuyến tính (projection matrix) tối đa hóa
|
| 621 |
+
khả năng phân biệt (discriminant). Với C lớp, số chiều mới không vượt quá C−1.'
|
| 622 |
+
pipeline_tag: sentence-similarity
|
| 623 |
+
library_name: sentence-transformers
|
| 624 |
+
---
|
| 625 |
+
|
| 626 |
+
# SentenceTransformer based on hiieu/halong_embedding
|
| 627 |
+
|
| 628 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [hiieu/halong_embedding](https://huggingface.co/hiieu/halong_embedding). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 629 |
+
|
| 630 |
+
## Model Details
|
| 631 |
+
|
| 632 |
+
### Model Description
|
| 633 |
+
- **Model Type:** Sentence Transformer
|
| 634 |
+
- **Base model:** [hiieu/halong_embedding](https://huggingface.co/hiieu/halong_embedding) <!-- at revision b57776031035f70ed2030d2e35ecc533eb0f8f71 -->
|
| 635 |
+
- **Maximum Sequence Length:** 512 tokens
|
| 636 |
+
- **Output Dimensionality:** 768 dimensions
|
| 637 |
+
- **Similarity Function:** Cosine Similarity
|
| 638 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 639 |
+
<!-- - **Language:** Unknown -->
|
| 640 |
+
<!-- - **License:** Unknown -->
|
| 641 |
+
|
| 642 |
+
### Model Sources
|
| 643 |
+
|
| 644 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 645 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
| 646 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 647 |
+
|
| 648 |
+
### Full Model Architecture
|
| 649 |
+
|
| 650 |
+
```
|
| 651 |
+
SentenceTransformer(
|
| 652 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
|
| 653 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 654 |
+
(2): Normalize()
|
| 655 |
+
)
|
| 656 |
+
```
|
| 657 |
+
|
| 658 |
+
## Usage
|
| 659 |
+
|
| 660 |
+
### Direct Usage (Sentence Transformers)
|
| 661 |
+
|
| 662 |
+
First install the Sentence Transformers library:
|
| 663 |
+
|
| 664 |
+
```bash
|
| 665 |
+
pip install -U sentence-transformers
|
| 666 |
+
```
|
| 667 |
+
|
| 668 |
+
Then you can load this model and run inference.
|
| 669 |
+
```python
|
| 670 |
+
from sentence_transformers import SentenceTransformer
|
| 671 |
+
|
| 672 |
+
# Download from the 🤗 Hub
|
| 673 |
+
model = SentenceTransformer("TTHDZ/halong_embedding_finetuned")
|
| 674 |
+
# Run inference
|
| 675 |
+
sentences = [
|
| 676 |
+
'Theo tài liệu Public_119, mục tiêu của LDA là gì?',
|
| 677 |
+
'Public_119\nGiới thiệu\n\nTrong hai bài viết trước, PCA (unsupervised) giữ lại tổng phương sai lớn nhất nhưng không dùng nhãn. Trong phân lớp (supervised), tận dụng nhãn thường cho kết quả tốt hơn. Ví dụ chiếu lên các hướng d1 (gần PC1) và d2 (gần thành phần phụ): d1 có thể làm hai lớp chồng lấn, trong khi d2 tách tốt hơn cho classification. Điều này cho thấy giữ lại nhiều phương sai nhất không phải lúc nào cũng tốt cho phân lớp. LDA ra đời để tìm phép chiếu tuyến tính (projection matrix) tối đa hóa khả năng phân biệt (discriminant). Với C lớp, số chiều mới không vượt quá C−1.',
|
| 678 |
+
'Public_496\nMẠNG NƠ-RON NHÂN TẠO\nMục đích của phần thí nghiệm\n<table>\n<colgroup>\n<col/>\n</colgroup>\n<thead>\n<tr>\n<th><p>Mục đích của phần thí nghiệm:</p>\n<ul>\n<li><p>Hiểu rõ khái niệm Markov Decision Process (MDP).</p></li>\n<li><p>Nắm được các hàm giá trị\n<math><semantics><msup><mi>V</mi><mi>π</mi></msup><annotation>V^{\\pi}</annotation></semantics></math>(s),\n<math><semantics><msup><mi>Q</mi><mi>π</mi></msup><annotation>Q^{\\pi}</annotation></semantics></math>(s,a)</p></li>\n<li><p>Làm quen với các phương trình Bellman và ý nghĩa tối ưu.</p></li>\n<li><p>Áp dụng các thuật toán Q-learning, SARSA, Policy Gradient,\nActor-Critic.</p></li>\n<li><p>Biết các kỹ thuật regularization và exploration trong\nRL.</p></li>\n</ul></th>\n</tr>\n</thead>\n<tbody>\n</tbody>\n</table>',
|
| 679 |
+
]
|
| 680 |
+
embeddings = model.encode(sentences)
|
| 681 |
+
print(embeddings.shape)
|
| 682 |
+
# [3, 768]
|
| 683 |
+
|
| 684 |
+
# Get the similarity scores for the embeddings
|
| 685 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 686 |
+
print(similarities)
|
| 687 |
+
# tensor([[1.0000, 1.0000, 1.0000],
|
| 688 |
+
# [1.0000, 1.0000, 1.0000],
|
| 689 |
+
# [1.0000, 1.0000, 1.0000]])
|
| 690 |
+
```
|
| 691 |
+
|
| 692 |
+
<!--
|
| 693 |
+
### Direct Usage (Transformers)
|
| 694 |
+
|
| 695 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 696 |
+
|
| 697 |
+
</details>
|
| 698 |
+
-->
|
| 699 |
+
|
| 700 |
+
<!--
|
| 701 |
+
### Downstream Usage (Sentence Transformers)
|
| 702 |
+
|
| 703 |
+
You can finetune this model on your own dataset.
|
| 704 |
+
|
| 705 |
+
<details><summary>Click to expand</summary>
|
| 706 |
+
|
| 707 |
+
</details>
|
| 708 |
+
-->
|
| 709 |
+
|
| 710 |
+
<!--
|
| 711 |
+
### Out-of-Scope Use
|
| 712 |
+
|
| 713 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 714 |
+
-->
|
| 715 |
+
|
| 716 |
+
<!--
|
| 717 |
+
## Bias, Risks and Limitations
|
| 718 |
+
|
| 719 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 720 |
+
-->
|
| 721 |
+
|
| 722 |
+
<!--
|
| 723 |
+
### Recommendations
|
| 724 |
+
|
| 725 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 726 |
+
-->
|
| 727 |
+
|
| 728 |
+
## Training Details
|
| 729 |
+
|
| 730 |
+
### Training Dataset
|
| 731 |
+
|
| 732 |
+
#### Unnamed Dataset
|
| 733 |
+
|
| 734 |
+
* Size: 6,765 training samples
|
| 735 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
|
| 736 |
+
* Approximate statistics based on the first 1000 samples:
|
| 737 |
+
| | sentence_0 | sentence_1 | sentence_2 |
|
| 738 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
| 739 |
+
| type | string | string | string |
|
| 740 |
+
| details | <ul><li>min: 9 tokens</li><li>mean: 25.48 tokens</li><li>max: 77 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 324.91 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 23 tokens</li><li>mean: 306.9 tokens</li><li>max: 512 tokens</li></ul> |
|
| 741 |
+
* Samples:
|
| 742 |
+
| sentence_0 | sentence_1 | sentence_2 |
|
| 743 |
+
|:------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 744 |
+
| <code>Transistor NPN có các cực được sắp xếp như thế nào?</code> | <code>Public_574<br>Các loại linh kiện điện tử phổ biến<br>**Transitor**<br>Transistor hay còn gọi là tranzito là một loại linh kiện bán dẫn chủ động. Thường được sử dụng như một phần tử khuếch đại hay khóa điện tử. Với khả năng đáp ứng nhanh, chính xác nên transistor được sử dụng nhiều trong ứng dụng tương tự và số như: mạch khuếch đại, điều chỉnh điện áp, tạo dao động và điều khiển tín hiệu.<br>Tên gọi transistor chính là từ ghép trong Tiếng Anh của “Transfer” và “resistor” cũng tức là điện trở chuyển đổi. Tên gọi này được John R. Pierce đặt năm 1948 sau khi linh kiện này ra đời. Nó có ý nghĩa rằng thực hiện khuếch đại thông qua chuyển đổi điện trở.<br>Chúng ta có thể nói transistor là một linh kiện bán dẫn chủ động được sử dụng trong mạch khuếch đại, đóng ngắt….<br>Về mặt cấu tạo, transistor được tạo thành từ hai lớp bán dẫn điện ghép lại với nhau. Như hình trên chúng ta có thể thấy có hai loại bán dẫn điện là loại p và loại n. Khi ghép một bán dẫn điện âm nằm giữa hai bán dẫn điện dương ta được Transistor...</code> | <code>Public_028<br>Nguyên lý hoạt động<br>Nguyên lý làm việc của Transistor NPN<br>Khi không có điện áp cấp cho transistor NPN → **không phân cực**.<br> * **Lớp N (Emitter & Collector):** điện tử tự do là hạt dẫn đa số, lỗ trống là hạt mang điện thiểu số.<br> * **Lớp P (Base):** điện tử tự do là hạt mang điện thiểu số, lỗ trống là hạt dẫn đa số.<br>Các hạt mang điện luôn di chuyển từ vùng nồng độ cao → nồng độ thấp:<br> * Điện tử: từ N (n-region) → P (p-region)<br> * Lỗ trống: từ P (p-region) → N (n-region)<br>Quá trình này tạo ra **vùng nghèo kiệt (depletion region)** tại mối nối **B-E** và **B-C**.<br>### Tại sao vùng nghèo kiệt thâm nhập nhiều hơn về phía pha tạp nhẹ?<br> * Doping là quá trình thêm tạp chất vào chất bán dẫn để tăng dẫn điện.<br> * **Pha tạp nặng:** nhiều hạt mang điện, dẫn điện cao<br> * **Pha tạp nhẹ:** ít hạt mang điện, dẫn điện thấp<br>Trong **Transistor NPN** :<br> * **Emitter (N):** pha tạp nặng → nhiều điện tử tự do<br> * **Base (P):** pha tạp nhẹ → ít lỗ trống<br> * **Collector (N):** pha tạp vừa phải → ...</code> |
|
| 745 |
+
| <code>Theo tài liệu Public_087, ô nhiễm không khí là thách thức môi trường nghiêm trọng nhất tại đâu ở Việt Nam?</code> | <code>Public_087<br><br><br>Ô nhiễm không khí hiện đang là một trong những thách thức môi trường nghiêm trọng nhất tại Việt Nam, đặc biệt tại các đô thị lớn như Hà Nội và Thành phố Hồ Chí Minh. Sự gia tăng nồng độ bụi mịn PM2.5 vượt ngưỡng cho phép tại nhiều khu vực không chỉ ảnh hưởng trực tiếp đến sức khỏe cộng đồng mà còn đe dọa sự phát triển kinh tế - xã hội bền vững. Trong bối cảnh toàn cầu đang ứng phó với biến đổi khí hậu và các hệ lụy của quá trình đô thị hóa nhanh, nhận diện rõ thực trạng, xác định chính xác nguyên nhân, đánh giá mức độ đóng góp của từng nguồn thải và hiệu quả các giải pháp đã triển khai là cơ sở quan trọng để xây dựng chính sách phù hợp, góp phần nâng cao hiệu lực quản lý chất lượng không khí quốc gia.</code> | <code>Public_100<br>Xu hướng tương lai<br>nan<br>* Thiết bị nhẹ và gọn: Kính AR dạng kính mắt thông thường, pin lâu hơn.<br> * Tích hợp AI và học máy: Tự động nhận diện và tái tạo môi trường thực với độ chính xác cao.<br> * Tương tác đa giác quan: Hỗ trợ cảm giác chạm, âm thanh 3D, mùi hương.<br> * Metaverse chuyên biệt: Ứng dụng cho giáo dục, y tế, thương mại chứ không chỉ giải trí.<br> * Hợp tác từ xa nâng cao: Cuộc họp ảo với hình đại diện 3D chân thực, tăng tính kết nối toàn cầu.</code> |
|
| 746 |
+
| <code>Theo tài liệu Public_107, nếu learning rate quá nhỏ, kết quả của thuật toán GD sẽ như thế nào?</code> | <code>Public_107<br>Gradient Descent cho hàm nhiều biến<br><br>Giả sử ta cần tìm global minimum cho hàm f(θ) trong đó θ ( _theta_ ) là một vector, thường được dùng để ký hiệu tập hợp các tham số của một mô hình cần tối ưu (trong Linear Regression thì các tham số chính là hệ số w). Đạo hàm của hàm số đó tại một điểm θ bất kỳ được ký hiệu là ∇θf(θ) (hình tam giác ngược đọc là _nabla_ ). Tương tự như hàm 1 biến, thuật toán GD cho hàm nhiều biến cũng bắt đầu bằng một điểm dự đoán θ0, sau đó, ở vòng lặp thứ t, quy tắc cập nhật là:<br>θt+1=θt−η∇θf(θt)<br>Hoặc viết dưới dạng đơn giản hơn: θ=θ−η∇θf(θ).<br>Quy tắc cần nhớ: **luôn luôn đi ngược hướng với đạo hàm**.<br>Việc tính toán đạo hàm của các hàm nhiều biến là một kỹ năng cần thiết. Một vài đạo hàm đơn giản có thể được [tìm thấy ở đây](https://machinelearningcoban.com/math/#bang-cac-dao-ham-co-ban).<br>Quay lại với bài toán Linear Regression<br>Trong mục này, chúng ta quay lại với bài toán [Linear Regression](https://machinelearningcoban.com/2016/12/28/linearregression/) ...</code> | <code>Public_582<br>Thông số và kích thước cơ bản<br>nan<br>Các thông số và kích thước cơ bản của trụ nước được quy định tại Bảng 1 và Phụ lục A<br>**Bảng 1 - Thông số và kích thước cơ bản của trụ nước chữa cháy**<br><table><br><colgroup><br><col/><br><col/><br><col/><br></colgroup><br><tbody><br><tr><br><td><strong>Thông số</strong></td><br><td><strong>Trụ nổi</strong></td><br><td><strong>Trụ ngầm</strong></td><br></tr><br><tr><br><td>Áp suất làm việc, MPa (bar), không lớn hơn</td><br><td>1(10)</td><br><td>1(10)</td><br></tr><br><tr><br><td>Đường kính trong thân trụ nước, mm</td><br><td>125 ± 2</td><br><td>125 ± 2</td><br></tr><br><tr><br><td>Chiều cao nâng của van, mm</td><br><td>Từ 24 đến 30</td><br><td>Từ 24 đến 30</td><br></tr><br><tr><br><td>Chiều cao trụ nước, mm</td><br><td>1 500 ± 20</td><br><td>970 ± 20</td><br></tr><br><tr><br><td>Số vòng quay cần thiết để van mở hoàn toàn, vòng, không lớn hơn</td><br><td>15</td><br><td>15</td><br></tr><br><tr><br><td>Hệ số tổn thất áp suất trong trụ nước, s<sup>2</sup>m<sup>-5</sup>,<br>không lớn hơn</td><br><td>1,2x10<sup>3</sup></td><br><td>1,2x10<sup>3</sup></td><br></tr><br><tr><br><td>...</code> |
|
| 747 |
+
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
| 748 |
+
```json
|
| 749 |
+
{
|
| 750 |
+
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
|
| 751 |
+
"triplet_margin": 5
|
| 752 |
+
}
|
| 753 |
+
```
|
| 754 |
+
|
| 755 |
+
### Training Hyperparameters
|
| 756 |
+
#### Non-Default Hyperparameters
|
| 757 |
+
|
| 758 |
+
- `fp16`: True
|
| 759 |
+
- `multi_dataset_batch_sampler`: round_robin
|
| 760 |
+
|
| 761 |
+
#### All Hyperparameters
|
| 762 |
+
<details><summary>Click to expand</summary>
|
| 763 |
+
|
| 764 |
+
- `overwrite_output_dir`: False
|
| 765 |
+
- `do_predict`: False
|
| 766 |
+
- `eval_strategy`: no
|
| 767 |
+
- `prediction_loss_only`: True
|
| 768 |
+
- `per_device_train_batch_size`: 8
|
| 769 |
+
- `per_device_eval_batch_size`: 8
|
| 770 |
+
- `per_gpu_train_batch_size`: None
|
| 771 |
+
- `per_gpu_eval_batch_size`: None
|
| 772 |
+
- `gradient_accumulation_steps`: 1
|
| 773 |
+
- `eval_accumulation_steps`: None
|
| 774 |
+
- `torch_empty_cache_steps`: None
|
| 775 |
+
- `learning_rate`: 5e-05
|
| 776 |
+
- `weight_decay`: 0.0
|
| 777 |
+
- `adam_beta1`: 0.9
|
| 778 |
+
- `adam_beta2`: 0.999
|
| 779 |
+
- `adam_epsilon`: 1e-08
|
| 780 |
+
- `max_grad_norm`: 1
|
| 781 |
+
- `num_train_epochs`: 3
|
| 782 |
+
- `max_steps`: -1
|
| 783 |
+
- `lr_scheduler_type`: linear
|
| 784 |
+
- `lr_scheduler_kwargs`: {}
|
| 785 |
+
- `warmup_ratio`: 0.0
|
| 786 |
+
- `warmup_steps`: 0
|
| 787 |
+
- `log_level`: passive
|
| 788 |
+
- `log_level_replica`: warning
|
| 789 |
+
- `log_on_each_node`: True
|
| 790 |
+
- `logging_nan_inf_filter`: True
|
| 791 |
+
- `save_safetensors`: True
|
| 792 |
+
- `save_on_each_node`: False
|
| 793 |
+
- `save_only_model`: False
|
| 794 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 795 |
+
- `no_cuda`: False
|
| 796 |
+
- `use_cpu`: False
|
| 797 |
+
- `use_mps_device`: False
|
| 798 |
+
- `seed`: 42
|
| 799 |
+
- `data_seed`: None
|
| 800 |
+
- `jit_mode_eval`: False
|
| 801 |
+
- `bf16`: False
|
| 802 |
+
- `fp16`: True
|
| 803 |
+
- `fp16_opt_level`: O1
|
| 804 |
+
- `half_precision_backend`: auto
|
| 805 |
+
- `bf16_full_eval`: False
|
| 806 |
+
- `fp16_full_eval`: False
|
| 807 |
+
- `tf32`: None
|
| 808 |
+
- `local_rank`: 0
|
| 809 |
+
- `ddp_backend`: None
|
| 810 |
+
- `tpu_num_cores`: None
|
| 811 |
+
- `tpu_metrics_debug`: False
|
| 812 |
+
- `debug`: []
|
| 813 |
+
- `dataloader_drop_last`: False
|
| 814 |
+
- `dataloader_num_workers`: 0
|
| 815 |
+
- `dataloader_prefetch_factor`: None
|
| 816 |
+
- `past_index`: -1
|
| 817 |
+
- `disable_tqdm`: False
|
| 818 |
+
- `remove_unused_columns`: True
|
| 819 |
+
- `label_names`: None
|
| 820 |
+
- `load_best_model_at_end`: False
|
| 821 |
+
- `ignore_data_skip`: False
|
| 822 |
+
- `fsdp`: []
|
| 823 |
+
- `fsdp_min_num_params`: 0
|
| 824 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 825 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 826 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 827 |
+
- `parallelism_config`: None
|
| 828 |
+
- `deepspeed`: None
|
| 829 |
+
- `label_smoothing_factor`: 0.0
|
| 830 |
+
- `optim`: adamw_torch
|
| 831 |
+
- `optim_args`: None
|
| 832 |
+
- `adafactor`: False
|
| 833 |
+
- `group_by_length`: False
|
| 834 |
+
- `length_column_name`: length
|
| 835 |
+
- `project`: huggingface
|
| 836 |
+
- `trackio_space_id`: trackio
|
| 837 |
+
- `ddp_find_unused_parameters`: None
|
| 838 |
+
- `ddp_bucket_cap_mb`: None
|
| 839 |
+
- `ddp_broadcast_buffers`: False
|
| 840 |
+
- `dataloader_pin_memory`: True
|
| 841 |
+
- `dataloader_persistent_workers`: False
|
| 842 |
+
- `skip_memory_metrics`: True
|
| 843 |
+
- `use_legacy_prediction_loop`: False
|
| 844 |
+
- `push_to_hub`: False
|
| 845 |
+
- `resume_from_checkpoint`: None
|
| 846 |
+
- `hub_model_id`: None
|
| 847 |
+
- `hub_strategy`: every_save
|
| 848 |
+
- `hub_private_repo`: None
|
| 849 |
+
- `hub_always_push`: False
|
| 850 |
+
- `hub_revision`: None
|
| 851 |
+
- `gradient_checkpointing`: False
|
| 852 |
+
- `gradient_checkpointing_kwargs`: None
|
| 853 |
+
- `include_inputs_for_metrics`: False
|
| 854 |
+
- `include_for_metrics`: []
|
| 855 |
+
- `eval_do_concat_batches`: True
|
| 856 |
+
- `fp16_backend`: auto
|
| 857 |
+
- `push_to_hub_model_id`: None
|
| 858 |
+
- `push_to_hub_organization`: None
|
| 859 |
+
- `mp_parameters`:
|
| 860 |
+
- `auto_find_batch_size`: False
|
| 861 |
+
- `full_determinism`: False
|
| 862 |
+
- `torchdynamo`: None
|
| 863 |
+
- `ray_scope`: last
|
| 864 |
+
- `ddp_timeout`: 1800
|
| 865 |
+
- `torch_compile`: False
|
| 866 |
+
- `torch_compile_backend`: None
|
| 867 |
+
- `torch_compile_mode`: None
|
| 868 |
+
- `include_tokens_per_second`: False
|
| 869 |
+
- `include_num_input_tokens_seen`: no
|
| 870 |
+
- `neftune_noise_alpha`: None
|
| 871 |
+
- `optim_target_modules`: None
|
| 872 |
+
- `batch_eval_metrics`: False
|
| 873 |
+
- `eval_on_start`: False
|
| 874 |
+
- `use_liger_kernel`: False
|
| 875 |
+
- `liger_kernel_config`: None
|
| 876 |
+
- `eval_use_gather_object`: False
|
| 877 |
+
- `average_tokens_across_devices`: True
|
| 878 |
+
- `prompts`: None
|
| 879 |
+
- `batch_sampler`: batch_sampler
|
| 880 |
+
- `multi_dataset_batch_sampler`: round_robin
|
| 881 |
+
- `router_mapping`: {}
|
| 882 |
+
- `learning_rate_mapping`: {}
|
| 883 |
+
|
| 884 |
+
</details>
|
| 885 |
+
|
| 886 |
+
### Training Logs
|
| 887 |
+
| Epoch | Step | Training Loss |
|
| 888 |
+
|:------:|:----:|:-------------:|
|
| 889 |
+
| 0.5910 | 500 | 4.997 |
|
| 890 |
+
| 1.1820 | 1000 | 5.0017 |
|
| 891 |
+
| 1.7730 | 1500 | 5.0006 |
|
| 892 |
+
| 2.3641 | 2000 | 5.0006 |
|
| 893 |
+
| 2.9551 | 2500 | 5.0005 |
|
| 894 |
+
|
| 895 |
+
|
| 896 |
+
### Framework Versions
|
| 897 |
+
- Python: 3.12.11
|
| 898 |
+
- Sentence Transformers: 5.1.0
|
| 899 |
+
- Transformers: 4.57.1
|
| 900 |
+
- PyTorch: 2.7.0+cu126
|
| 901 |
+
- Accelerate: 1.11.0
|
| 902 |
+
- Datasets: 3.6.0
|
| 903 |
+
- Tokenizers: 0.22.1
|
| 904 |
+
|
| 905 |
+
## Citation
|
| 906 |
+
|
| 907 |
+
### BibTeX
|
| 908 |
+
|
| 909 |
+
#### Sentence Transformers
|
| 910 |
+
```bibtex
|
| 911 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 912 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 913 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 914 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 915 |
+
month = "11",
|
| 916 |
+
year = "2019",
|
| 917 |
+
publisher = "Association for Computational Linguistics",
|
| 918 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 919 |
+
}
|
| 920 |
+
```
|
| 921 |
+
|
| 922 |
+
#### TripletLoss
|
| 923 |
+
```bibtex
|
| 924 |
+
@misc{hermans2017defense,
|
| 925 |
+
title={In Defense of the Triplet Loss for Person Re-Identification},
|
| 926 |
+
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
|
| 927 |
+
year={2017},
|
| 928 |
+
eprint={1703.07737},
|
| 929 |
+
archivePrefix={arXiv},
|
| 930 |
+
primaryClass={cs.CV}
|
| 931 |
+
}
|
| 932 |
+
```
|
| 933 |
+
|
| 934 |
+
<!--
|
| 935 |
+
## Glossary
|
| 936 |
+
|
| 937 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 938 |
+
-->
|
| 939 |
+
|
| 940 |
+
<!--
|
| 941 |
+
## Model Card Authors
|
| 942 |
+
|
| 943 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 944 |
+
-->
|
| 945 |
+
|
| 946 |
+
<!--
|
| 947 |
+
## Model Card Contact
|
| 948 |
+
|
| 949 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 950 |
+
-->
|
config.json
ADDED
|
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"XLMRobertaModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.1,
|
| 6 |
+
"bos_token_id": 0,
|
| 7 |
+
"classifier_dropout": null,
|
| 8 |
+
"dtype": "float32",
|
| 9 |
+
"eos_token_id": 2,
|
| 10 |
+
"hidden_act": "gelu",
|
| 11 |
+
"hidden_dropout_prob": 0.1,
|
| 12 |
+
"hidden_size": 768,
|
| 13 |
+
"initializer_range": 0.02,
|
| 14 |
+
"intermediate_size": 3072,
|
| 15 |
+
"layer_norm_eps": 1e-05,
|
| 16 |
+
"max_position_embeddings": 514,
|
| 17 |
+
"model_type": "xlm-roberta",
|
| 18 |
+
"num_attention_heads": 12,
|
| 19 |
+
"num_hidden_layers": 12,
|
| 20 |
+
"output_past": true,
|
| 21 |
+
"pad_token_id": 1,
|
| 22 |
+
"position_embedding_type": "absolute",
|
| 23 |
+
"transformers_version": "4.57.1",
|
| 24 |
+
"type_vocab_size": 1,
|
| 25 |
+
"use_cache": true,
|
| 26 |
+
"vocab_size": 250002
|
| 27 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"__version__": {
|
| 3 |
+
"sentence_transformers": "5.1.0",
|
| 4 |
+
"transformers": "4.57.1",
|
| 5 |
+
"pytorch": "2.7.0+cu126"
|
| 6 |
+
},
|
| 7 |
+
"prompts": {
|
| 8 |
+
"query": "",
|
| 9 |
+
"document": ""
|
| 10 |
+
},
|
| 11 |
+
"default_prompt_name": null,
|
| 12 |
+
"similarity_fn_name": "cosine",
|
| 13 |
+
"model_type": "SentenceTransformer"
|
| 14 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:1a965019f9b7d06e063e5e847059770256e9b05ce72a2275dc03937e1793485f
|
| 3 |
+
size 1112197096
|
modules.json
ADDED
|
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
},
|
| 14 |
+
{
|
| 15 |
+
"idx": 2,
|
| 16 |
+
"name": "2",
|
| 17 |
+
"path": "2_Normalize",
|
| 18 |
+
"type": "sentence_transformers.models.Normalize"
|
| 19 |
+
}
|
| 20 |
+
]
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 512,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": {
|
| 3 |
+
"content": "<s>",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"cls_token": {
|
| 10 |
+
"content": "<s>",
|
| 11 |
+
"lstrip": false,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"eos_token": {
|
| 17 |
+
"content": "</s>",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"mask_token": {
|
| 24 |
+
"content": "<mask>",
|
| 25 |
+
"lstrip": true,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
},
|
| 30 |
+
"pad_token": {
|
| 31 |
+
"content": "<pad>",
|
| 32 |
+
"lstrip": false,
|
| 33 |
+
"normalized": false,
|
| 34 |
+
"rstrip": false,
|
| 35 |
+
"single_word": false
|
| 36 |
+
},
|
| 37 |
+
"sep_token": {
|
| 38 |
+
"content": "</s>",
|
| 39 |
+
"lstrip": false,
|
| 40 |
+
"normalized": false,
|
| 41 |
+
"rstrip": false,
|
| 42 |
+
"single_word": false
|
| 43 |
+
},
|
| 44 |
+
"unk_token": {
|
| 45 |
+
"content": "<unk>",
|
| 46 |
+
"lstrip": false,
|
| 47 |
+
"normalized": false,
|
| 48 |
+
"rstrip": false,
|
| 49 |
+
"single_word": false
|
| 50 |
+
}
|
| 51 |
+
}
|
tokenizer.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
| 3 |
+
size 17082987
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "<s>",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "<pad>",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "</s>",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "<unk>",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"250001": {
|
| 36 |
+
"content": "<mask>",
|
| 37 |
+
"lstrip": true,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"bos_token": "<s>",
|
| 45 |
+
"clean_up_tokenization_spaces": true,
|
| 46 |
+
"cls_token": "<s>",
|
| 47 |
+
"eos_token": "</s>",
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "<mask>",
|
| 50 |
+
"max_length": 512,
|
| 51 |
+
"model_max_length": 512,
|
| 52 |
+
"pad_to_multiple_of": null,
|
| 53 |
+
"pad_token": "<pad>",
|
| 54 |
+
"pad_token_type_id": 0,
|
| 55 |
+
"padding_side": "right",
|
| 56 |
+
"sep_token": "</s>",
|
| 57 |
+
"stride": 0,
|
| 58 |
+
"tokenizer_class": "XLMRobertaTokenizerFast",
|
| 59 |
+
"truncation_side": "right",
|
| 60 |
+
"truncation_strategy": "longest_first",
|
| 61 |
+
"unk_token": "<unk>"
|
| 62 |
+
}
|