Instructions to use HiImHa/phobert-bi-encoder with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use HiImHa/phobert-bi-encoder with sentence-transformers:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("HiImHa/phobert-bi-encoder")

sentences = [
    "Khi điều_chỉnh quy_hoạch mạng_lưới đường_bộ , cần tuân_thủ những nguyên_tắc nào ?",
    "[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 7 . Xử_phạt , trừ điểm giấy_phép lái của người điều_khiển xe mô_tô , xe_gắn_máy , các loại xe tương_tự xe mô_tô và các loại xe tương_tự xe_gắn_máy vi_phạm quy_tắc giao_thông đường_bộ Theo Khoản 13 : Ngoài việc bị áp_dụng hình_thức xử_phạt , người điều_khiển xe thực_hiện hành_vi vi_phạm còn bị trừ điểm giấy_phép lái_xe như sau : Nội_dung Điểm d : Thực_hiện hành_vi quy_định tại điểm b khoản 8 , khoản 10 Điều này bị trừ điểm giấy_phép lái_xe 10 điểm .",
    "[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 21 . Xử_phạt , trừ điểm giấy_phép lái_xe của người điều_khiển xe ô_tô tải , máy_kéo ( bao_gồm cả rơ moóc hoặc sơ_mi rơ moóc được kéo_theo ) và các loại xe tương_tự xe ô_tô vận_chuyển hàng_hoá vi_phạm quy_định về bảo_đảm trật_tự , an_toàn giao_thông đường_bộ với xe ô_tô vận_chuyển hàng_hoá Nội_dung Khoản 4 : Phạt tiền từ 2.000.000 đồng đến 3.000.000 đồng đối_với người điều_khiển xe thực_hiện hành_vi chở hàng vượt quá chiều cao xếp_hàng cho_phép đối_với xe ô_tô tải ( kể_cả rơ moóc và sơ_mi rơ moóc ) .",
    "[ Luật Đường_bộ ] > Chương I > Điều 5 . Quy_hoạch mạng_lưới đường_bộ , quy_hoạch kết_cấu_hạ_tầng đường_bộ Theo Khoản 1 : Quy_hoạch mạng_lưới đường_bộ được quy_định như sau : Nội_dung Điểm b : Việc lập , thẩm_định , phê_duyệt , điều_chỉnh quy_hoạch mạng_lưới đường_bộ phải tuân_thủ quy_định của pháp_luật về quy_hoạch và bảo_đảm kết_nối phương_thức vận_tải đường_bộ với các phương_thức vận_tải khác ;"
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]

Notebooks
Google Colab
Kaggle

phobert-bi-encoder

File size: 1,214 Bytes

64608cd

{
  "added_tokens_decoder": {
    "0": {
      "content": "<s>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "1": {
      "content": "<pad>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "2": {
      "content": "</s>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "3": {
      "content": "<unk>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "64000": {
      "content": "<mask>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    }
  },
  "additional_special_tokens": null,
  "backend": "custom",
  "bos_token": "<s>",
  "cls_token": "<s>",
  "eos_token": "</s>",
  "extra_special_tokens": [],
  "is_local": true,
  "mask_token": "<mask>",
  "model_max_length": 256,
  "pad_token": "<pad>",
  "sep_token": "</s>",
  "tokenizer_class": "PhobertTokenizer",
  "unk_token": "<unk>"
}