SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for retrieval.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity
  • Supported Modality: Text

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'embedding_dimension': 1024, 'pooling_mode': 'cls', 'include_prompt': True})
  (2): Normalize({})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("hiudev/bge-m3-deepedu")
# Run inference
sentences = [
    'Khi muốn làm nổi bật bông hoa bằng cách làm mờ nền, công cụ nào nên dùng?',
    '<details> <summary>text_image</summary> a) Ānh gốc b) Ānh sau khi tăng độ tương phải </details> Hình 10b.4. Điều chỉnh độ tương phản cho ảnh # c) Độ mò, độ sắc nét (Blur, Sharpen) Phần mềm xử lí ảnh cung cấp công cụ làm mờ, làm sắc nét ảnh. Em có thể sử dụng để làm mờ một vùng quá nổi bật trong ảnh, làm sắc nét riêng một đối tượng hoặc làm mờ nền xung quanh ảnh để làm nổi bật chủ thể bức ảnh.',
    'float Anh\\_Crop \\- Sử dụng công cụ Gradient để đồ màu (chuyển đàn giữa màu nền và màu vẽ) cho lớp Khungvien. Thực hiện các bước như hướng dẫn trong Hình 11b.4. ![](images/c1c902d204cfdc9b814e35d13da30fc207962b5dac51551a3e989b04df6beef1.jpg) <details> <summary>text_image</summary> 1. Chọn công cụ Gradient 2. Nhấy chuột vào hai ô vuông để chọn màu nền và màu vẽ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.5892, 0.5468],
#         [0.5892, 1.0000, 0.5841],
#         [0.5468, 0.5841, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 15 training samples
  • Columns: anchor, positive, negative_1, negative_2, negative_3, and negative_4
  • Approximate statistics based on the first 15 samples:
    anchor positive negative_1 negative_2 negative_3 negative_4
    type string string string string string string
    details
    • min: 19 tokens
    • mean: 22.0 tokens
    • max: 30 tokens
    • min: 33 tokens
    • mean: 140.13 tokens
    • max: 223 tokens
    • min: 76 tokens
    • mean: 161.8 tokens
    • max: 289 tokens
    • min: 88 tokens
    • mean: 174.73 tokens
    • max: 282 tokens
    • min: 72 tokens
    • mean: 190.13 tokens
    • max: 475 tokens
    • min: 107 tokens
    • mean: 169.13 tokens
    • max: 255 tokens
  • Samples:
    anchor positive negative_1 negative_2 negative_3 negative_4
    Thao tác chèn văn bản vào ảnh để ghi chú và tạo hiệu ứng là gì? # BÀI 10b # THÊM VĂN BẦN, TẠO HIỆU ỨNG CHO ẦNH # Sau bài học này em sẽ: - Thực hiện được các thao tác xử lí ảnh: thêm văn bản, điều chỉnh độ sáng, độ tương phản, làm mờ, làm sắc nét. An: Minh ơi, câu xem một vài bức ảnh tố chụp trường mình này. Tớ muốn chỉnh sửa các ảnh đó và thêm chú thích từng khu vực trong trường vào ảnh để gửi cho bạn học cùng trường tiểu học. Cậu có biết công cụ nào của phần mềm chỉnh sửa ảnh làm được điều đó không? Minh: Có chú. Tór thấy một số ảnh cầu chụp bị tối, cần tăng độ sáng lên và chỉnh thêm về màu sắc ảnh nữa thì sẽ đẹp đáy. Bước 5: Chèn và định dạng hộp văn bản. a) Chèn hộp văn bản - Tạo hộp văn bản nằm ở lớp trên của các ảnh nền như Hình 3.1. 1. Chèn hình khối chữ nhật đặt ở vị trí lớp trên ảnh nên, di chuyển hình khối tới vị trí chính giữa như Hình 3.1. 2. Chọn hình khối vừa chèn, nháy nút phải chuột, nháy chọn Add Text trong danh sách lệnh hiện ra (Hình 3.5). 3. Con trò soan thảo sẽ xuất hiện bên trong hình khối, cho phép ta gỗ vào nội dung giới thiệu. b) Định dạng hộp văn bản Hình ảnh được chèn thêm văn bản # 2. TẠO HIỆU ỨNG CHO ẢNH # Hoạt động 2 Độ sáng của hình ảnh 1. Em hãy quan sát các bức ảnh ở Hình 10b.1 và cho nhận xét về độ sáng của mỗi ảnh. 2. Theo em có thể thay đổi độ sáng của ảnh không? Hình ảnh được chụp từ máy ảnh kĩ thuật số không phải lúc nào cũng hoàn hảo. # Hoạt động khởi động
    Mục tiêuTiền hànhKết quảChú ý
    Hoạt động này đặt HS vào việc khi chụp ảnh có thể sẽ gặp phải những bức ảnh như hình 10b.1 và có mong muốn thay đổi, chỉnh sửa để có bức ảnh đẹp hơn.– GV yêu cầu HS làm việc theo nhóm. Với mỗi nhóm cụ thể GV cung cấp các hình ảnh khác nhau và yêu cầu HS duża ra mong muốn chỉnh sửa cho bức ảnh nhóm nhận được.– HS đọc nội dung phân khởi động, thảo luận duża ra các ý kiến cá nhân.– GV tổ chức cho cá nhân hoặc nhóm nhận xét các câu trả lời.Mỗi nhóm HS sẽ duża ra được ý tưởng thay đổi bức ảnh khác nhau. Tổng hợp các ý kiến và nội dung của hoạt động khởi động chính là nội dung sẽ học trong bài.Thời gian cho hoạt động khoảng 5 phút.
    # 1. Thêm văn bản Hoạt động 1. Thêm văn bản vào ảnh <...
    Mục tiêuTiền hànhKết quảChú ý Bước 2: Chèn ảnh vào văn bản. Trong tiết lí thuyết, chúng ta đã phân tích Hình 2.1 gồm 4 ảnh với vị trí và bổ cục như Hình 2.8. Để làm được như vậy, lần lượt thực hiện các thao tác sau:
    text_image Ảnh số 1 Ảnh số 2 Ảnh số 3 Ảnh số 4
    Hình 2.8.
    Công cụ nào trong phần mềm chỉnh sửa ảnh cho phép điều chỉnh độ sáng và độ tương phản?
    natural_image Outdoor mural display with colorful painted murals and potted plants, no visible text or symbols
    a
    natural_image Close-up of a vibrant red rose surrounded by green foliage (no text or symbols visible)
    Đặt 1 hạt dưa chuột nằm ngang giữa ô bầu. Dùng ngón tay ấn nhẹ hạt xuống sâu khoảng 0,5 cm. Gạt giá thể xung quanh lên hạt để lắp kín hạt. Dùng ô doa tươi đẩm khay bầu ngay sau khi gieo. Bước 3. Ghi chép nhật kí Ghi thông tin về giống, giá thể worm cây, phân bón và người lao động theo mẫu Bằng 11.2, 11.3. Bước 4. Chăm sóc Hằng ngày tưới giữ ẩm; # 1. Tính oxi hoá # a) Tác dụng với kim loại O nhiệt độ cao, nito tác dụng được với một số kim loại hoạt động như Ca, Mg, Al,... tạo thành nitrua kim loại. Thí dụ : $$ 3 \mathrm{Mg} + \stackrel {0} {\mathrm{N}} _ {2} \xrightarrow {\mathrm{t} ^ {\circ}} \mathrm{Mg} _ {3} \stackrel {- 3} {\mathrm{N}} _ {2} \text { magie nitrua } $$ # b) Tác dụng với hidro O nhiệt độ cao, áp suất cao và có mặt chất xúc tác, nito tác dụng trực tiếp với hidro, tạo ra khí amoniac. Liu y: Khi giới thiệu động tác mới (đi đều vòng bên phải), GV cân tăng cường sử dụng các phương tiện trực quan, đa dạng hoá các hoạt động trong giờ học để thu hút và tạo hứng thú cho HS, GV không nên sử dụng đơn điều phương pháp giảng giải (thuyết trình) trong thời gian dài. Lời nói của GV phải đơn giản, để hiểu, ngắn gọn và phù hợp với vốn từ vựng của các em. # 2.3. Hình thành động tác mới GV có thể tiến hành nhu sau: – GV làm mẫu, cả lớp quan sát. Sau đó, GV gọi lân lượt một vài HS lên tập động tác đi đều vòng bên phải, cả lớp quan sát và nhận xét bạn tập. - GV gọi 4 - 5 HS lên, huống dẫn cách thực hiện động tác một hàng dọc đi đều vòng bên phải và cho các em thực hiện 1 - 2 lần; cả lớp quan sát và nhận xét. Sau đó, GV cho các hàng thực hiện động tác này. # III. LUYÊN TÂP # GIÁO VIÊN CHO HỌC SINH TẬP LUYÊN VỚI NHẠC # 1. Luyện tập đồng loạt – theo nhóm - Luyên tập đồng loạt: + Giáo viên cho học sinh đúng thành nhiều hàng ngang cách một sai tay và xen kê. + Giáo viên đếm nhịp cho cả lớp cùng tập: Giáo viên đếm chậm từng cử động của động tác cho học sinh tập theo. + Khi học sinh đã thực hiện tương đối theo nhịp chậm, giáo viên sẽ đếm nhịp nhanh hơn theo tốc độ của kĩ thuật động tác. + Giáo viên cho cả lớp cùng đếm để thuộc nhịp động tác, sau đó giáo viên có thể gọi một học sinh lên thực hiện cho cả lớp xem và nhận xét, sửa sai.
    Việc tăng độ sáng cho ảnh có thể gây ra hậu quả gì nếu ảnh ban đầu quá tối? Hình ảnh được chèn thêm văn bản # 2. TẠO HIỆU ỨNG CHO ẢNH # Hoạt động 2 Độ sáng của hình ảnh 1. Em hãy quan sát các bức ảnh ở Hình 10b.1 và cho nhận xét về độ sáng của mỗi ảnh. 2. Theo em có thể thay đổi độ sáng của ảnh không? Hình ảnh được chụp từ máy ảnh kĩ thuật số không phải lúc nào cũng hoàn hảo. Tuy nhiên, việc thêm quá nhiều độ mờ, độ sắc nét có thể làm cho hình ảnh trong xấu hơn hoặc dẫn đến mất chi tiết của ảnh.
    natural_image Close-up of a vibrant red rose with green leaves in the background (no text or symbols visible)
    a) Ảnh gốc
    natural_image
    text_image a) Ānh gốc b) Ānh sau khi tăng độ tương phải
    Hình 10b.4. Điều chỉnh độ tương phản cho ảnh # c) Độ mò, độ sắc nét (Blur, Sharpen) Phần mềm xử lí ảnh cung cấp công cụ làm mờ, làm sắc nét ảnh. Em có thể sử dụng để làm mờ một vùng quá nổi bật trong ảnh, làm sắc nét riêng một đối tượng hoặc làm mờ nền xung quanh ảnh để làm nổi bật chủ thể bức ảnh.
    # BÀI 10b # THÊM VĂN BẦN, TẠO HIỆU ỨNG CHO ẦNH # Sau bài học này em sẽ: - Thực hiện được các thao tác xử lí ảnh: thêm văn bản, điều chỉnh độ sáng, độ tương phản, làm mờ, làm sắc nét. An: Minh ơi, câu xem một vài bức ảnh tố chụp trường mình này. Tớ muốn chỉnh sửa các ảnh đó và thêm chú thích từng khu vực trong trường vào ảnh để gửi cho bạn học cùng trường tiểu học. Cậu có biết công cụ nào của phần mềm chỉnh sửa ảnh làm được điều đó không? Minh: Có chú. Tór thấy một số ảnh cầu chụp bị tối, cần tăng độ sáng lên và chỉnh thêm về màu sắc ảnh nữa thì sẽ đẹp đáy. bảo vệ môi trường làng nghề; bảo vệ môi trường khu đủ thị, khu dân cư; bảo vệ môi trường nông thôn; bảo vệ môi trường nơi công cộng và bảo vệ môi trường đối với hộ gia đình, cá nhân. # 1. Ô nhiễm ánh sáng O nhiễm ánh sáng xáy ra do việc sử dụng sai hương (hình 1.2) hoặc quá mức ánh sáng nhân tạo từ đến điện (bảng 1.1). Đảy là tác động tiêu cực của quá trình độ thị hoá, gây ánh hương đến sức khoé, phá vỡ hệ sinh thái. Ảnh sáng chói dẫn đến điều kiện lái xe không an toàn. Tiếp xúc với ảnh sáng lâu sẽ gây ra đau đầu, một mới, lo âu, trầm cảm, căng thẳng thần kinh (rối loạn nhịp sinh học).
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 50.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    
  • Training Hyperparameters

    Non-Default Hyperparameters

    • learning_rate: 1e-05
    • warmup_steps: 0.1
    • gradient_accumulation_steps: 16
    • bf16: True
    • tf32: True
    • gradient_checkpointing: True
    • dataloader_num_workers: 4

    All Hyperparameters

    Click to expand
    • per_device_train_batch_size: 8
    • num_train_epochs: 3
    • max_steps: -1
    • learning_rate: 1e-05
    • lr_scheduler_type: linear
    • lr_scheduler_kwargs: None
    • warmup_steps: 0.1
    • optim: adamw_torch_fused
    • optim_args: None
    • weight_decay: 0.0
    • adam_beta1: 0.9
    • adam_beta2: 0.999
    • adam_epsilon: 1e-08
    • optim_target_modules: None
    • gradient_accumulation_steps: 16
    • average_tokens_across_devices: True
    • max_grad_norm: 1.0
    • label_smoothing_factor: 0.0
    • bf16: True
    • fp16: False
    • bf16_full_eval: False
    • fp16_full_eval: False
    • tf32: True
    • gradient_checkpointing: True
    • gradient_checkpointing_kwargs: None
    • torch_compile: False
    • torch_compile_backend: None
    • torch_compile_mode: None
    • use_liger_kernel: False
    • liger_kernel_config: None
    • use_cache: False
    • neftune_noise_alpha: None
    • torch_empty_cache_steps: None
    • auto_find_batch_size: False
    • log_on_each_node: True
    • logging_nan_inf_filter: True
    • include_num_input_tokens_seen: no
    • log_level: passive
    • log_level_replica: warning
    • disable_tqdm: False
    • project: huggingface
    • trackio_space_id: None
    • trackio_bucket_id: None
    • trackio_static_space_id: None
    • per_device_eval_batch_size: 8
    • prediction_loss_only: True
    • eval_on_start: False
    • eval_do_concat_batches: True
    • eval_use_gather_object: False
    • eval_accumulation_steps: None
    • include_for_metrics: []
    • batch_eval_metrics: False
    • save_only_model: False
    • save_on_each_node: False
    • enable_jit_checkpoint: False
    • push_to_hub: False
    • hub_private_repo: None
    • hub_model_id: None
    • hub_strategy: every_save
    • hub_always_push: False
    • hub_revision: None
    • load_best_model_at_end: False
    • ignore_data_skip: False
    • restore_callback_states_from_checkpoint: False
    • full_determinism: False
    • seed: 42
    • data_seed: None
    • use_cpu: False
    • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
    • parallelism_config: None
    • dataloader_drop_last: False
    • dataloader_num_workers: 4
    • dataloader_pin_memory: True
    • dataloader_persistent_workers: False
    • dataloader_prefetch_factor: None
    • remove_unused_columns: True
    • label_names: None
    • train_sampling_strategy: random
    • length_column_name: length
    • ddp_find_unused_parameters: None
    • ddp_bucket_cap_mb: None
    • ddp_broadcast_buffers: False
    • ddp_static_graph: None
    • ddp_backend: None
    • ddp_timeout: 1800
    • fsdp: []
    • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
    • deepspeed: None
    • debug: []
    • skip_memory_metrics: True
    • do_predict: False
    • resume_from_checkpoint: None
    • warmup_ratio: None
    • local_rank: -1
    • prompts: None
    • batch_sampler: batch_sampler
    • multi_dataset_batch_sampler: proportional
    • router_mapping: {}
    • learning_rate_mapping: {}

    Training Time

    • Training: 1.4 minutes

    Framework Versions

    • Python: 3.12.13
    • Sentence Transformers: 5.4.1
    • Transformers: 5.8.0
    • PyTorch: 2.11.0+cu130
    • Accelerate: 1.13.0
    • Datasets: 4.8.5
    • Tokenizers: 0.22.2

    Citation

    BibTeX

    Sentence Transformers

    @inproceedings{reimers-2019-sentence-bert,
        title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
        author = "Reimers, Nils and Gurevych, Iryna",
        booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
        month = "11",
        year = "2019",
        publisher = "Association for Computational Linguistics",
        url = "https://arxiv.org/abs/1908.10084",
    }
    

    MultipleNegativesRankingLoss

    @misc{oord2019representationlearningcontrastivepredictive,
          title={Representation Learning with Contrastive Predictive Coding},
          author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
          year={2019},
          eprint={1807.03748},
          archivePrefix={arXiv},
          primaryClass={cs.LG},
          url={https://arxiv.org/abs/1807.03748},
    }
    
Downloads last month
16
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for hiudev/bge-m3-deepedu

Base model

BAAI/bge-m3
Finetuned
(468)
this model

Papers for hiudev/bge-m3-deepedu