Sentence Similarity
PyTorch
Safetensors
sentence-transformers
Transformers
Vietnamese
generic
roberta
feature-extraction
Instructions to use bkai-foundation-models/vietnamese-bi-encoder with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use bkai-foundation-models/vietnamese-bi-encoder with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("bkai-foundation-models/vietnamese-bi-encoder") sentences = [ "Làm thế nào Đại học Bách khoa Hà Nội thu hút sinh viên quốc tế?", "Đại học Bách khoa Hà Nội đã phát triển các chương trình đào tạo bằng tiếng Anh để làm cho việc học tại đây dễ dàng hơn cho sinh viên quốc tế.", "Môi trường học tập đa dạng và sự hỗ trợ đầy đủ cho sinh viên quốc tế tại Đại học Bách khoa Hà Nội giúp họ thích nghi nhanh chóng.", "Hà Nội có khí hậu mát mẻ vào mùa thu.", "Các món ăn ở Hà Nội rất ngon và đa dạng." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [5, 5] - Transformers
How to use bkai-foundation-models/vietnamese-bi-encoder with Transformers:
# Load model directly from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bkai-foundation-models/vietnamese-bi-encoder") model = AutoModel.from_pretrained("bkai-foundation-models/vietnamese-bi-encoder") - Notebooks
- Google Colab
- Kaggle
Về việc sử dụng negative sample
#2
by anhnct - opened
Bạn cho mình hỏi việc sử dụng negative sample ở đây chỉ dùng inbatch negative, hay có sử dụng thêm hard negative không vậy
Bọn mình có sử dụng thêm hard negatives nữa nhé bạn.
Mình cảm ơn
Mình có thấy cấu hình training của bạn ntn:
MSMACRO: ~ 4GB
SQuAD v2: ~ 30 MB
Legal Text Retrieval Zalo 2021: ~ 200 MB
Cấu hình GPU: 1 card GPU A100 40GB
Thời gian training: ~ 1h / epoch
Không biết cụ thể số lượng sample của từng tập cụ thể là ntn bạn nhỉ