| | --- |
| | license: other |
| | language: |
| | - vi |
| | - en |
| | library_name: transformers |
| | pipeline_tag: sentence-similarity |
| | tags: |
| | - cls token |
| | --- |
| | |
| | ## <a name="sentences-transformers"></a> Using Semantic-base-vi with `transformers` |
| |
|
| | ### Installation <a name="install2"></a> |
| | - Install `transformers`: |
| |
|
| | - `pip install -U transformers` |
| |
|
| | - Install `pyvi` for word segmentation: |
| |
|
| | - `pip install pyvi` |
| |
|
| | ### Example usage <a name="usage2"></a> |
| |
|
| | ```python |
| | import torch |
| | from transformers import AutoModel, AutoTokenizer |
| | from pyvi.ViTokenizer import tokenize |
| | |
| | tokenizer = AutoTokenizer.from_pretrained("linhphanff/semantic-base-vi") |
| | model = AutoModel.from_pretrained("linhphanff/semantic-base-vi") |
| | |
| | sentences = [ |
| | 'Học sinh cần được hướng dẫn kỹ năng học tập.', |
| | 'Thời tiết hôm nay thật đẹp và mát mẻ.', |
| | 'Công nghệ AI đang thay đổi thế giới từng ngày.', |
| | 'Người dân đổ xô đi mua sắm dịp cuối năm.', |
| | 'Giá xăng dầu giảm mạnh so với tháng trước.', |
| | 'Chương trình khuyến mãi hấp dẫn đang diễn ra tại các siêu thị.', |
| | 'Đội tuyển Việt Nam vô địch giải bóng đá Đông Nam Á.', |
| | 'Thủ tướng phát biểu tại hội nghị quốc tế về môi trường.', |
| | 'Nhiều tuyến đường ở thành phố Hồ Chí Minh bị ngập nặng sau cơn mưa lớn.', |
| | 'Sách là nguồn tri thức vô giá cho mỗi con người.' |
| | ] |
| | |
| | sentences = [tokenize(sentence) for sentence in sentences] |
| | |
| | inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt") |
| | |
| | with torch.no_grad(): |
| | embeddings = model(**inputs, output_hidden_states=True, return_dict=True).pooler_output |
| | ``` |