Instructions to use phi010402/finetune-alqac-question-generation with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use phi010402/finetune-alqac-question-generation with sentence-transformers:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("phi010402/finetune-alqac-question-generation")

sentences = [
    "Trong trường hợp nào nghĩa vụ không được bù trừ?",
    "Bản án sơ thẩm\n\n1. Tòa án ra bản án nhân danh nước Cộng hoà xã hội chủ nghĩa Việt Nam.\n\n2. Bản án gồm có phần mở đầu, phần nội dung vụ án và nhận định và phần quyết định của Tòa án, cụ thể như sau:\n\na) Trong phần mở đầu phải ghi rõ tên Tòa án xét xử sơ thẩm; số và ngày thụ lý vụ án; số bản án và ngày tuyên án; họ, tên của thành viên Hội đồng xét xử, Thư ký phiên tòa, Kiểm sát viên, người giám định, người phiên dịch; tên, địa chỉ của người khởi kiện, người bị kiện, người có quyền lợi, nghĩa vụ liên quan; cơ quan, tổ chức khởi kiện; người đại diện hợp pháp, người bảo vệ quyền và lợi ích hợp pháp của đương sự; đối tượng khởi kiện; số, ngày, tháng, năm của quyết định đưa vụ án ra xét xử; xét xử công khai hoặc xét xử kín; thời gian và địa điểm xét xử;\n\nb) Trong phần nội dung vụ án và nhận định của Tòa án phải ghi yêu cầu khởi kiện của người khởi kiện, khởi kiện của cơ quan, tổ chức; đề nghị, yêu cầu độc lập của người có quyền lợi, nghĩa vụ liên quan.\n\nTòa án phải căn cứ vào kết quả tranh tụng, các chứng cứ đã được xem xét tại phiên tòa để phân tích, đánh giá, nhận định đầy đủ, khách quan về các tình tiết của vụ án, những căn cứ pháp luật, án lệ (nếu có) mà Tòa án áp dụng để chấp nhận hoặc không chấp nhận yêu cầu, đề nghị của đương sự, người bảo vệ quyền và lợi ích hợp pháp của đương sự và giải quyết các vấn đề khác có liên quan;\n\nc) Trong phần quyết định phải ghi rõ các căn cứ pháp luật, quyết định của Hội đồng xét xử về từng vấn đề phải giải quyết trong vụ án, về áp dụng biện pháp khẩn cấp tạm thời, về án phí, chi phí tố tụng và quyền kháng cáo đối với bản án; trường hợp có quyết định phải thi hành ngay thì phải ghi rõ quyết định đó.\n\n3. Khi xét xử lại vụ án mà bản án, quyết định đã bị hủy một phần hoặc toàn bộ theo quyết định giám đốc thẩm, tái thẩm, Tòa án phải giải quyết vấn đề tài sản, nghĩa vụ đã được thi hành theo bản án, quyết định có hiệu lực pháp luật nhưng bị hủy và ghi rõ trong bản án.",
    "Thành phần Hội đồng xét xử sơ thẩm\n\nHội đồng xét xử sơ thẩm gồm một Thẩm phán và 02 Hội thẩm nhân dân, trừ trường hợp quy định tại khoản 1 Điều 249 của Luật này. Hội đồng xét xử sơ thẩm có thể gồm 02 Thẩm phán và 03 Hội thẩm nhân dân trong trường hợp sau đây:\n\n1. Khiếu kiện quyết định hành chính, hành vi hành chính của Ủy ban nhân dân cấp tỉnh, Chủ tịch Ủy ban nhân dân cấp tỉnh liên quan đến nhiều đối tượng;\n\n2. Vụ án phức tạp.",
    "Những trường hợp không được bù trừ nghĩa vụ\n\nNghĩa vụ không được bù trừ trong trường hợp sau đây:\n\n1. Nghĩa vụ đang có tranh chấp;\n\n2. Nghĩa vụ bồi thường thiệt hại do xâm phạm tính mạng, sức khoẻ, danh dự, nhân phẩm, uy tín;\n\n3. Nghĩa vụ cấp dưỡng;\n\n4. Nghĩa vụ khác do luật quy định."
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]

Notebooks
Google Colab
Kaggle

SentenceTransformer based on truro7/vn-law-embedding

This is a sentence-transformers model finetuned from truro7/vn-law-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: truro7/vn-law-embedding
Maximum Sequence Length: 512 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phi010402/finetune-alqac-question-generation")
# Run inference
sentences = [
    'Công dân có quyền lựa chọn nghề nghiệp như thế nào?',
    '1. Công dân có quyền làm việc, lựa chọn nghề nghiệp, việc làm và nơi làm việc.\n\n2. Người làm công ăn lương được bảo đảm các điều kiện làm việc công bằng, an toàn; được hưởng lương, chế độ nghỉ ngơi.\n\n3. Nghiêm cấm phân biệt đối xử, cưỡng bức lao động, sử dụng nhân công dưới độ tuổi lao động tối thiểu.',
    'Trách nhiệm đánh giá viên chức\n\n1. Người đứng đầu đơn vị sự nghiệp công lập có trách nhiệm tổ chức việc đánh giá viên chức thuộc thẩm quyền quản lý.\n\n2. Căn cứ vào điều kiện cụ thể, người đứng đầu đơn vị sự nghiệp công lập thực hiện việc đánh giá hoặc phân công, phân cấp việc đánh giá viên chức thuộc thẩm quyền quản lý. Người được giao thẩm quyền đánh giá viên chức phải chịu trách nhiệm trước người đứng đầu đơn vị sự nghiệp công lập về kết quả đánh giá.\n\n3. Người có thẩm quyền bổ nhiệm chịu trách nhiệm đánh giá viên chức quản lý trong đơn vị sự nghiệp công lập.\n\n4. Chính phủ quy định chi tiết trình tự, thủ tục đánh giá viên chức quy định tại Điều này.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

Size: 3,513 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 8 tokens
mean: 23.11 tokens
max: 74 tokens

min: 14 tokens
mean: 232.4 tokens
max: 512 tokens

	anchor	positive
type	string	string
details	min: 8 tokens mean: 23.11 tokens max: 74 tokens	min: 14 tokens mean: 232.4 tokens max: 512 tokens

Samples:

anchor	positive
`Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là căn cứ để cơ quan có thẩm quyền thực hiện việc cấp giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản?`	Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường 1. Quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường là một trong các căn cứ để cơ quan có thẩm quyền thực hiện các việc sau đây: a) Cấp, điều chỉnh giấy phép khai thác khoáng sản đối với dự án đầu tư khai thác khoáng sản; b) Phê duyệt kế hoạch thăm dò, kế hoạch phát triển mỏ đối với dự án đầu tư thăm dò, khai thác dầu khí; c) Phê duyệt báo cáo nghiên cứu khả thi đối với dự án đầu tư theo phương thức đối tác công tư; d) Kết luận thẩm định báo cáo nghiên cứu khả thi đối với dự án đầu tư xây dựng; đ) Cấp giấy phép môi trường; e) Cấp giấy phép nhận chìm ở biển; quyết định giao khu vực biển; g) Quyết định đầu tư đối với dự án đầu tư không thuộc đối tượng quy định tại các điểm a, b, c, d, đ và e khoản này. 2. Trừ dự án đầu tư liên quan đến bí mật nhà nước, cơ quan thẩm định gửi quyết định phê duyệt kết quả thẩm định báo cáo đánh giá tác động môi trường cho chủ dự án đầu tư và cơ qu...
`Các hành vi nào bị nghiêm cấm trong quá trình cung cấp thông tin?`	Các hành vi bị nghiêm cấm 1. Cố ý cung cấp thông tin sai lệch, không đầy đủ, trì hoãn việc cung cấp thông tin; hủy hoại thông tin; làm giả thông tin. 2. Cung cấp hoặc sử dụng thông tin để chống lại Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam, phá hoại chính sách đoàn kết, kích động bạo lực. 3. Cung cấp hoặc sử dụng thông tin nhằm xúc phạm danh dự, nhân phẩm, uy tín, gây kỳ thị về giới, gây thiệt hại về tài sản của cá nhân, cơ quan, tổ chức. 4. Cản trở, đe dọa, trù dập người yêu cầu, người cung cấp thông tin.
`Thời hạn công khai thông báo thụ lý vụ án của Tòa án là bao lâu kể từ ngày Tòa án thụ lý?`	Công khai thông tin về vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng do tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện 1. Tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng khởi kiện vụ án dân sự về bảo vệ quyền lợi người tiêu dùng vì lợi ích công cộng có trách nhiệm công khai thông báo thụ lý vụ án của Tòa án về việc khởi kiện trong thời hạn 07 ngày làm việc kể từ ngày Tòa án thụ lý. 2. Việc công khai thông báo thụ lý vụ án được thực hiện bằng hình thức niêm yết tại trụ sở và đăng tải trên trang thông tin điện tử, phần mềm ứng dụng (nếu có) của tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng tối thiểu 15 ngày kể từ ngày niêm yết, đăng tải. 3. Trong thời hạn 07 ngày làm việc kể từ ngày kết thúc vụ án, tổ chức xã hội tham gia bảo vệ quyền lợi người tiêu dùng có trách nhiệm công khai kết quả giải quyết vụ án theo hình thức, thời hạn quy định tại khoản 2 Điều này.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Evaluation Dataset

Unnamed Dataset

Size: 100 evaluation samples
Columns: anchor and positive
Approximate statistics based on the first 100 samples:
anchor positive
type string string
details
min: 11 tokens
mean: 23.62 tokens
max: 57 tokens

min: 27 tokens
mean: 253.72 tokens
max: 512 tokens

	anchor	positive
type	string	string
details	min: 11 tokens mean: 23.62 tokens max: 57 tokens	min: 27 tokens mean: 253.72 tokens max: 512 tokens

Samples:

anchor	positive
`Hạ tầng bảo vệ môi trường của làng nghề bao gồm những gì?`	Bảo vệ môi trường làng nghề 1. Làng nghề phải có phương án bảo vệ môi trường, có tổ chức tự quản về bảo vệ môi trường và hạ tầng bảo vệ môi trường. Hạ tầng bảo vệ môi trường của làng nghề bao gồm: a) Có hệ thống thu gom nước thải, nước mưa bảo đảm nhu cầu tiêu thoát nước của làng nghề; b) Hệ thống thu gom, thoát nước và xử lý nước thải tập trung (nếu có) bảo đảm nước thải sau xử lý đáp ứng yêu cầu về bảo vệ môi trường; c) Có điểm tập kết chất thải rắn đáp ứng yêu cầu kỹ thuật về bảo vệ môi trường; khu xử lý chất thải rắn (nếu có) bảo đảm quy định về quản lý chất thải rắn hoặc có phương án vận chuyển chất thải rắn đến khu xử lý chất thải rắn nằm ngoài địa bàn. 2. Cơ sở, hộ gia đình sản xuất trong làng nghề phải xây dựng và thực hiện biện pháp bảo vệ môi trường theo quy định của pháp luật; thực hiện biện pháp giảm thiểu tiếng ồn, độ rung, ánh sáng, bụi, bức xạ nhiệt, khí thải, nước thải và xử lý ô nhiễm tại chỗ; thu gom, phân loại, lưu giữ, xử lý chất thải rắn theo quy định của pháp...
`Công nhân nào được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp?`	`Đối tượng được hưởng chính sách hỗ trợ về nhà lưu trú công nhân trong khu công nghiệp 1. Công nhân đang làm việc tại doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp. 2. Doanh nghiệp kinh doanh kết cấu hạ tầng khu công nghiệp; doanh nghiệp, hợp tác xã, liên hiệp hợp tác xã sản xuất trong khu công nghiệp đầu tư xây dựng nhà lưu trú công nhân.`
`Khi nào Chủ tọa phiên tòa hỏi các bên có yêu cầu hỏi vấn đề gì nữa không?`	Kết thúc việc hỏi tại phiên tòa Khi nhận thấy các tình tiết của vụ án đã được xem xét đầy đủ thì Chủ tọa phiên tòa hỏi Kiểm sát viên, đương sự, người bảo vệ quyền và lợi ích hợp pháp của đương sự và những người tham gia tố tụng khác xem họ có yêu cầu hỏi vấn đề gì nữa không; trường hợp có người yêu cầu và xét thấy yêu cầu đó là có căn cứ thì Chủ tọa phiên tòa quyết định tiếp tục việc hỏi.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
num_train_epochs: 10
warmup_ratio: 0.1
bf16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 10
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss	Validation Loss
0.0091	1	0.0461	-
1.3636	150	0.0337	0.0103
2.7273	300	0.0118	0.0100
4.0909	450	0.0084	0.0062
5.4545	600	0.0064	0.0035
6.8182	750	0.0055	0.0044
8.1818	900	0.0023	0.0060
9.5455	1050	0.003	0.0046

Framework Versions

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.51.3
PyTorch: 2.6.0+cu124
Accelerate: 1.5.2
Datasets: 3.6.0
Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}