Hugging Face's logo Hugging Face
  • Models
  • Datasets
  • Spaces
  • Buckets new
  • Docs
  • Enterprise
  • Pricing

  • Log In
  • Sign Up

phuocsang
/
contrastive-encoder

Sentence Similarity
sentence-transformers
Safetensors
xlm-roberta
feature-extraction
dense
Generated from Trainer
dataset_size:5600
loss:BatchHardTripletLoss
text-embeddings-inference
Model card Files Files and versions
xet
Community

Instructions to use phuocsang/contrastive-encoder with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

  • Libraries
  • sentence-transformers

    How to use phuocsang/contrastive-encoder with sentence-transformers:

    from sentence_transformers import SentenceTransformer
    
    model = SentenceTransformer("phuocsang/contrastive-encoder")
    
    sentences = [
        "Công ty truyền tải điện quốc gia Bồ Đào Nha là Redes Energéticas Nacionais (REN), sử dụng mô hình phức tạp để dự báo thời tiết, đặc biệt là kiểu gió, và các chương trình máy tính để tính toán năng lượng từ các nhà máy năng lượng tái tạo khác nhau. Trước khi phát triển năng lượng mặt trời và gió, Bồ Đào Nha sản xuất điện từ các nhà máy thuỷ điện trên các sông trong nhiều thập niên. Các chương trình mới kết hợp năng lượng gió và nước: Các tua bin gió bơm nước lên phía trên vào ban đêm, tức thời gian có gió mạnh nhất; sau đó nước chảy xuống vào ban ngày, tạo ra điện năng khi có nhu cầu sử dụng cao hơn. Hệ thống phân phối của Bồ Đào Nha nay là một đường hai chiều, thay vì chỉ phân phối điện năng, nó còn thu điện năng từ các máy phát nhỏ như các tấm pin năng lượng mặt trời trên mái nhà. Chính phủ khuyến khích phân phối như vậy bằng cách áp mức giá cao cho những người bán điện năng từ quang năng sản xuất trên mái nhà.[SEP]Chính phủ Bồ Đào Nha không sử dụng hệ thống phân phối điện một chiều chỉ để thu điện từ các tấm pin mặt trời. Thực tế, Bồ Đào Nha đã phát triển một chương trình tích hợp năng lượng gió và nước, sử dụng các tua bin gió để bơm nước lên cao, tối ưu hóa việc",
        "Sự tồn tại của con người ở những vùng vốn có điều kiện khắc nghiệt đối với cuộc sống như Nam Cực hay ngoài không gian rất hạn chế về mặt thời gian và chỉ tồn tại ở những lĩnh vực thám hiểm, nghiên cứu khoa học, quân sự và công nghiệp. Nhất là sự sống trên không gian vũ trụ, trong quá khứ và hiện tại, chưa có quá 13 người từng sống trên không gian cùng lúc. Giữa năm 1969 và 1972, chỉ có hai người bước đi cùng lúc trên Mặt Trăng. Đến năm 2006, chưa có một thiên thể tự nhiên nào khác có bước chân của con người ngoại trừ Mặt Trăng mặc dù luôn có con người hiện diện trên trạm không gian quốc tế từ ngày 31 tháng 10 năm 2000. Từ năm 1800 đến 2000, dân số con người đã tăng lên 6 lần: từ 1 tỉ lên 5 tỉ. Vào năm 2004, khoảng 2,5 tỉ trên 6,3 tỉ người (39.7%) sống trong những vùng nông thôn, và con số này sẽ tăng mạnh trong thế kỉ 21. Vấn đề mà những người trong những đô thị lớn đang gặp phải là ô nhiễm, tội ác và nghèo đói, nhất là ở trung tâm và những khu vực vùng ven.[SEP]Không, thiên thể duy nhất có dấu chân của con người tính đến năm 2006 là Mặt Trăng, không phải sao Hỏa.",
        "Roma đã bắt đầu sáp nhập các tỉnh mới của nó từ thế kỷ thứ 3 trước Công nguyên, và quá trình này kéo dài suốt bốn thế kỷ trước khi lãnh thổ của nó đạt đến mức cực đỉnh, và theo chiều hướng là một \"đế chế\" trong khi vẫn cai trị như là một nhà nước cộng hòa. Các tỉnh Cộng hòa thì được cai quản bởi các viên cựu chấp chính quan và cựu pháp quan, vốn được bầu hàng năm và nắm giữ quyền lực tuyệt đối . Với việc tập trung quá nhiều của cải cũng như sức mạnh quân đội trong tay của một vài người thông qua quyền cai trị các tỉnh, nó đã trở thành nhân tố chính trong quá trình chuyển từ nhà nnước cộng hòa sang chế độ quân chủ chuyên chế.[SEP]việc tập trung quyền lực trong tay một vài người thông qua quyền cai trị các tỉnh đã củng cố thêm thể chế cộng hòa của La Mã, giúp duy trì sự ổn định và ngăn chặn chuyển đổi sang chế độ quân chủ.",
        "Đa số dân chúng sử dụng một trong những ngôn ngữ Iran, gồm ngôn ngữ chính thức, tiếng Ba Tư. Trong khi về số lượng, tỷ lệ và cách định nghĩa các dân tộc khác nhau ở Iran hiện vẫn còn đang gây tranh cãi, các nhóm sắc tộc chính và thiểu số gồm người Ba Tư (51%), Azeris (24%), Gilaki và Mazandarani (8%), Kurds (7%), Ả rập (3%), Baluchi (2%), Lurs (2%), Turkmens (2%), Qashqai, Armenia, Ba Tư Do Thái, Gruzia, người Assyri, Circassia, Tats,Pashtuns và các nhóm khác (1%). Số lượng người sử dụng tiếng Ba Tư là tiếng mẹ đẻ tại Iran được ước tính khoảng 40 triệu. Phương tiện truyền thông đại chúng, hệ thống giáo dục và việc di cư tới các thành phố lớn khiến đa số dân Iran nói và hiểu được tiếng Ba Tư. Iran có tỷ lệ biết đọc viết là 79.4%. Đa số dân Iran là người Hồi giáo; 90% thuộc nhánh Shi'a của Đạo Hồi, tôn giáo chính thức của quốc gia và khoảng 9% thuộc nhánh Sunni (đa số họ là người Kurds). Số còn lại là thiểu số theo các tôn giáo phi Hồi giáo, chủ yếu là Bahá'ís, Mandeans, Hỏa giáo, Do Thái giáo và Thiên chúa giáo. Ba nhóm thiểu số tôn giáo cuối cùng ở trên được công nhận và bảo vệ, và được dành riêng ghế bên trong Majles (Nghị viện). Trái lại, Đức tin Bahá'í, thiểu số tôn giáo lớn nhất ở Iran, không được chính thức công nhân, và từng bị đàn áp trong thời gian tồn tại ở Iran. Từ cuộc cách mạng năm 1979 những vụ đàn áp và hành quyết ngày càng tăng. Những vụ đàn áp Bahá'ís gần đây khiến Cao uỷ nhân quyền Liên hiệp quốc phải đề cập trong bản báo cáo ngày 20 tháng 3 năm 2006 rằng \"những hành động đàn áp tôn giáo ngày càng tăng gần đây cho thấy tình hình đối xử với các thiểu số tôn giáo ở Iran, trên thực tế, đang xấu đi.\"[SEP]Người dân Iran chủ yếu giao tiếp bằng tiếng Ba Tư, ngôn ngữ chính thức của quốc gia."
    ]
    embeddings = model.encode(sentences)
    
    similarities = model.similarity(embeddings, embeddings)
    print(similarities.shape)
    # [4, 4]
  • Notebooks
  • Google Colab
  • Kaggle
contrastive-encoder
2.26 GB
Ctrl+K
Ctrl+K
  • 1 contributor
History: 2 commits
phuocsang's picture
phuocsang
Finished contrastive learning stage 1
7ccac51 verified 8 months ago
  • 1_Pooling
    Finished contrastive learning stage 1 8 months ago
  • .gitattributes
    1.57 kB
    Finished contrastive learning stage 1 8 months ago
  • README.md
    50.4 kB
    Finished contrastive learning stage 1 8 months ago
  • config.json
    657 Bytes
    Finished contrastive learning stage 1 8 months ago
  • config_sentence_transformers.json
    283 Bytes
    Finished contrastive learning stage 1 8 months ago
  • model.safetensors
    2.24 GB
    xet
    Finished contrastive learning stage 1 8 months ago
  • modules.json
    229 Bytes
    Finished contrastive learning stage 1 8 months ago
  • sentence_bert_config.json
    57 Bytes
    Finished contrastive learning stage 1 8 months ago
  • sentencepiece.bpe.model
    5.07 MB
    xet
    Finished contrastive learning stage 1 8 months ago
  • special_tokens_map.json
    280 Bytes
    Finished contrastive learning stage 1 8 months ago
  • tokenizer.json
    17.1 MB
    xet
    Finished contrastive learning stage 1 8 months ago
  • tokenizer_config.json
    1.18 kB
    Finished contrastive learning stage 1 8 months ago