SentenceTransformer based on VoVanPhuc/sup-SimCSE-VietNamese-phobert-base

This is a sentence-transformers model finetuned from VoVanPhuc/sup-SimCSE-VietNamese-phobert-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Kỹ năng bảo mật bao gồm những gì?',
    'ều này giúp hỗ trợ duy trì cân bằng giữa sức khỏe tinh thần và thể chất.\n-\tQuản lý việc đe dọa trên môi trường mạng: Khả năng phát hiện và quản lý các trường hợp mâu thuẫn, gây xung đột, đe dọa trực tuyến trên không gian mạng là một kỹ năng quan trọng. Một môi trường trực tuyển lành mạnh được tạo ra khi công dân số có khả năng nhận diện, quản lý và giảm thiểu các nguy cơ liên quan đến bắt nạt, đe dọa, quấy rối,... bằng cách phát triển nhận thức xã hội, kỹ năng ra quyết định và giao tiếp hiệu quả. Khi được trang bị những kỹ năng này, công dân số sẽ chủ động bảo vệ bản thân trước những trường hợp bị dọa nạt trên môi trường trực tuyến và sẵn sàng có những biện pháp đối phó hiệu quả.\n-\tQuản lý an ninh mạng: Khả năng quản lý an ninh mạng bao gồm việc bảo vệ dữ liệu và thông tin cá nhân bằng cách tạo mật khẩu mạnh và đối phó với các loại tấn công. Mặc dù các tố chức, cơ quan thưòng có các hệ thống quản lý bảo mật riêng, các ứng dụng xây hệ thống bảo mật. Tuy nhiên, công dân số cần chủ động phòng ngừa và loại bỏ các mối đe dọa và bảo vệ dữ liệu cũng như thiết bị cá nhân. Đồng thời, họ phải luôn cảnh giác lỗ hổng bảo mật và xử lý kịp thời khi gặp sự cố.\n-\tQuản lý bảo mật: Kỹ năng bảo mật bao gồm việc cấn trọng khi chia sẻ thông tin cá nhân trực tuyến và sử dụng các công cụ bảo mật để bảo vệ dữ liệu khỏi kẻ xấu. Đặc biệt, việc sử dụng, lưu trữ, xử lý và chia sẻ thông tin cá nhân trong không gian số cần kết hợp với các công cụ bảo mật để bảo vệ thông tin cá nhân để không bị kẻ xấu đánh cắp thông tin làm ảnh hưởng danh tiếng, uy tín và nhân phẩm. Bên cạnh đó, công dân số cần tôn trọng quyền riêng tư và thông tin cá nhân của người khác\n-\tTư duy phê phán: Khả năng phân biệt bao gồm nhận diện tính đúng sai trong cách ứng xử, đánh giá thông tin hữu ích và có hại, cũng như phân biệt các nguồn thông tin đáng tin cậy và không đáng tin cậy. Công dân số cần nâng cao kỹ năng sử dụng máy tính, phần mềm, ứng dụng đồng thời hiểu rõ nhu cầu thông tin, điều hướng hiệu quả và đánh giá phê bình để thu thập và sắ',
    'a.\tSao chép ô\nExcel cho phép sao chép không chỉ nội dung mà còn định dạng của ô đó. Khi sao chép ta có thể có nhiều lựa chọn khác nhau như:\n-\tAll: Sao chép tất cả nội dung, định dạng...\n-\tFormulas: Chỉ sao chép công ức\n-\tValues: Chỉ sao chép giá trị, hay nội dung ô đó\n-\tFormats: Chỉ sao chép định dạng\n-\tComments: Chỉ sao chép chú thích\n-\tAll except borders: Sao chép tất cả trừ đường viền\n-\tColumn widths: Sao chép giá trị độ rộng của cột\n-\tFormulas and number formats: Sao chép cả công thức và định dạng số\n-\tValues and number formats: Sao chép giá trị và định dạng số\nb.\tDi chuyến các ô tỉnh\n-\tChọn các ô cần di chuyển\n-\tChọn lệnh Cut hoặc bấm tổ hợp phím Ctrl + X\n-\tĐưa chuột đến vị trí muốn dán\n-\tChọn lệnh Paste hoặc bấm Ctrl + V để dán các ô.\nc.\tXóa dữ liệu các ô\n-\tChọn các ô cần xoá dữ liệu\n-\tNhấn nút Clear trên thẻ Home',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 150,000 training samples
  • Columns: query, pos, and neg
  • Approximate statistics based on the first 1000 samples:
    query pos neg
    type string string string
    details
    • min: 13 tokens
    • mean: 16.31 tokens
    • max: 18 tokens
    • min: 209 tokens
    • mean: 249.37 tokens
    • max: 256 tokens
    • min: 50 tokens
    • mean: 214.27 tokens
    • max: 256 tokens
  • Samples:
    query pos neg
    Tab 'Files' trong Microsoft Teams có chức năng gì? ội nghị video, Chat nhóm, chia sẻ tài liệu và lịch làm việc, làm cho quá trình giao tiếp và họp tác trở nên thuận tiện hơn. Điểm mạnh của Microsoft Teams nằm ở khả năng tương tác và họp tác liền mạch, cung cấp một không gian làm việc ảo ở đó các nhóm có thể họp và làm việc cùng nhau một cách hiệu quả. Teams hỗ trợ tích họp tốt với các ứng dụng Office 365 khác như Word, Excel và PowerPoint, cũng như nhiều ứng dụng bên thứ ba. Các tính năng bảo mật và quản lý của Teams đảm bảo thông tin doanh nghiệp luôn được bảo vệ. Microsoft Teams đã nhanh chóng trở thành công cụ quan trọng cho nhiều tổ chức, giúp duy trì sự liên kết và hiệu quả trong làm việc trực tuyến.
    Bước 1: Tải xuống và cài đặt ứng dụng.
    - Truy cập trang web chính thức của Microsoft Teams tại: https://teams.microsoft.com.
    - Chọn phiên bản ứng dụng phù họp với hệ điều hành của bạn (Windows, macOS, ios, Android) và tải xuống.
    - Cài đặt ứng dụng trên thiết bị của bạn, tuân theo các bước hướng dẫn cài đặt.
    Bước 2: Tạo hoặc sử dụng t...
    Công nghệ thông tin đang phát triển mạnh mẽ và trở thành lĩnh vực không thế thiếu trong cuộc sống hiện đại. Thời kỳ hiện nay còn được gọi là thời đại kỹ thuật số, nơi công nghệ luôn thay đổi và phát triển nhanh chóng. Những tiến bộ khoa học công nghệ trong thế kỷ 21 đã tạo ra nhu cầu đào tạo những công dân chúng ta trở thành những công dân số. Công dân số là những người có kỹ năng khai thác, sử dụng Internet và công nghệ một cách an toàn và hiệu quả. Điều này không chỉ đế giải trí mà còn tìm kiếm thông tin, học tập, chia sẻ kiến thức, truyền thông, cũng như tìm hiếu kiến thức và pháp luật.
    Chương 1 cung cấp kiến thức tống quát về thế giới số, công dân số, các yếu tố và kỹ năng cần thiết với công dân số. Những nội dung về chuyến đổi số, số hóa, chữ ký số, chính phủ số, chỉnh phủ điện tử, văn hóa, đạo đức và pháp luật trong thế giới số. Nội dung chính của chương bao gồm:
    - Thế giới số;
    - Công dân số;
    - Chuyển đổi số;
    - Chỉnh phủ điện tử và chính phủ số;
    - Văn hóa, đạo đức và pháp luật tr...
    Tab 'Files' trong Microsoft Teams có chức năng gì? ội nghị video, Chat nhóm, chia sẻ tài liệu và lịch làm việc, làm cho quá trình giao tiếp và họp tác trở nên thuận tiện hơn. Điểm mạnh của Microsoft Teams nằm ở khả năng tương tác và họp tác liền mạch, cung cấp một không gian làm việc ảo ở đó các nhóm có thể họp và làm việc cùng nhau một cách hiệu quả. Teams hỗ trợ tích họp tốt với các ứng dụng Office 365 khác như Word, Excel và PowerPoint, cũng như nhiều ứng dụng bên thứ ba. Các tính năng bảo mật và quản lý của Teams đảm bảo thông tin doanh nghiệp luôn được bảo vệ. Microsoft Teams đã nhanh chóng trở thành công cụ quan trọng cho nhiều tổ chức, giúp duy trì sự liên kết và hiệu quả trong làm việc trực tuyến.
    Bước 1: Tải xuống và cài đặt ứng dụng.
    - Truy cập trang web chính thức của Microsoft Teams tại: https://teams.microsoft.com.
    - Chọn phiên bản ứng dụng phù họp với hệ điều hành của bạn (Windows, macOS, ios, Android) và tải xuống.
    - Cài đặt ứng dụng trên thiết bị của bạn, tuân theo các bước hướng dẫn cài đặt.
    Bước 2: Tạo hoặc sử dụng t...
    Thế giới số là một khái niệm mà hiện nay chưa có một định nghĩa rõ ràng cụ thể nào để mô tả chính xác. Trong giáo trình này, chúng tôi trình bày những nội dung cơ bản liên quan đến thế giới số. Thuật ngữ “Thế giới số” được nhắc đến theo giai đoạn phát triển của lĩnh vực công nghệ thông tin, điện tử và viễn thông, đặc biệt từ những năm 1990 khi Internet bùng nổ và công nghệ kỹ thuật số trở nên phố biến. Thế giới số mô tả không gian ảo và môi trường kỹ thuật số mà con người tạo ra thông qua Internet, máy tính, các thiết bị điện tử kết nối với nhau và công nghệ kỹ thuật số để truy cập dữ liệu, thông tin và tương tác giữa con người và công nghệ.
    Nói ngắn gọn thì thế giới số là một thuật ngữ mô tả sự phát triển không ngừng trong lĩnh vực công nghệ thông tin và công nghệ kỹ thuật số, tạo ra môi trường hỗ trợ con người tương tác thông qua Internet.
    Thế giới số chính là thời đại thông tin ngày nay, mang lại vô số tiện ích hỗ trợ cho cuộc sống của với các thiết bị công nghệ hiện đại. Nó hỗ trợ ...
    Tab 'Files' trong Microsoft Teams có chức năng gì? ội nghị video, Chat nhóm, chia sẻ tài liệu và lịch làm việc, làm cho quá trình giao tiếp và họp tác trở nên thuận tiện hơn. Điểm mạnh của Microsoft Teams nằm ở khả năng tương tác và họp tác liền mạch, cung cấp một không gian làm việc ảo ở đó các nhóm có thể họp và làm việc cùng nhau một cách hiệu quả. Teams hỗ trợ tích họp tốt với các ứng dụng Office 365 khác như Word, Excel và PowerPoint, cũng như nhiều ứng dụng bên thứ ba. Các tính năng bảo mật và quản lý của Teams đảm bảo thông tin doanh nghiệp luôn được bảo vệ. Microsoft Teams đã nhanh chóng trở thành công cụ quan trọng cho nhiều tổ chức, giúp duy trì sự liên kết và hiệu quả trong làm việc trực tuyến.
    Bước 1: Tải xuống và cài đặt ứng dụng.
    - Truy cập trang web chính thức của Microsoft Teams tại: https://teams.microsoft.com.
    - Chọn phiên bản ứng dụng phù họp với hệ điều hành của bạn (Windows, macOS, ios, Android) và tải xuống.
    - Cài đặt ứng dụng trên thiết bị của bạn, tuân theo các bước hướng dẫn cài đặt.
    Bước 2: Tạo hoặc sử dụng t...
    tác với dữ liệu và thông tin. Các ứng dụng này đa dạng từ các ứng dụng di động, phần mềm máy tính đến các ứng dụng trên web hoặc ứng dụng điều khiển thiết bị ứng dụng trong mọi lĩnh vực của đời sống. Ví dụ về sản phấm mà nền tảng cốt yếu dựa trên bộ sưu tập dữ liệu lớn, sử dụng các mô hình học máy để tạo ra ứng dụng ChatGPT và các ứng dụng thông minh mà chúng ta đang sử dụng ngày nay.
    - Bảo mật và an ninh mạng: Bảo vệ dữ liệu quan trọng, thông tin cá nhân và hệ thống mạng là yếu tố cực kỳ quan trọng khi tham gia vào môi trường thế giới số. Bên cạnh sự bảo vệ của các ứng dụng, phần mềm, hệ thống thiết bị bảo mật thì mỗi cá nhân, tổ chức cũng tự chủ động thực hiện các biện pháp để hạn chế rủi ro khi tham gia môi trường thế giới số. Tuyệt đối tuân thủ theo các quy định pháp luật về bảo mật dữ liệu và sử dụng an toàn.
    - Kỹ năng số và tương tác: Thế giới số là môi trường kết nối trên toàn thế giới do vậy mỗi cá nhân khi tham gia môi trường thế giới số này cần có các kỹ năng sử dụng, hiểu v...
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

Evaluation Dataset

train

  • Dataset: train
  • Size: 19,740 evaluation samples
  • Columns: query, pos, and neg
  • Approximate statistics based on the first 1000 samples:
    query pos neg
    type string string string
    details
    • min: 9 tokens
    • mean: 15.84 tokens
    • max: 29 tokens
    • min: 241 tokens
    • mean: 253.88 tokens
    • max: 256 tokens
    • min: 50 tokens
    • mean: 214.19 tokens
    • max: 256 tokens
  • Samples:
    query pos neg
    Microsoft Word hỗ trợ những tính năng nào? Nhiều phần mềm soạn thảo văn bản phổ biến giúp người dùng tạo, biên tập và định dạng văn bản một cách tiện lợi có thể kể đến như Microsoft Word, một công cụ trong bộ Office của Microsoft, nổi tiếng với giaọ diện thân thiện và đầy đủ tính năng. Google Docs mang đến sự linh hoạt với khả năng làm việc đồng thời trực tuyến. LibreOffice Writer, với ưu điểm mã nguồn mở, hỗ trợ nhiều định dạng và tích họp nhiều tính năng soạn thảo. Notion không chỉ là ứng dụng ghi chú mà còn giúp quản lý dự án và tài liệu liên quan. Scrivener được thiết kế đặc biệt cho viết sách và sáng tác, với khả năng tổ chức nội dung hiệu quả. Tùy thuộc vào nhu cầu cụ thể, người dùng có thể lựa chọn phần mềm phù họp để tối ưu hóa quá trình làm việc với văn bản.
    Trong tài liệu này, chúng tôi giới thiệu một công cụ xử lý văn bản mạnh mẽ và phổ biến là Microsoft Word, một phần quan trọng của bộ ứng dụng Microsoft Office. Được thiết kế để đáp ứng nhu cầu đa dạng của người dùng từ cá nhân đến doanh nghiệp, Word không chỉ là mộ...
    Công nghệ thông tin đang phát triển mạnh mẽ và trở thành lĩnh vực không thế thiếu trong cuộc sống hiện đại. Thời kỳ hiện nay còn được gọi là thời đại kỹ thuật số, nơi công nghệ luôn thay đổi và phát triển nhanh chóng. Những tiến bộ khoa học công nghệ trong thế kỷ 21 đã tạo ra nhu cầu đào tạo những công dân chúng ta trở thành những công dân số. Công dân số là những người có kỹ năng khai thác, sử dụng Internet và công nghệ một cách an toàn và hiệu quả. Điều này không chỉ đế giải trí mà còn tìm kiếm thông tin, học tập, chia sẻ kiến thức, truyền thông, cũng như tìm hiếu kiến thức và pháp luật.
    Chương 1 cung cấp kiến thức tống quát về thế giới số, công dân số, các yếu tố và kỹ năng cần thiết với công dân số. Những nội dung về chuyến đổi số, số hóa, chữ ký số, chính phủ số, chỉnh phủ điện tử, văn hóa, đạo đức và pháp luật trong thế giới số. Nội dung chính của chương bao gồm:
    - Thế giới số;
    - Công dân số;
    - Chuyển đổi số;
    - Chỉnh phủ điện tử và chính phủ số;
    - Văn hóa, đạo đức và pháp luật tr...
    Microsoft Word hỗ trợ những tính năng nào? Nhiều phần mềm soạn thảo văn bản phổ biến giúp người dùng tạo, biên tập và định dạng văn bản một cách tiện lợi có thể kể đến như Microsoft Word, một công cụ trong bộ Office của Microsoft, nổi tiếng với giaọ diện thân thiện và đầy đủ tính năng. Google Docs mang đến sự linh hoạt với khả năng làm việc đồng thời trực tuyến. LibreOffice Writer, với ưu điểm mã nguồn mở, hỗ trợ nhiều định dạng và tích họp nhiều tính năng soạn thảo. Notion không chỉ là ứng dụng ghi chú mà còn giúp quản lý dự án và tài liệu liên quan. Scrivener được thiết kế đặc biệt cho viết sách và sáng tác, với khả năng tổ chức nội dung hiệu quả. Tùy thuộc vào nhu cầu cụ thể, người dùng có thể lựa chọn phần mềm phù họp để tối ưu hóa quá trình làm việc với văn bản.
    Trong tài liệu này, chúng tôi giới thiệu một công cụ xử lý văn bản mạnh mẽ và phổ biến là Microsoft Word, một phần quan trọng của bộ ứng dụng Microsoft Office. Được thiết kế để đáp ứng nhu cầu đa dạng của người dùng từ cá nhân đến doanh nghiệp, Word không chỉ là mộ...
    Thế giới số là một khái niệm mà hiện nay chưa có một định nghĩa rõ ràng cụ thể nào để mô tả chính xác. Trong giáo trình này, chúng tôi trình bày những nội dung cơ bản liên quan đến thế giới số. Thuật ngữ “Thế giới số” được nhắc đến theo giai đoạn phát triển của lĩnh vực công nghệ thông tin, điện tử và viễn thông, đặc biệt từ những năm 1990 khi Internet bùng nổ và công nghệ kỹ thuật số trở nên phố biến. Thế giới số mô tả không gian ảo và môi trường kỹ thuật số mà con người tạo ra thông qua Internet, máy tính, các thiết bị điện tử kết nối với nhau và công nghệ kỹ thuật số để truy cập dữ liệu, thông tin và tương tác giữa con người và công nghệ.
    Nói ngắn gọn thì thế giới số là một thuật ngữ mô tả sự phát triển không ngừng trong lĩnh vực công nghệ thông tin và công nghệ kỹ thuật số, tạo ra môi trường hỗ trợ con người tương tác thông qua Internet.
    Thế giới số chính là thời đại thông tin ngày nay, mang lại vô số tiện ích hỗ trợ cho cuộc sống của với các thiết bị công nghệ hiện đại. Nó hỗ trợ ...
    Microsoft Word hỗ trợ những tính năng nào? Nhiều phần mềm soạn thảo văn bản phổ biến giúp người dùng tạo, biên tập và định dạng văn bản một cách tiện lợi có thể kể đến như Microsoft Word, một công cụ trong bộ Office của Microsoft, nổi tiếng với giaọ diện thân thiện và đầy đủ tính năng. Google Docs mang đến sự linh hoạt với khả năng làm việc đồng thời trực tuyến. LibreOffice Writer, với ưu điểm mã nguồn mở, hỗ trợ nhiều định dạng và tích họp nhiều tính năng soạn thảo. Notion không chỉ là ứng dụng ghi chú mà còn giúp quản lý dự án và tài liệu liên quan. Scrivener được thiết kế đặc biệt cho viết sách và sáng tác, với khả năng tổ chức nội dung hiệu quả. Tùy thuộc vào nhu cầu cụ thể, người dùng có thể lựa chọn phần mềm phù họp để tối ưu hóa quá trình làm việc với văn bản.
    Trong tài liệu này, chúng tôi giới thiệu một công cụ xử lý văn bản mạnh mẽ và phổ biến là Microsoft Word, một phần quan trọng của bộ ứng dụng Microsoft Office. Được thiết kế để đáp ứng nhu cầu đa dạng của người dùng từ cá nhân đến doanh nghiệp, Word không chỉ là mộ...
    tác với dữ liệu và thông tin. Các ứng dụng này đa dạng từ các ứng dụng di động, phần mềm máy tính đến các ứng dụng trên web hoặc ứng dụng điều khiển thiết bị ứng dụng trong mọi lĩnh vực của đời sống. Ví dụ về sản phấm mà nền tảng cốt yếu dựa trên bộ sưu tập dữ liệu lớn, sử dụng các mô hình học máy để tạo ra ứng dụng ChatGPT và các ứng dụng thông minh mà chúng ta đang sử dụng ngày nay.
    - Bảo mật và an ninh mạng: Bảo vệ dữ liệu quan trọng, thông tin cá nhân và hệ thống mạng là yếu tố cực kỳ quan trọng khi tham gia vào môi trường thế giới số. Bên cạnh sự bảo vệ của các ứng dụng, phần mềm, hệ thống thiết bị bảo mật thì mỗi cá nhân, tổ chức cũng tự chủ động thực hiện các biện pháp để hạn chế rủi ro khi tham gia môi trường thế giới số. Tuyệt đối tuân thủ theo các quy định pháp luật về bảo mật dữ liệu và sử dụng an toàn.
    - Kỹ năng số và tương tác: Thế giới số là môi trường kết nối trên toàn thế giới do vậy mỗi cá nhân khi tham gia môi trường thế giới số này cần có các kỹ năng sử dụng, hiểu v...
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • gradient_accumulation_steps: 16
  • learning_rate: 3e-05
  • weight_decay: 0.01
  • num_train_epochs: 2
  • warmup_ratio: 0.05

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 16
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss train loss
1.7065 500 0.158 0.2567

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.0
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.3.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
4
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for namngo/CDS_retrival

Finetuned
(5)
this model

Space using namngo/CDS_retrival 1

Papers for namngo/CDS_retrival