Sentence Similarity
sentence-transformers
TensorBoard
Safetensors
roberta
feature-extraction
dense
Generated from Trainer
dataset_size:6120
loss:MultipleNegativesRankingLoss
Instructions to use thuan-NM/Chatbot-Model with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use thuan-NM/Chatbot-Model with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("thuan-NM/Chatbot-Model") sentences = [ "giới thiệu", "khai but dau xuan báo cáo thêm vào series của tôi bài đăng này đã không được cập nhật trong 2 năm đối với người quan tâm đến an ninh mạng hay có kiến thức về mạng máy tính thì chắc không còn xa lạ với phần mềm wireshark wireshark được sử dụng để phân tích mạng network packet analyzer công dụng của ứng dụng này là dùng để bắt phân tích và xác định các vấn đề có liên quan đến network bao gồm kết nối chậm rớt gói tin hoặc các truy cập bất thường i cài đặt wireshark bạn có thể tải xuống bản phát hành chính thức tại httpswwwwiresharkorgdownloadhtml ở đây bạn hãy chọn phiên bản tương ứng với máy của mình và tải xuống i i giới thiệu về giao diện bây giờ bạn đã cài đặt wireshark tiếp theo chúng ta sẽ khám phá về giao diện của wireshark hình bên dưới hiển thị giao diện người dùng của wireshark như bạn thường thấy sau khi một số gói tin được bắt hoặc tải xuống cách thực hiện sẽ được mô tả sau giao diện người dùng của wireshark cửa sổ chính của wireshark bao gồm các phần thường được biết đến từ nhiều chương trình g ui khác menu chính chứa các mục sau menu chính của wireshark menu này chứa các mục open và merge capture files save print export capture files và quit menu này chứa các mục find a packet time reference hoặc đánh dấu một hoặc nhiều gói tin xử lý các cấu hình và đặt tùy chọn của bạn menu này chứa các mục để chuyển đến một gói cụ thể như back forward go to packet menu này cho phép bạn bắt đầu và dừng bắt gói tin và chỉnh sửa các bộ lọc menu này chứa các mục để thao tác các bộ lọc bật hoặc tắt phân tích các giao thức giải mã và theo dõi luồng menu này sẽ hiển thị các cửa sổ thống kê khác nhau bao gồm tóm tắt các gói đã được thu thập hiển thị thống kê phân cấp giao thức và nhiều công dụng khác menu này chứa các mục để hiển thị các thống kê mạng liên quan đến điện thoại menu này chứa các mục để hiển thị thống kê không dây bluetooth và i ee e 80211 menu này chứa các công cụ khác nhau có sẵn trong wireshark chẳng hạn như tạo quy tắc a cl tường lửa menu này chứa các mục để giúp người dùng chẳng hạn như truy cập vào một số trợ giúp cơ bản các trang hướng dẫn sử dụng các công cụ dòng lệnh khác nhau truy cập trực tuyến vào một số trang web và hộp thoại giới thiệu thông thường thanh công cụ chính cho phép truy cập nhanh vào các mục thường dùng từ menu thanh công cụ bộ lọc cho phép người dùng đặt bộ lọc hiển thị để lọc gói nào được hiển thị ngăn danh sách gói hiển thị một bản tóm tắt của mỗi gói tin được thu thập bằng cách nhấp vào các gói trong ngăn này bạn kiểm soát những gì được hiển thị trong hai ngăn còn lại packet list ngăn chi tiết hiển thị chi tiết hơn về gói được chọn trong ngăn danh sách gói ngăn này hiển thị các giao thức và trường giao thức của gói được chọn packet details ngăn byte hiển thị dữ liệu từ gói tin được chọn trong packet list và đánh dấu trường được chọn trong packet details và hiển thị dưới dạng hexdump packet bytes ngăn packet diagram hiển thị gói được chọn trong packet list dưới dạng sơ đồ kiểu sách giáo khoa thanh trạng thái hiển thị một số thông tin chi tiết về trạng thái chương trình hiện tại và dữ liệu đã thu thập the statusbar i ii cách sử dụng wireshark cơ bản a cách bắt các gói tin trực tiếp trong wireshark khi bạn mở wireshark mà không bắt đầu bắt gói tin hoặc mở tệp nó sẽ hiển thị màn hình chào mừng liệt kê mọi tệp đã mở gần đây và các giao diện bắt gói tin có sẵn hoạt động mạng cho mỗi giao diện sẽ được hiển thị trong một đường gấp khúc bên cạnh tên giao diện bạn có thể chọn nhiều hơn một giao diện và bắt đồng thời nhiều hoạt động mạng bạn có thể bấm vào phần bánh răng ở phần thanh công cụ chính để cài đặt input output của các hoạt động mạng để bắt đầu capture chúng ta có những cách sau bạn có thể nhấp đúp vào một trong những hoạt động mạng trên màn hình chào mừng bạn có thể chọn một trong những hoạt động mạng trên màn hình chào mừng sau đó chọn capture start hoặc nhấp vào nút trên thanh công cụ chính b cách xem các gói tin trong wireshark khi bạn đã bắt một số gói hoặc bạn đã mở tệp capture đã lưu trước đó bạn có thể xem các gói được hiển thị trong packet list bằng cách chỉ cần nhấp vào một gói trong packet list thao tác này sẽ hiển thị gói đã chọn trong packet details và packet bytes sau đó bạn có thể mở rộng bất kỳ phần nào của packet details để xem thông tin chi tiết về từng giao thức trong mỗi gói nhấp vào một mục trong packet details sẽ làm nổi bật các byte tương ứng trong chế độ xem byte ví dụ về gói t cp được chọn được hiển thị trong hình nó cũng có số acknowledgment trong tiêu đề t cp được chọn hiển thị trong dạng xem byte dưới dạng các byte đã chọn c cách lọc các gói tin trong wireshark wireshark có hai kiểu lọc là capture filters và display filters capture filter được sử dụng để lọc khi bắt gói tin từ các hoạt động mạng display filters cho phép bạn tập trung vào các gói tin mà bạn quan tâm trong khi ẩn những gói bạn không quan tâm chúng cho phép bạn chỉ hiển thị các gói dựa trên giao thức sự hiện diện của một trường the presence of a field giá trị của các trường the values of fields so sánh giữa các trường a comparison between fields và nhiều hơn nữa để chỉ hiển thị các gói tin chứa một giao thức cụ thể hãy nhập tên giao thức đó vào thanh công cụ display filter của cửa sổ wireshark và nhấn enter để áp dụng bộ lọc hình dưới cho thấy một ví dụ về những gì sẽ xảy ra khi bạn nhập udp vào thanh công cụ display filter wireshark cung cấp ngôn ngữ display filter cho phép bạn kiểm soát chính xác gói nào được hiển thị chúng có thể được sử dụng để kiểm tra sự hiện diện của một giao thức hoặc field giá trị của field hoặc thậm chí so sánh hai fields với nhau các phép so sánh này có thể được kết hợp với các toán tử logic như and và or và dấu ngoặc đơn thành các biểu thức phức tạp bạn có thể tạo display filter so sánh các giá trị bằng cách sử dụng một số toán tử so sánh khác nhau ví dụ để chỉ hiển thị các gói đến hoặc đi từ địa chỉ i p 1921681102 hãy sử dụng ipaddr 1921681102 bạn có thể tham khảo những cú pháp để sử dụng display filter hiệu quả hơn tại bảng cheat sheet bên dưới cyber security wireshark an ninh mạng mạng máy tính all rights reserved báo cáo thêm vào series của tôi", "báo cáo thêm vào series của tôi bài đăng này đã không được cập nhật trong 5 năm giới thiệu bad programmers worry about the code good programmers worry about data structures and their relationships linus torvalds thật là quá đúng đó là lý do tại sao mọi nhà tuyển dụng tìm kiếm một ứng viên có hiểu biết tốt về cấu trúc dữ liệu trong các các buổi phỏng vấn điều này cũng đúng cho các android developer trong blog này chúng ta sẽ đề cập đến tất cả các data structure cần thiết cho bất kỳ android developer mặc dù còn nhiều điều cần tìm hiểu chúng ta sẽ đề cập đến những câu hỏi được sử dụng nhiều nhất và thường xuyên nhất trong phỏng vấn android nguồn httpsblogmindorkscomandroid-developer-should-know-these-data-structures-for-next-interview data structure là gì data structure là định dạng tổ chức quản lý và lưu trữ dữ liệu cho phép truy cập và sửa đổi hiệu quả chính xác hơn data structure là tập hợp các giá trị dữ liệu mối quan hệ giữa chúng và các chức năng hoặc hoạt động có thể được áp dụng cho dữ liệu ví dụ chúng ta có một số dữ liệu của một người có name a bc và age 25 ở đây a bc có kiểu dữ liệu string và 25 là kiểu dữ liệu interger chúng ta có thể sắp xếp dữ liệu này dưới dạng bản ghi giống như bản ghi user sẽ có cả tên người dùng và tuổi trong đó bây giờ chúng ta có thể thu thập và lưu trữ các bản ghi người dùng trong một tệp hoặc cơ sở dữ liệu dưới dạng cấu trúc dữ liệu bây giờ hãy cùng tìm hiểu về cấu trúc dữ liệu được sử dụng nhiều nhất và thường được hỏi trong android cấu trúc dữ liệu được sử dụng nhiều nhất và được hỏi nhiều nhất trong android array linked list hash table stack queue tree graph array mảng là cấu trúc dữ liệu được sử dụng nhiều nhất và dễ nhất được sử dụng để lưu trữ cùng loại dữ liệu mảng là một tập hợp các mục tương tự được lưu trữ ở các vị trí bộ nhớ liền kề ví dụ nếu bạn đang lưu trữ điểm của 10 sinh viên thì bạn có thể thực hiện việc này bằng cách tạo 10 biến số nguyên cho mỗi sinh viên và bạn có thể lưu trữ điểm trong các biến này nhưng bạn phải quản lý 10 biến khác nhau ở đây đây là một nhiệm vụ rất khó khăn vì nếu trong tương lai bạn phải lưu trữ 1000 điểm của sinh viên thì bạn phải tạo 1000 biến nếu bạn đang theo phương pháp này vì vậy chúng ta có thể sử dụng mảng cho mục đích này tất cả những gì bạn cần làm chỉ là tạo ra một mảng có tên là marks có kích thước 10 hoặc 1000 hoặc bất cứ thứ gì khác và sau đó lưu trữ các dấu trong mảng đó l ưu ý trong hầu hết tất cả các ngôn ngữ lập trình chúng ta sử dụng index dựa trên 0 tức là index của mảng sẽ bắt đầu từ 0 và đi đến n-1 trong đó n n là kích thước của mảng bạn có thể truy cập các phần tử của mảng với sự trợ giúp của các chỉ mục của nó marks 0 to access the 1 st element ie element at index 0 marks 2 to access the 3 rd element ie element at index 2 marks 4 to access the 5 th element ie element at index 4 một số thao tác cơ bản trên mảng insertion chèn một phần tử đã cho vào một chỉ mục cụ thể của mảng deletion xóa một phần tử đã cho khỏi mảng searching tìm kiếm một phần tử cụ thể trong mảng updation cập nhật một phần tử của một mảng tại một chỉ mục cụ thể traversing in hoặc duyệt toàn bộ mảng linked list một linked list gần như tương tự với một mảng tức là nó cũng là một cấu trúc dữ liệu tuyến tính để lưu trữ cùng loại dữ liệu ở đây dữ liệu không được lưu trữ một cách liên tục dữ liệu được lưu trữ trong danh sách được liên kết ở dạng nodes và mỗi node có thể được kết nối với node khác với sự trợ giúp của một số con trỏ hoặc tham chiếu đến node tiếp theo vì vậy có hai phần của một node trong danh sách được liên kết tức là phần dữ liệu và con trỏ hoặc phần tham chiếu phần dữ liệu lưu trữ dữ liệu của node trong khi con trỏ hoặc phần tham chiếu lưu địa chỉ của node tiếp theo nếu có hình ảnh trên là một ví dụ về linked list đơn lẻ tức là ở đây chúng tôi chỉ có địa chỉ của node tiếp theo có một linked list khác được gọi là doubly linked list trong đó địa chỉ của node trước và node tiếp theo được giữ bởi bất kỳ node nào ngoài hai loại danh sách được liên kết này chúng ta còn có một circular linked list ở đây trong hình ảnh trên head đang chỉ vào node đầu tiên của linked list và node cuối cùng của linked list đang trỏ đến null tức là không có node nào xuất hiện sau node đó một số thao tác cơ bản trên linked list insertion tại đây bạn có thể chèn node vào linked list bạn có thể chèn node vào bất kỳ nơi nào của linked list deletion trong thao tác xóa bạn có xóa node từ bất kỳ node nào khỏi linked list searching bạn sẽ được cung cấp một yếu tố và bạn phải tìm kiếm yếu tố đó trong linked list traversing di chuyển toàn bộ danh sách được liên kết để có được từng phần tử của linked list hash table hash table là một loại cấu trúc dữ liệu được sử dụng để lưu trữ dữ liệu dưới dạng cặp khóa key-value bạn sẽ có một số giá trị hoặc dữ liệu và dựa trên dữ liệu đó bạn sẽ tạo một khóa và với sự trợ giúp của khóa đó bạn sẽ lưu trữ giá trị trong bảng hash nếu đầu vào được phân phối đồng đều thì bảng hash sẽ thực hiện thao tác chèn xóa và tìm kiếm trong thời gian o 1 quá trình tạo khóa và lưu trữ dữ liệu dựa trên khóa đó được gọi là xóa hashing để tạo khóa từ dữ liệu chúng ta cần một hàm được gọi là hàm hash hash hàm hash sẽ lấy dữ liệu làm đầu vào và đưa khóa làm đầu ra ví dụ nếu dữ liệu được lưu trữ là 1 2 3 4 5 26 17 và hàm băm được sử dụng là hash function k k 10 và dữ liệu sẽ được lưu trữ trong bảng hash theo cách sau những điểm cần suy nghĩ khi sử dụng bảng hash hàm hash phải sao cho các khóa được tạo được phân phối đồng đều kích thước của bảng hash phụ thuộc vào hàm hash vì vậy việc lựa chọn hàm hash nên được thực hiện hoàn hảo trong trường hợp va chạm trong bảng hash hãy áp dụng kỹ thuật xử lý va chạm thích hợp stack một stack là một cấu trúc dữ liệu tuyến tính sử dụng thứ tự last in first out l if o tức là phần tử được chèn cuối cùng sẽ được bật ra trước ví dụ nếu bạn đặt một cuốn sách lên trên những cuốn sách khác và tiếp tục quá trình này trong 50 cuốn sách thì cuốn sách trên cùng sẽ được tìm nạp trước ở đây bạn có thể nhận thấy rằng cuốn sách trên cùng là cuốn sách được đặt ở cuối hoặc được đặt gần đây trong stack chúng ta có một biến top mà biểu thị đỉnh của stack điều này là cần thiết bởi vì tất cả các hoạt động của ngăn xếp được thực hiện với sự trợ giúp của biến top sau đây là một ví dụ về stack nếu bạn muốn xóa các phần tử khỏi stack ở trên thì 5 sẽ bị xóa trước tiếp theo là 4 3 2 và 1 một số thao tác cơ bản trên stack push push được sử dụng để chèn một phần tử ở đầu ngăn xếp pop pop được sử dụng để xóa một phần tử khỏi đỉnh ngăn xếp top top được sử dụng để biểu thị phần tử trên cùng của ngăn xếp queue queue là cấu trúc dữ liệu tuyến tính sử dụng thứ tự first in first out f if o tức là phần tử đến trước trong hàng đợi sẽ bị xóa đầu tiên khỏi hàng đợi ví dụ trong khi đứng xếp hàng để đặt vé người đến trước sẽ đặt vé trước và người mới đến đặt vé phải đứng ở cuối hàng đợi trong queue chúng ta có các front và rear font được sử dụng để trỏ đến phần tử phía trước của queue trong khi rear được sử dụng để trỏ đến phần tử phía sau của queue sau đây là một ví dụ về hàng đợi vì vậy nếu bạn muốn xóa các thành phần khỏi hàng đợi trên thì 1 sẽ bị xóa trước tiếp theo là 2 3 4 và 5 tương tự nếu bạn muốn chèn một phần tử trong hàng đợi ở trên thì nó sẽ được chèn từ rear chứ không phải từ front một số thao tác cơ bản trên queue enqueue enqueue được sử dụng để chèn một phần tử vào cuối queue dequeue dequeue được sử dụng để xóa một phần tử từ phía trước queue front nó được sử dụng để biểu thị thành phần phía trước của queue rear nó được sử dụng để biểu thị thành phần phía sau của queue tree tree là một cấu trúc dữ liệu phi tuyến tính phân cấp được sử dụng để lưu trữ dữ liệu dưới dạng các node ở đây chúng ta có node và tất cả các node được kết nối với nhau với sự trợ giúp của các cạnh được vẽ giữa chúng một node cha có thể không có con hoặc một con hoặc nhiều hơn một con nhưng node con không thể có nhiều hơn một cha sau đây là một ví dụ đơn giản về tree một số thuật ngữ liên quan đến tree là root root là node có mặt ở đầu tree chỉ có thể có một gốc của một tree cụ thể parent tất cả các node có ít nhất một con được gọi là node cha child node bên dưới node cha được gọi là node con của node cha leaf node không có con được gọi là node leaf một số loại cây là general tree binary tree binary search tree a vl tree red-black tree n-ary tree graph graph tương tự như tree tức là nó cũng là cấu trúc dữ liệu phi tuyến tính lưu trữ dữ liệu dưới dạng các node và tất cả các node được kết nối với nhau với sự trợ giúp của các cạnh sự khác biệt giữa tree và graph là có một chu kỳ trong graph nhưng không có chu trình như vậy trong trường hợp của tree graph bao gồm một tập hợp các node hữu hạn và một tập hợp các cạnh hữu hạn chịu trách nhiệm kết nối các node sau đây là một ví dụ về đồ thị sau đây là các loại biểu đồ directed graph ở đây các cạnh sẽ trỏ đến một số node tức là bạn sẽ có một mũi tên chỉ vào một node từ một node undirected graph ở đây không có mũi tên nào ở giữa các node ví dụ trên là một ví dụ về đồ thị vô hướng một số kỹ thuật truyền tải đồ thị phổ biến là depth-first searchd fs breadth-first searchb fs kết luận trên đây là một số kiến thức về data structure hi vọng bài viết này sẽ giúp bạn có 1 buổi phỏng vấn thành công android interview all rights reserved báo cáo thêm vào series của tôi", "happy new year báo cáo thêm vào series của tôi bài đăng này đã không được cập nhật trong 4 năm dạo này ăn dầm nằm dề với nàng react nhiều quá lắm khi không ngóc đầu lên được ông bà ta có câu chán cơm thèm phở nên lang thang trên các blog để mong tìm được 1 chút thú vui khác react đã khá quen thuộc thì vô tình thấy một framework js là mithril js tuy nó chưa quá nổi tiếng trên cộng đồng frontend nhưng đọc lướt qua phần giới thiệu lại thấy khá ấn tượng 1 giới thiệu như đã đề cập ở tiêu đề bài viết framework này có tên là mithril js cái tên được lấy cảm hứng từ một loại vật liệu hư cấu trong các tác phẩm của nhà văn giáo sư người anh j r r tolkien là một framework js phía client dùng để xây dựng các ứng dụng s pa theo mô hình m vc như react hay vue về chi tiết phần giới thiệu cũng như hướng dẫn để bắt đầu với mithril js thì mình xin phép không đề cập quá cụ thể ở đây vì các bạn có thể vào thẳng trang chủ của nó để đọc ở trang chủ khá chi tiết và rõ ràng tuy nhiên phải nói qua cái mà gây ấn tượng ngay lúc đọc phần giới thiệu thì hiện tại đây là một javascript framework có performance tốt nhất cũng như có size nhỏ nhất so với các javascript framework phổ biến hiện nay 2 các đặc trưng và thành phần chính mỗi framework js đều xây dựng những đặc trưng và định nghĩa một cấu trúc cơ chế hoạt động riêng react thì có virtual do m stateprops life-cycle thì với mithril js cũng vậy sau đây là 1 số thành phần chính hay những giá trị cốt lõi xương sống của nó 21 cú pháp mithril js được xây dựng một cú pháp viết riêng thông qua từ khóa m tuy nhiên nếu bạn đã từng làm việc với react và đã quá quen với cách viết của j sx thì đừng lo webpack và babel sẽ giúp các bạn làm việc này qua vài bước config đơn giản hướng dẫn đầy đủ tại trang chủ của mithril js hoặc ở cuối bài viết mình có 1 ví dụ trong đó đã dựng sẵn 1 số config cơ bản function my component return view m main m h 1 hello world can be written as function my component return view main h 1 hello world h 1 main 22 virtual node hay vnodes cũng như react có virtual do m thì ở mithril js là vnodes vnodes là một object đại diện cho các phần tử d om hoặc các phần của d om công cụ virtual do m của mithril sử dụng vnodes để tạo ra một cây d om vnodes được khởi tạo thông qua từ khóa m m selector attributes children hoặc define a component var example component view function vnode return m div vnode attrs hello vnode children consume it m example component style colorred world equivalent h tm l hello world cấu trúc của một vnodes 23 component component trong mithril js là object có thuộc tính view là một hàm để return ra kết quả cuối cùng ở giao diện ví dụ define your component var example view function vnode return m div hello consume your component m example equivalent h tm l hello vá một loạt các method trong lifecycle methods đại khái là giống như các lifecycle trong react vậy var component with hooks oninit function vnode console log initialized oncreate function vnode console log d om created onbeforeupdate function new vnode old vnode return true onupdate function vnode console log d om updated onbeforeremove function vnode console log exit animation can start return new promise function resolve call after animation completes resolve onremove function vnode console log removing d om element view function vnode return hello 24 state cũng như các framework js khác để quản lý virtual d om hay vnode thì mithril js cũng có state state trong mithril js có thể được khai báo hoặc khởi tạo bằng nhiều cách khác nhau closure component state function component with state initial vnode component state variable unique to each instance var count 0 view function which returns a vnode return oninit function vnode console log init a closure component view function vnode return m div m p count count m button onclick function count 1 increment count p oj o component state var component with initial state data initial content view function vnode return m div vnode state data m component with initial state equivalent h tm l initial content hoặc 1 số cách khác như thông qua vnodes hoặc this 25 routing một đặc trưng không thể không nhắc đến của mithril js đó là việc tích hợp sẵn cơ chế quản lý chuyển route giống như trong vue js hay react-router-dom vậy bạn không cần phải cài đặt gì thêm var routed component view function return a redraw happens asynchronously after the route changes m m route link href m div onclick function m route set var list component view return m div list data m route document body routed component data list component và còn khá nhiều thành phần khác nữa chi tiết hơn các bạn sẽ tìm hiểu dần ở docs của nó nếu thấy hứng thú nhé 3 kết luận tuy mới chỉ tìm hiểu về mithril js nhưng mình thấy cũng khá là thú vị tuy nhiên do thời gian tìm hiểu chưa nhiều và chưa thấu hiểu hết nên nếu trong bài viết có gì sai sót mong các bạn lượng thứ bỏ qua và góp ý thêm cho mình nhé mình cũng đã thử dựng một ứng dụng t od o nhỏ bằng mithril js và đã config sẵn babel và webpack cơ bản các bạn có thể tham khảo code trên github của mình ở đây xin chào và hẹn gặp lại java script front-end all rights reserved báo cáo thêm vào series của tôi" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
Upload folder using huggingface_hub
Browse files- 1_Pooling/config.json +10 -0
- README.md +0 -0
- added_tokens.json +3 -0
- bpe.codes +0 -0
- config.json +28 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +14 -0
- runs/Aug17_07-27-59_f43e0ff74a8b/events.out.tfevents.1755415756.f43e0ff74a8b.751.0 +3 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +9 -0
- tokenizer_config.json +55 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 768,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
added_tokens.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"<mask>": 64000
|
| 3 |
+
}
|
bpe.codes
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
config.json
ADDED
|
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"RobertaModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.1,
|
| 6 |
+
"bos_token_id": 0,
|
| 7 |
+
"classifier_dropout": null,
|
| 8 |
+
"eos_token_id": 2,
|
| 9 |
+
"gradient_checkpointing": false,
|
| 10 |
+
"hidden_act": "gelu",
|
| 11 |
+
"hidden_dropout_prob": 0.1,
|
| 12 |
+
"hidden_size": 768,
|
| 13 |
+
"initializer_range": 0.02,
|
| 14 |
+
"intermediate_size": 3072,
|
| 15 |
+
"layer_norm_eps": 1e-05,
|
| 16 |
+
"max_position_embeddings": 258,
|
| 17 |
+
"model_type": "roberta",
|
| 18 |
+
"num_attention_heads": 12,
|
| 19 |
+
"num_hidden_layers": 12,
|
| 20 |
+
"pad_token_id": 1,
|
| 21 |
+
"position_embedding_type": "absolute",
|
| 22 |
+
"tokenizer_class": "PhobertTokenizer",
|
| 23 |
+
"torch_dtype": "float32",
|
| 24 |
+
"transformers_version": "4.55.1",
|
| 25 |
+
"type_vocab_size": 1,
|
| 26 |
+
"use_cache": true,
|
| 27 |
+
"vocab_size": 64001
|
| 28 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"__version__": {
|
| 3 |
+
"sentence_transformers": "5.1.0",
|
| 4 |
+
"transformers": "4.55.1",
|
| 5 |
+
"pytorch": "2.6.0+cu124"
|
| 6 |
+
},
|
| 7 |
+
"model_type": "SentenceTransformer",
|
| 8 |
+
"prompts": {
|
| 9 |
+
"query": "",
|
| 10 |
+
"document": ""
|
| 11 |
+
},
|
| 12 |
+
"default_prompt_name": null,
|
| 13 |
+
"similarity_fn_name": "cosine"
|
| 14 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:93a0dac8bec1179e17da073252da04ad2e131956fcf36a92d003756fcac326c0
|
| 3 |
+
size 540015464
|
modules.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
}
|
| 14 |
+
]
|
runs/Aug17_07-27-59_f43e0ff74a8b/events.out.tfevents.1755415756.f43e0ff74a8b.751.0
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:4d42548833a1aba7a7979d4c2a54ab5f637da78e65c443a9bd0c583cf6492cf4
|
| 3 |
+
size 5196
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 256,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,9 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": "<s>",
|
| 3 |
+
"cls_token": "<s>",
|
| 4 |
+
"eos_token": "</s>",
|
| 5 |
+
"mask_token": "<mask>",
|
| 6 |
+
"pad_token": "<pad>",
|
| 7 |
+
"sep_token": "</s>",
|
| 8 |
+
"unk_token": "<unk>"
|
| 9 |
+
}
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "<s>",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "<pad>",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "</s>",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "<unk>",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"64000": {
|
| 36 |
+
"content": "<mask>",
|
| 37 |
+
"lstrip": false,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"bos_token": "<s>",
|
| 45 |
+
"clean_up_tokenization_spaces": false,
|
| 46 |
+
"cls_token": "<s>",
|
| 47 |
+
"eos_token": "</s>",
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "<mask>",
|
| 50 |
+
"model_max_length": 256,
|
| 51 |
+
"pad_token": "<pad>",
|
| 52 |
+
"sep_token": "</s>",
|
| 53 |
+
"tokenizer_class": "PhobertTokenizer",
|
| 54 |
+
"unk_token": "<unk>"
|
| 55 |
+
}
|
vocab.txt
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|