davanstrien HF Staff commited on
Commit
8ea0678
·
verified ·
1 Parent(s): c215d0e

Training in progress, step 222

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,348 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - multilingual
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - cross-encoder
8
+ - reranker
9
+ - generated_from_trainer
10
+ - dataset_size:35366
11
+ - loss:CrossEntropyLoss
12
+ base_model: jhu-clsp/mmBERT-base
13
+ pipeline_tag: text-classification
14
+ library_name: sentence-transformers
15
+ ---
16
+
17
+ # mmBERT-base multilingual educational-quality classifier (6-class, tartuNLP data mix)
18
+
19
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [jhu-clsp/mmBERT-base](https://huggingface.co/jhu-clsp/mmBERT-base) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text pair classification.
20
+
21
+ ## Model Details
22
+
23
+ ### Model Description
24
+ - **Model Type:** Cross Encoder
25
+ - **Base model:** [jhu-clsp/mmBERT-base](https://huggingface.co/jhu-clsp/mmBERT-base) <!-- at revision c5955035435e2bf121cde7f3c8863ef52ff35d82 -->
26
+ - **Maximum Sequence Length:** 512 tokens
27
+ - **Number of Output Labels:** 6 labels
28
+ - **Supported Modality:** Text
29
+ <!-- - **Training Dataset:** Unknown -->
30
+ - **Language:** multilingual
31
+ - **License:** apache-2.0
32
+
33
+ ### Model Sources
34
+
35
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
36
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
37
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
38
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
39
+
40
+ ### Full Model Architecture
41
+
42
+ ```
43
+ CrossEncoder(
44
+ (0): Transformer({'transformer_task': 'sequence-classification', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'logits'}}, 'module_output_name': 'scores', 'architecture': 'ModernBertForSequenceClassification'})
45
+ )
46
+ ```
47
+
48
+ ## Usage
49
+
50
+ ### Direct Usage (Sentence Transformers)
51
+
52
+ First install the Sentence Transformers library:
53
+
54
+ ```bash
55
+ pip install -U sentence-transformers
56
+ ```
57
+
58
+ Then you can load this model and run inference.
59
+ ```python
60
+ from sentence_transformers import CrossEncoder
61
+
62
+ # Download from the 🤗 Hub
63
+ model = CrossEncoder("davanstrien/fineweb-c-quality-classifier-v4")
64
+ # Get scores for pairs of inputs
65
+ pairs = [
66
+ ['Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):', 'It’s important to include healthy sources of protein in your diet each day. Protein helps your body with a number of important functions and helps you maintain muscle mass. When you think of protein, steak or chicken might come to mind. But if you’re not a big meat eater, you have other options to make sure you get the recommended amount of protein that your body needs. Worry not, because there are plenty of protein-rich vegetables available year-round. Try out these options for plenty of variety.\nYou can enjoy each of them alone as a side dish, or as indifferent recipes for a filling main course. Keep in mind that the protein content may change depending on how you prepare each vegetable. The values below match the cooking method indicated for each food. Here are some vegetables high in protein.\n7 Vegetables High in Protein\nSeitan is a popular protein source for many vegetarians and vegans.\nIt’s made from gluten, the main protein in wheat. Unlike many soy-based mock meats, it resembles the look and texture of meat when cooked.\nAlso known as wheat meat or wheat gluten, it contains about 25 grams of protein per 3.5 ounces (100 grams). This makes it the richest plant protein source on this list. Seitan is also a good source of selenium and contains small amounts of iron, calcium and phosphorus.\nYou can find this meat alternative in the refrigerated section of most health food stores, or make your own version with vital wheat gluten using this recipe.\nSeitan can be pan-fried, sautéed and even grilled. Therefore, it can be easily incorporated in a variety of recipes.\nHowever, seitan should be avoided by people with celiac disease or gluten sensitivity.\n2. Tofu, Tempeh and Edamame\nTofu, tempeh and edamame all originate from soybeans.\nSoybeans are considered a whole source of protein. This means that they provide the body with all the essential amino acids it needs.\nEdamame are immature soybeans with a sweet and slightly grassy taste. They need to be steamed or boiled prior to consumption and can be eaten on their own or added to soups and salads.\nTofu is made from bean curds pressed together in a process similar to cheesemaking. Tempeh is made by cooking and slightly fermenting mature soybeans prior to pressing them into a patty.\nTofu doesn’t have much taste, but easily absorbs the flavor of the ingredients it’s prepared with. Comparatively, tempeh has a characteristic nutty flavor.\nBoth tofu and tempeh can be used in a variety of recipes, ranging from burgers to soups and chilis.\nAll three contain iron, calcium and 10-19 grams of protein per 3.5 ounces (100 grams).\nEdamame are also rich in folate, vitamin K and fiber. Tempeh contains a good amount of probiotics, B vitamins and minerals such as magnesium and phosphorus.\nCooked chickpeas are high in protein, containing around 7.25 g per ½ cup.\nChickpeas can be eaten hot or cold, and are highly versatile with plenty of recipes available online. They can, for example, be added to stews and curries, or spiced with paprika and roasted in the oven.\nA person can add hummus, which is made from chickpea paste, to a sandwich for a healthful, protein-rich alternative to butter.\nPeanuts are protein-rich, full of healthful fats, and may improve heart health. They contain around 20.5 g of protein per ½ cup.\nPeanut butter is also rich in protein, with 3.6 g per tablespoon, making peanut butter sandwiches a healthful complete protein snack.\nQuinoa is a grain with a high-protein content, and is a complete protein. Cooked quinoa contains 8 g of protein per cup.\nThis grain is also rich in other nutrients, including magnesium, iron, fiber, and manganese. It is also highly versatile.\nQuinoa can fill in for pasta in soups and stews. It can be sprinkled on a salad or eaten as the main course.\nMycoprotein is a fungus-based protein. Mycoprotein products contain around 13 g of protein per ½ cup serving.\nProducts with mycoprotein are often advertised as meat substitutes and are available in forms such as “chicken” nuggets or cutlets. However, many of these products contain egg white, so people must be sure to check the label.\nEggs are an easily available, cheap source of nutrients. A single hard-boiled egg contains around 7g of protein and makes a nutritious, filling breakfast or lunchtime meal. They’re also easily digestible and low in calories. Try our protein-rich scrambled egg and feta hash.'],
67
+ ['Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):', "หลังเสร็จภารกิจรักต่างคนต่างเข้าสู่นิทราในสภาพไร้เสื้อผ้าอาภรณ์อาจจะเป็นเพราะเหนื่อยเกินกว่าที่จะควานหาอะไรมาปิดกายหรือไม่ต้อง\nอายคู่รักก็แล้วแต่เหตุผลของใคร แต่ที่แน่ๆ ตื่นมาแล้วมีแต่รอยยิ้มฟินไม่หายรู้สึกสดชื่นแจ่มใส อาจจะยกความดีความชอบให้เซ็กซ์เมื่อคืน\nที่แสนจะดุเด็ดเผ็ดอร่อย แต่ล่าสุดมีงานวิจัยว่าเหตุผลใดจึงควรนอนเปลือยกาย หลับไปโดยไร้แพรพรรณใดๆ สวมใส่ ซึ่งไม่เพียงก้าวสู่นิทรา\nด้วยรอยยิ้มเท่านั้น เรื่องดังกล่าวยังมีส่วนทำให้ชีวิต 'ดี๊ดี' ขึ้นอีกด้วย\n1. หลับง่าย\nเราอาจคิดว่าร่างกายมนุษย์ต้องการเครื่องปกป้องผิวหนังตลอดเวลาเพื่อสร้างความอบอุ่น แต่เชื่อหรือไม่ว่าเสื้อผ้าที่สวมใส่ไปรบกวนกระบวน\nการปรับอุณหภูมิในร่างกาย มีงานวิจัยจาก The American Academy of Sleep Medicine หรือ AASM รายงานว่า ขณะเข้าสู่\nนิทรา ร่างกายจะค่อยๆ ลดอุณหภูมิลง อันเป็นส่วนหนึ่งของระบบนาฬิกาชีวภาพ (Circadian Rhythm หรือ Human Biological Clock)\nหากมีการสวมใส่เสื้อผ้า ร่างกายจะเกิดความร้อนสะสมสูงขึ้น เมื่อลดอุณหภูมิยากกว่าเดิมจึงหลับยากขึ้น นอนไม่เต็มอิ่ม ส่งผลต่อสภาพร่างกาย\nโดยตรง อาจรู้สึกอ่อนเพลียช่วงระหว่างวันก็เป็นได้\n2. หน้าท้องแบนราบ?\nนอกจากเรื่องความสดชื่นแจ่มใสมีพลังหลังตื่นนอนแล้ว กระบวนการของร่างกายขณะปรับอุณหภูมิลดลงส่งผลต่อฮอร์โมนเกี่ยวข้องกับการเจริญ\nเติบโต หรือ Growth Hormone ที่จะค่อยๆ เพิ่มขึ้น ตรงกันข้ามจะมีการปรับลดคอร์ติซอล (Cortisol) หรือฮอร์โมนแห่งความเครียด\nเพื่อให้ร่างกายฟื้นฟูระบบต่างๆ อย่างสมดุลหลังหลับสนิท ทว่าการสวมชุดนอนซึ่งทำให้อุณหภูมิร่างกายสูงขึ้นนั้น คอร์ติซอลจะถูกผลิตออกมา\nมากกว่าปกติเพื่อชดเชยพลังงานที่เสียไป คุณจึงอยากอาหารมากขึ้น นั่นคือยิ่งหลับไม่สนิท คุณยิ่งมีความต้องการบริโภคอาหารมากขึ้น นำไปสู่\nการเกิดพุงง่ายกว่าปกติ\n3. ยั่วเย้ายวนใจ\nไม่แปลกหากการนอนแก้ผ้าทำให้คนสองคนอยากฟีชเจอริ่งกันบ่อยครั้งขึ้น ข้อดีคือช่วยสานสัมพันธ์ระหว่างคู่รัก ไม่ว่าถูกกระตุ้นด้วยวิธีมองด้วย\nตายามเห็นเธอนอนเผยเรือนร่าง หรือระหว่างนอนเนื้อแนบเนื้อจุดประกายไฟในตัวให้สปาร์กอยากขยับไปจับตรงนั้นสอดใส่ตรงนี้ สุดท้ายหลังมี\nเพศสัมพันธ์ไม่ว่าเป็นแบบเนิบๆ ร้อนแรง หรือ ขุดกระบวนยุทธ์ใดมาใช้กระหน่ำรัก ย่อมนำมาสู่การหลั่งสารเคมีจำพวกเอนดอร์ฟิน(Endorphin)\nหรือเคมีแห่งความสุข ช่วยลดความเครียดจากเรื่องราวระหว่างวัน รวมถึงอีกหนึ่งเคมีที่ขาดไม่ได้คือออกซิโตซิน (Oxytocin) ฮอร์โมนแห่ง\nความ ผูกพัน\nคลิปเสียวประกอบเนื้อหา\n4. มั่นใจในเรือนร่างของตัวเองมากกว่าเดิม\nต่อยอดจากข้อสาม เมื่อคุณถูกคนที่นอนอยู่ข้างๆ รุกเข้าหา ไม่ว่าจะเป็นฝ่ายชายเปิดศึกเกมรักก่อนอย่างเร่าร้อน หรือฝ่ายหญิงค่อยๆ ประโลมรัก\nให้อย่างช้าๆ สิ่งที่ตามมาคือความรู้สึกว่าตนเองมีความน่าสนใจในสายตาของเขา หรือเธอ สรุปคือเมื่อนอนเปลือยเปล่าโดยไร้เสื้อผ้าแล้วได้รับ\nความสนใจ จะบังเกิดเป็นความเชื่อมั่นว่าหุ่นของเรายังน่ากินอยู่นั่นเอง\n5. ไม่ต้องซักผ้าเยอะ\nแน่นอน เมื่อไม่ต้องเลือกชุดนอนมาสวมใส่ ก็ไม่เปลืองเวลารับมือกับจำนวนชุดที่ต้องซัก ไม่เปลืองผงซักฟอก น้ำยาปรับผ้านุ่ม ไม่เปลืองน้ำด้วย\nอีกเหตุผลคือเราสามารถใช้เวลาหลังอาบน้ำได้กระชับขึ้น อาบน้ำ เช็ดตัว ทาครีมเสร็จปุ๊บก็กระโดดขึ้นเตียงปั๊บเลย\n6. เป็นเหตุผลที่ดีให้คนที่ไม่อยากอาบน้ำตอนเช้า\nตามข้อมูลเบื้องต้นบอกอยู่แล้วว่าการสวมเสื้อผ้านอนทำให้ร่างกายมีอุณหภูมิสูงขึ้น สิ่งที่ตามมาคือกลิ่นอับชื้นจากเหงื่อที่สะ���มมาทั้งคืน แต่\nหากเราลดอุณหภูมิให้ร่างกายด้วยวิธีนอนเปลือยกาย ผลที่ตามมาคือเหงื่อไคลย่อมน้อยลง หรือในบางรายอาจแทบไม่มีเลยด้วยซ้ำ และเมื่อ\nไม่มีเหงื่อย่อมไม่มีกลิ่นตัวใช่มั้ยล่ะ แต่สิ่งนี้ขอให้เป็นทางเลือกเฉพาะบุคคลที่มักยอมแพ้การสัมผัสน้ำยามเช้าจริงๆ รวมถึงจำกัดเฉพาะผู้มีเครื่อง\nปรับอากาศ หรืออยู่ในสภาพแวดล้อมกลางอุณหภูมิต่ำเท่านั้น เพราะคุณอาจไม่หงุดหงิดกับกลิ่นตัวตัวเอง แต่กับคนรอบข้างมันคือหายนะดีๆ\nนี่เอง\n7. เบาสบาย สำหรับจุดซ่อนเร้น\nเหตุผลสุดท้ายเน้นสำหรับสาวๆ โดยเฉพาะ (อาจใช้เป็นข้ออ้างของคุณผู้ชายเพื่อกระซิบบอกเธอว่าอย่าอาย ไม่ต้องสวมอะไรนอนเลยก็ได้นะ)\nเพราะทำให้บริเวณจุดซ่อนเร้นมีกลิ่นไม่พึงประสงค์ อย่าลืมว่าตลอดวันผู้หญิงต้องเผชิญกับมลภาวะ ความอับชื้นจากเหงื่อไคลมามากพอแล้ว\nลองปล่อยให้จุดซ่อนเร้นได้สูดอากาศบริสุทธิ์บ้าง เมื่อไม่มีกลิ่นจากเชื้อแบคทีเรียมาทำลายบรรยากาศ การทำออรัลเซ็กซ์ให้เธอย่อมใส่ลีลาได้\nอย่างเต็มที่ โดยไม่ต้องกังวลใจทั้งสองฝ่าย"],
68
+ ['Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):', 'ideen fur grabbepflanzung fa 1 4 r fa 1 4 r ede ideen fur grabbepflanzung im fruhjahr.\nideen grabbepflanzung herbst fur sommer im fruhjahr fa 1 4 r,ideen fur grabbepflanzung im fruhjahr gesucht o,ideen grabbepflanzung grab in 5 fa 1 4 r co fur im fruhjahr gesucht sommer,ideen fur grabbepflanzung im sommer fa 1 4 r den allerheiligen herbst, ideen fur grabbepflanzung fruhjahr sommer,ideen fur grabbepflanzung best images on cemetery flowers funeral fruhjahr allerheiligen,ideen fur grabbepflanzung im sommer gallery of die allerheiligen,ideen grabbepflanzung herbst fur im sommer ,ideen fur grabbepflanzung im fruhjahr n nu 1 4 u 2 gesucht,ideen grabbepflanzung herbst sommer fur best images about on style heart and.'],
69
+ ['Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):', 'Татар мәгарифе порталы\nӨстәмә һөнәри белем бирү дәүләт автоном белем бирү учреждениесе «Татарстан Республикасы Мәгарифне үстерү институты» «Иң яхшы цифрлы белем бирү практикалары» авторлык методик эшкәртмәләре конкурсы (конкурс) игълан итә.\nКонкурс 2017–2021 еллар һәм 2030 елга кадәрге чорга Татарстан Республикасында мәгарифне үстерү стратегиясе бурычларын тормышка ашыру һәм 2022 елда Татарстан Республикасында цифрлаштыру елы кысаларында үткәрелә.\nКонкурсның максаты ‒ мәктәпкәчә, гомуми һәм өстәмә белем бирү учреждениеләре педагогларының электрон белем бирү ресурсларын булдыру, мәгълүмати-коммуникацион технологияләрдән нәтиҗәле файдалану мәсьәләләре буенча һөнәри компетентлыгын арттыруга ярдәм итү.\nКонкурста Татарстан Республикасы мәгариф оешмалары педагоглары катнаша ала, яшь һәм педагогик стаж буенча чикләүләр юк. Методик эшкәртмәләр рус һәм т��тар телләрендә кабул ителә.\nТулырак мәгълүмат белән беркетелгән НИГЕЗЛӘМӘдә таныша аласыз.\nХәзер online: 0 кулланучы'],
70
+ ['Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):', 'Sau quy trình rà soát, xét duyệt công khai và minh bạch, 36 phạm nhân thuộc các tội ít nghiêm trọng đủ điều kiện, đã được trao quyết định đặc xá của Chủ tịch nước tại Trại tạm giam số 1 CATP Hà Nội. Trong số này có 5 phạm nhân nữ chủ yếu liên quan đến các tội danh môi giới mại dâm, người trẻ nhất được đặc xá 19 tuổi, người già nhất 63 tuổi.\nĐại tá Nguyễn Đức Niên, Phó Cục trưởng Cục Hướng dẫn tạm giam, tạm giữ -Tổng cục VIII , Bộ Công an trao quyết định đặc xá của Chủ tịch nước cho đại diện các phạm nhân được đặc xá\nThượng tá Trịnh Đình Hùng, Phó Giám thị Trại tạm giam số 1 CATP Hà Nội cho biết, khác với mọi năm, việc đặc xá thường được tổ chức vào dịp Quốc khánh 2-9 nhưng năm nay, quyết định đặc xá của Chủ tịch nước được công bố vào dịp tháng 11.\nQuyết định đặc xá của Chủ tịch nước thể hiện chính sách khoan hồng của Đảng và Nhà nước với người phạm tội\nTrước đó khoảng 1 tháng, Hội đồng đặc xá các cấp mới ban hành kế hoạch chuẩn bị công tác đặc xá các cấp. Theo đó, tiêu chuẩn được đặc xá năm nay quy định chặt chẽ hơn, phạm nhân phải thi hành ít nhất 1/2 bản án mới thuộc đối tượng được xét duyệt.\nDo đó việc thực hiện đầy đủ quy trình để được Hội đồng đặc xá Trung ương thông qua rất gấp gáp, song với tinh thần và trách nhiệm cao, thể hiện tính nhân văn cao cả của pháp luật nước CHXHCN Việt Nam, Hội đồng đặc xá Trại tạm giam số 1 đã làm việc khẩn trương, công tâm, rà soát kỹ lưỡng không để sót lọt các đối tượng đủ điều kiện đặc xá.\nRời cánh cổng trại giam về với cuộc sống thường ngày\nTâm trạng rưng rưng, anh Nguyễn Văn Hưng, người phải thi hành bản án 40 tháng tù giam về tội môi giới mại dâm, đại diện 36 phạm nhân được đặc xá đã bày tỏ lòng cảm ơn đến các cán bộ quản giáo, Ban Giám thị trại, CATP Hà Nội, VKSND, TAND đã tạo điều kiện, động viên để cá nhân mình cùng các phạm nhân khác được học tập, rèn luyện, phấn đấu trở thành một công dân tốt, đủ điều kiện được đặc xá hôm nay.\nChị Mai Thị Thu Hường chia sẻ niềm vui của người được đặc xá\nLà một trong 5 phạm nhân nữ được đặc xá vào dịp này, chị Mai Thị Thu Hường chia sẻ, do đã được giảm án một lần nên phần thời gian còn lại tính đến ngày hôm nay, chị phải tiếp tục thi hành án là 11 tháng, nhưng do phấn đấu tốt, chị đã được đặc xá.\n"Ở bên ngoài kia, tôi có gia đình, những đứa con đang chờ đợi mình. Trong giờ phút chia tay này, tôi không biết nói gì hơn ngoài lời cảm ơn cán bộ quản giáo trong những tháng ngày tôi lao động cải tạo tại đây đã cho tôi được học tập, rèn luyện, từ đó sửa đổi từ trong suy nghĩ, trở thành người công dân có ích" - chị Hường bày tỏ.\nÔng Nguyễn Chí Hồng, 63 tuổi, trú tại xã Trung Giã, huyện Sóc Sơn, Hà Nội, phạm nhân lớn tuổi nhất được nhận quyết định đặc xá:\nTừ 1 tháng qua, khi được Ban giám thị trại phát phiếu rà soát xem xét có thuộc diện được đặc xá hay không, tôi đã nhiều đêm không ngủ. Gia đình tôi ở xã Trung Giã, huyện Sóc Sơn, Hà Nội cũng mong đợi ngày tôi được trở về nhà. Lúc này tôi cảm thấy sung sướng và xúc động, nhận thức rõ về cái sai của bản thân mình trong quá khứ, nhưng tin tưởng vào tương lai phía trước. Sau khi rời khỏi cánh cổng nhà tạm giam, tôi sẽ tiếp tục phấn đấu trở thành một công dân tốt, có ích cho xã hội bằng việc làm phù hợp với sức khỏe của bản thân.'],
71
+ ]
72
+ scores = model.predict(pairs)
73
+ print(scores)
74
+ # [[-2.8281 -1.5781 0.0742 0.0525 1.3359 2.2969]
75
+ # [-0.1924 0.1611 0.2119 -0.8086 0.2207 -1.7422]
76
+ # [ 7.6562 2.125 -1.25 -2.0156 -1.7734 -2.3594]
77
+ # [-0.8398 3.125 1.8672 -0.0352 -1.1172 -4.0625]
78
+ # [-0.332 2.8906 1.5938 -2. -0.8477 -3.7188]]
79
+ ```
80
+
81
+ <!--
82
+ ### Direct Usage (Transformers)
83
+
84
+ <details><summary>Click to see the direct usage in Transformers</summary>
85
+
86
+ </details>
87
+ -->
88
+
89
+ <!--
90
+ ### Downstream Usage (Sentence Transformers)
91
+
92
+ You can finetune this model on your own dataset.
93
+
94
+ <details><summary>Click to expand</summary>
95
+
96
+ </details>
97
+ -->
98
+
99
+ <!--
100
+ ### Out-of-Scope Use
101
+
102
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
103
+ -->
104
+
105
+ <!--
106
+ ## Bias, Risks and Limitations
107
+
108
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
109
+ -->
110
+
111
+ <!--
112
+ ### Recommendations
113
+
114
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
115
+ -->
116
+
117
+ ## Training Details
118
+
119
+ ### Training Dataset
120
+
121
+ #### Unnamed Dataset
122
+
123
+ * Size: 35,366 training samples
124
+ * Columns: <code>query</code>, <code>passage</code>, and <code>label</code>
125
+ * Approximate statistics based on the first 100 samples:
126
+ | | query | passage | label |
127
+ |:---------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------|
128
+ | type | string | string | int |
129
+ | modality | text | text | |
130
+ | details | <ul><li>min: 30 tokens</li><li>mean: 30.0 tokens</li><li>max: 30 tokens</li></ul> | <ul><li>min: 89 tokens</li><li>mean: 397.48 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>0: ~24.04%</li><li>1: ~33.65%</li><li>2: ~19.23%</li><li>3: ~7.69%</li><li>4: ~5.77%</li><li>5: ~9.62%</li></ul> |
131
+ * Samples:
132
+ | query | passage | label |
133
+ |:-------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
134
+ | <code>Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):</code> | <code>โดย วัชรากร หนูทอง และ อนุกูล น้อยไม้<br>ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC)<br>สวัสดีท่านผู้อ่านทุกท่านครับ พบกันอีกครั้งในตอนที่ 2 ของ RFID เทคโนโลยีอัจฉริยะแห่งอนาคต ซึ่งผู้อ่านคงได้ทำความรู้จักกับเทคโนโลยีดังกล่าวไม่มากก็น้อยในตอนนี้ เรารู้จักประเภทของระบบ RFID ว่ามีอะไรบ้าง เหมาะสมกับการนำไปประยุกต์ใช้งานแบบใดบ้าง ข้อเด่น ข้อด้อย ในแต่ละประเภท<br>จากนั้นทำความรู้จักแบบเจาะลึกลงไปในรายละเอียดของป้ายอิเล็กทรอนิกส์แบบต่าง ๆ และเครื่องอ่าน และสุดท้ายจะเรียนรู้ถึงหลักการและเทคนิคการรับส่งข้อมูลในการสื่อสารระหว่างป้ายอิเล็กทรอนิกส์กับเครื่องอ่าน เช่น การเข้ารหัสข้อมูล (Coding) การมอดูเลต (Modulation) เราไปเจาะลึกในหัวข้อต่าง ๆ กันเลยครับ<br>อ่านรายละเอียด<br>ที่มา ไทยแลนด์อินดัสตรี้ดอทคอม วันที่ 2010-10-19<br>จำนวนผู้ชม 7355 ครั้ง</code> | <code>2</code> |
135
+ | <code>Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):</code> | <code>According to a 2018 study by the U.S. Department of Health and Human Services, there are approximately 5.7 million Native Americans in the United States. This comprises about 1.7% of the total U.S. population. Because of various social issues that disproportionately affect Native American communities, rates of substance abuse and alcohol abuse are considerably higher in these communities compared to the rest of the U.S. population.<br>Unfortunately, due to a lack of resources and culturally-minded treatment options for Native Americans, many carry these disorders throughout their lives. Understanding how these issues disproportionately affect Native American communities and the importance of culturally-minded treatment options is key to providing the treatment necessary for these vulnerable communities.<br>How Are Native Americans Affected by Substance Abuse?<br>A variety of cultural factors affect the way that Native Americans interact with substances. This includes historical trauma, racism, ...</code> | <code>5</code> |
136
+ | <code>Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):</code> | <code>Hat Lady Gaga Fibromyalgie?<br>2017 enthüllte Lady Gaga ihren Kampf gegen Fibromyalgie.<br>Sie ist eine von mehreren Prominenten, die sich über die chronische Störung geöffnet haben.<br>Does Lady Gaga have fibromyalgia?<br>On Sеptеmbеr 12, 2017, Lady Gaga twееtеdDas "Diе #chronicillnеss #chronicpain, diе ich mit #fibromyalgiе bin, möchtе ich hеlfеn, das Bеwusstsеin zu schärfеn und Mеnschеn zu vеrbindеn, diе еs habеn."<br>Im Fеbruar 2018 musstе Gaga diе lеtztеn zеhn Datеn ihrеr еuropäischеn Tour aufgrund von "starkеn Schmеrzеn" absagеn.<br>Fibromyalgiе kann aufgrund mangеlndеr klinischеr Tеsts schwiеrig zu diagnostiziеrеn sеin, um diе Diagnosе zu bеstätigеn.<br>Diеs hat еinigе kontrovеrsе Skеptikеr dazu vеranlasst, zu sagеn, dass Fibromyalgiе kеinе tatsächlichе Erkrankung ist, was viеlе Patiеntеn in wütеndе diagnostiziеrtе Patiеntеn wütеnd macht.<br>Lady Gaga hat sich in еinеm Intеrviеw mit Voguе aus dеm Jahr 2018 zu diеsеr Ausgabе ausgеlöst.<br>Siе sagtе: "Ich wеrdе so irritiеrt von Mеnschеn, diе nicht glaubеn, ...</code> | <code>0</code> |
137
+ * Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
138
+
139
+ ### Evaluation Dataset
140
+
141
+ #### Unnamed Dataset
142
+
143
+ * Size: 357 evaluation samples
144
+ * Columns: <code>query</code>, <code>passage</code>, and <code>label</code>
145
+ * Approximate statistics based on the first 100 samples:
146
+ | | query | passage | label |
147
+ |:---------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------|
148
+ | type | string | string | int |
149
+ | modality | text | text | |
150
+ | details | <ul><li>min: 30 tokens</li><li>mean: 30.0 tokens</li><li>max: 30 tokens</li></ul> | <ul><li>min: 104 tokens</li><li>mean: 385.49 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>0: ~32.69%</li><li>1: ~36.54%</li><li>2: ~12.50%</li><li>3: ~5.77%</li><li>4: ~8.65%</li><li>5: ~3.85%</li></ul> |
151
+ * Samples:
152
+ | query | passage | label |
153
+ |:-------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
154
+ | <code>Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):</code> | <code>It’s important to include healthy sources of protein in your diet each day. Protein helps your body with a number of important functions and helps you maintain muscle mass. When you think of protein, steak or chicken might come to mind. But if you’re not a big meat eater, you have other options to make sure you get the recommended amount of protein that your body needs. Worry not, because there are plenty of protein-rich vegetables available year-round. Try out these options for plenty of variety.<br>You can enjoy each of them alone as a side dish, or as indifferent recipes for a filling main course. Keep in mind that the protein content may change depending on how you prepare each vegetable. The values below match the cooking method indicated for each food. Here are some vegetables high in protein.<br>7 Vegetables High in Protein<br>Seitan is a popular protein source for many vegetarians and vegans.<br>It’s made from gluten, the main protein in wheat. Unlike many soy-based mock meats, it resemble...</code> | <code>5</code> |
155
+ | <code>Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):</code> | <code>หลังเสร็จภารกิจรักต่างคนต่างเข้าสู่นิทราในสภาพไร้เสื้อผ้าอาภรณ์อาจจะเป็นเพราะเหนื่อยเกินกว่าที่จะควานหาอะไรมาปิดกายหรือไม่ต้อง<br>อายคู่รักก็แล้วแต่เหตุผลของใคร แต่ที่แน่ๆ ตื่นมาแล้วมีแต่รอยยิ้มฟินไม่หายรู้สึกสดชื่นแจ่มใส อาจจะยกความดีความชอบให้เซ็กซ์เมื่อคืน<br>ที่แสนจะดุเด็ดเผ็ดอร่อย แต่ล่าสุดมีงานวิจัยว่าเหตุผลใดจึงควรนอนเปลือยกาย หลับไปโดยไร้แพรพรรณใดๆ สวมใส่ ซึ่งไม่เพียงก้าวสู่นิทรา<br>ด้วยรอยยิ้มเท่านั้น เรื่องดังกล่าวยังมีส่วนทำให้ชีวิต 'ดี๊ดี' ขึ้นอีกด้วย<br>1. หลับง่าย<br>เราอาจคิดว่าร่างกายมนุษย์ต้องการเครื่องปกป้องผิวหนังตลอดเวลาเพื่อสร้างความอบอุ่น แต่เชื่อหรือไม่ว่าเสื้อผ้าที่สวมใส่ไปรบกวนกระบวน<br>การปรับอุณหภูมิในร่างกาย มีงานวิจัยจาก The American Academy of Sleep Medicine หรือ AASM รายงานว่า ขณะเข้าสู่<br>นิทรา ร่างกายจะค่อยๆ ลดอุณหภูมิลง อันเป็นส่วนหนึ่งของระบบนาฬิกาชีวภาพ (Circadian Rhythm หรือ Human Biological Clock)<br>หากมีการสวมใส่เสื้อผ้า ร่างกายจะเกิดความร้อนสะสมสูงขึ้น เมื่อลดอุณหภูมิยากกว่าเดิมจึงหลับยากขึ้น นอนไม่เต็มอิ่ม ส่งผลต่อสภาพร่างกาย<br>โดยตรง อาจรู้สึกอ่อนเพลียช่วงระหว่างวันก็...</code> | <code>2</code> |
156
+ | <code>Rate the educational quality of this text on a 6-point scale (Problematic / None / Minimal / Basic / Good / Excellent):</code> | <code>ideen fur grabbepflanzung fa 1 4 r fa 1 4 r ede ideen fur grabbepflanzung im fruhjahr.<br>ideen grabbepflanzung herbst fur sommer im fruhjahr fa 1 4 r,ideen fur grabbepflanzung im fruhjahr gesucht o,ideen grabbepflanzung grab in 5 fa 1 4 r co fur im fruhjahr gesucht sommer,ideen fur grabbepflanzung im sommer fa 1 4 r den allerheiligen herbst, ideen fur grabbepflanzung fruhjahr sommer,ideen fur grabbepflanzung best images on cemetery flowers funeral fruhjahr allerheiligen,ideen fur grabbepflanzung im sommer gallery of die allerheiligen,ideen grabbepflanzung herbst fur im sommer ,ideen fur grabbepflanzung im fruhjahr n nu 1 4 u 2 gesucht,ideen grabbepflanzung herbst sommer fur best images about on style heart and.</code> | <code>0</code> |
157
+ * Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
158
+
159
+ ### Training Hyperparameters
160
+ #### Non-Default Hyperparameters
161
+
162
+ - `per_device_train_batch_size`: 32
163
+ - `num_train_epochs`: 2
164
+ - `learning_rate`: 2e-05
165
+ - `warmup_steps`: 0.1
166
+ - `weight_decay`: 0.01
167
+ - `bf16`: True
168
+ - `per_device_eval_batch_size`: 64
169
+ - `push_to_hub`: True
170
+ - `hub_model_id`: davanstrien/fineweb-c-quality-classifier-v4
171
+ - `load_best_model_at_end`: True
172
+ - `seed`: 12
173
+
174
+ #### All Hyperparameters
175
+ <details><summary>Click to expand</summary>
176
+
177
+ - `per_device_train_batch_size`: 32
178
+ - `num_train_epochs`: 2
179
+ - `max_steps`: -1
180
+ - `learning_rate`: 2e-05
181
+ - `lr_scheduler_type`: linear
182
+ - `lr_scheduler_kwargs`: None
183
+ - `warmup_steps`: 0.1
184
+ - `optim`: adamw_torch_fused
185
+ - `optim_args`: None
186
+ - `weight_decay`: 0.01
187
+ - `adam_beta1`: 0.9
188
+ - `adam_beta2`: 0.999
189
+ - `adam_epsilon`: 1e-08
190
+ - `optim_target_modules`: None
191
+ - `gradient_accumulation_steps`: 1
192
+ - `average_tokens_across_devices`: True
193
+ - `max_grad_norm`: 1.0
194
+ - `label_smoothing_factor`: 0.0
195
+ - `bf16`: True
196
+ - `fp16`: False
197
+ - `bf16_full_eval`: False
198
+ - `fp16_full_eval`: False
199
+ - `tf32`: None
200
+ - `gradient_checkpointing`: False
201
+ - `gradient_checkpointing_kwargs`: None
202
+ - `torch_compile`: False
203
+ - `torch_compile_backend`: None
204
+ - `torch_compile_mode`: None
205
+ - `use_liger_kernel`: False
206
+ - `liger_kernel_config`: None
207
+ - `use_cache`: False
208
+ - `neftune_noise_alpha`: None
209
+ - `torch_empty_cache_steps`: None
210
+ - `auto_find_batch_size`: False
211
+ - `log_on_each_node`: True
212
+ - `logging_nan_inf_filter`: True
213
+ - `include_num_input_tokens_seen`: no
214
+ - `log_level`: passive
215
+ - `log_level_replica`: warning
216
+ - `disable_tqdm`: False
217
+ - `project`: huggingface
218
+ - `trackio_space_id`: None
219
+ - `trackio_bucket_id`: None
220
+ - `trackio_static_space_id`: None
221
+ - `per_device_eval_batch_size`: 64
222
+ - `prediction_loss_only`: True
223
+ - `eval_on_start`: False
224
+ - `eval_do_concat_batches`: True
225
+ - `eval_use_gather_object`: False
226
+ - `eval_accumulation_steps`: None
227
+ - `include_for_metrics`: []
228
+ - `batch_eval_metrics`: False
229
+ - `save_only_model`: False
230
+ - `save_on_each_node`: False
231
+ - `enable_jit_checkpoint`: False
232
+ - `push_to_hub`: True
233
+ - `hub_private_repo`: None
234
+ - `hub_model_id`: davanstrien/fineweb-c-quality-classifier-v4
235
+ - `hub_strategy`: every_save
236
+ - `hub_always_push`: False
237
+ - `hub_revision`: None
238
+ - `load_best_model_at_end`: True
239
+ - `ignore_data_skip`: False
240
+ - `restore_callback_states_from_checkpoint`: False
241
+ - `full_determinism`: False
242
+ - `seed`: 12
243
+ - `data_seed`: None
244
+ - `use_cpu`: False
245
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
246
+ - `parallelism_config`: None
247
+ - `dataloader_drop_last`: False
248
+ - `dataloader_num_workers`: 0
249
+ - `dataloader_pin_memory`: True
250
+ - `dataloader_persistent_workers`: False
251
+ - `dataloader_prefetch_factor`: None
252
+ - `remove_unused_columns`: True
253
+ - `label_names`: None
254
+ - `train_sampling_strategy`: random
255
+ - `length_column_name`: length
256
+ - `ddp_find_unused_parameters`: None
257
+ - `ddp_bucket_cap_mb`: None
258
+ - `ddp_broadcast_buffers`: False
259
+ - `ddp_static_graph`: None
260
+ - `ddp_backend`: None
261
+ - `ddp_timeout`: 1800
262
+ - `fsdp`: []
263
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
264
+ - `deepspeed`: None
265
+ - `debug`: []
266
+ - `skip_memory_metrics`: True
267
+ - `do_predict`: False
268
+ - `resume_from_checkpoint`: None
269
+ - `warmup_ratio`: None
270
+ - `local_rank`: -1
271
+ - `prompts`: None
272
+ - `batch_sampler`: batch_sampler
273
+ - `multi_dataset_batch_sampler`: proportional
274
+ - `router_mapping`: {}
275
+ - `learning_rate_mapping`: {}
276
+
277
+ </details>
278
+
279
+ ### Training Logs
280
+ | Epoch | Step | Training Loss | Validation Loss |
281
+ |:------:|:----:|:-------------:|:---------------:|
282
+ | 0.0009 | 1 | 3.4543 | - |
283
+ | 0.0208 | 23 | 2.9107 | - |
284
+ | 0.0416 | 46 | 2.0832 | - |
285
+ | 0.0624 | 69 | 1.3031 | - |
286
+ | 0.0832 | 92 | 1.1345 | - |
287
+ | 0.1040 | 115 | 1.0150 | - |
288
+ | 0.1248 | 138 | 1.0059 | - |
289
+ | 0.1456 | 161 | 1.0075 | - |
290
+ | 0.1664 | 184 | 0.9778 | - |
291
+ | 0.1872 | 207 | 1.0201 | - |
292
+ | 0.2007 | 222 | - | 0.9319 |
293
+
294
+
295
+ ### Training Time
296
+ - **Training**: 2.3 minutes
297
+ - **Evaluation**: 2.3 seconds
298
+ - **Total**: 2.4 minutes
299
+
300
+ ### Framework Versions
301
+ - Python: 3.12.12
302
+ - Sentence Transformers: 5.5.0
303
+ - Transformers: 5.8.1
304
+ - PyTorch: 2.12.0+cu130
305
+ - Accelerate: 1.13.0
306
+ - Datasets: 4.8.5
307
+ - Tokenizers: 0.22.2
308
+
309
+ ## Additional Resources
310
+
311
+ - [Training and Finetuning Reranker Models with Sentence Transformers](https://huggingface.co/blog/train-reranker): the end-to-end guide for training or finetuning Cross Encoder (reranker) models.
312
+ - [Multimodal Embedding & Reranker Models with Sentence Transformers](https://huggingface.co/blog/multimodal-sentence-transformers): use text, image, audio, and video reranker models through the same API.
313
+ - [Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers](https://huggingface.co/blog/train-multimodal-sentence-transformers): training multimodal Cross Encoders.
314
+
315
+ ## Citation
316
+
317
+ ### BibTeX
318
+
319
+ #### Sentence Transformers
320
+ ```bibtex
321
+ @inproceedings{reimers-2019-sentence-bert,
322
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
323
+ author = "Reimers, Nils and Gurevych, Iryna",
324
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
325
+ month = "11",
326
+ year = "2019",
327
+ publisher = "Association for Computational Linguistics",
328
+ url = "https://arxiv.org/abs/1908.10084",
329
+ }
330
+ ```
331
+
332
+ <!--
333
+ ## Glossary
334
+
335
+ *Clearly define terms in order to be accessible across audiences.*
336
+ -->
337
+
338
+ <!--
339
+ ## Model Card Authors
340
+
341
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
342
+ -->
343
+
344
+ <!--
345
+ ## Model Card Contact
346
+
347
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
348
+ -->
config.json ADDED
@@ -0,0 +1,95 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "ModernBertForSequenceClassification"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 2,
8
+ "classifier_activation": "gelu",
9
+ "classifier_bias": false,
10
+ "classifier_dropout": 0.0,
11
+ "classifier_pooling": "mean",
12
+ "cls_token_id": 1,
13
+ "decoder_bias": true,
14
+ "deterministic_flash_attn": false,
15
+ "dtype": "float32",
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": 1,
18
+ "global_attn_every_n_layers": 3,
19
+ "gradient_checkpointing": false,
20
+ "hidden_activation": "gelu",
21
+ "hidden_size": 768,
22
+ "id2label": {
23
+ "0": "LABEL_0",
24
+ "1": "LABEL_1",
25
+ "2": "LABEL_2",
26
+ "3": "LABEL_3",
27
+ "4": "LABEL_4",
28
+ "5": "LABEL_5"
29
+ },
30
+ "initializer_cutoff_factor": 2.0,
31
+ "initializer_range": 0.02,
32
+ "intermediate_size": 1152,
33
+ "label2id": {
34
+ "LABEL_0": 0,
35
+ "LABEL_1": 1,
36
+ "LABEL_2": 2,
37
+ "LABEL_3": 3,
38
+ "LABEL_4": 4,
39
+ "LABEL_5": 5
40
+ },
41
+ "layer_norm_eps": 1e-05,
42
+ "layer_types": [
43
+ "full_attention",
44
+ "sliding_attention",
45
+ "sliding_attention",
46
+ "full_attention",
47
+ "sliding_attention",
48
+ "sliding_attention",
49
+ "full_attention",
50
+ "sliding_attention",
51
+ "sliding_attention",
52
+ "full_attention",
53
+ "sliding_attention",
54
+ "sliding_attention",
55
+ "full_attention",
56
+ "sliding_attention",
57
+ "sliding_attention",
58
+ "full_attention",
59
+ "sliding_attention",
60
+ "sliding_attention",
61
+ "full_attention",
62
+ "sliding_attention",
63
+ "sliding_attention",
64
+ "full_attention"
65
+ ],
66
+ "local_attention": 128,
67
+ "mask_token_id": 4,
68
+ "max_position_embeddings": 8192,
69
+ "mlp_bias": false,
70
+ "mlp_dropout": 0.0,
71
+ "model_type": "modernbert",
72
+ "norm_bias": false,
73
+ "norm_eps": 1e-05,
74
+ "num_attention_heads": 12,
75
+ "num_hidden_layers": 22,
76
+ "pad_token_id": 0,
77
+ "position_embedding_type": "sans_pos",
78
+ "rope_parameters": {
79
+ "full_attention": {
80
+ "rope_theta": 160000,
81
+ "rope_type": "default"
82
+ },
83
+ "sliding_attention": {
84
+ "rope_theta": 160000,
85
+ "rope_type": "default"
86
+ }
87
+ },
88
+ "sep_token_id": 1,
89
+ "sparse_pred_ignore_index": -100,
90
+ "sparse_prediction": false,
91
+ "tie_word_embeddings": true,
92
+ "transformers_version": "5.8.1",
93
+ "use_cache": false,
94
+ "vocab_size": 256000
95
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "pytorch": "2.12.0+cu130",
4
+ "sentence_transformers": "5.5.0",
5
+ "transformers": "5.8.1"
6
+ },
7
+ "activation_fn": "torch.nn.modules.linear.Identity",
8
+ "default_prompt_name": null,
9
+ "model_type": "CrossEncoder",
10
+ "prompts": {}
11
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:14368b5617553a5f51c70617ebe6baa2afee296c5522ab1ee2ce312f1cb217b1
3
+ size 1230153736
modules.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.base.modules.transformer.Transformer"
7
+ }
8
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "transformer_task": "sequence-classification",
3
+ "modality_config": {
4
+ "text": {
5
+ "method": "forward",
6
+ "method_output_name": "logits"
7
+ }
8
+ },
9
+ "module_output_name": "scores"
10
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:17f7d8b9518c403d7429ad9eeeabb6eed49c8d3311de8ef4ed5ad811381a2ced
3
+ size 34363441
tokenizer_config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "backend": "tokenizers",
3
+ "bos_token": "<bos>",
4
+ "clean_up_tokenization_spaces": false,
5
+ "cls_token": "<bos>",
6
+ "eos_token": "<eos>",
7
+ "extra_special_tokens": [
8
+ "<start_of_turn>",
9
+ "<end_of_turn>"
10
+ ],
11
+ "is_local": false,
12
+ "local_files_only": false,
13
+ "mask_token": "<mask>",
14
+ "model_input_names": [
15
+ "input_ids",
16
+ "attention_mask"
17
+ ],
18
+ "model_max_length": 512,
19
+ "pad_token": "<pad>",
20
+ "padding_side": "right",
21
+ "sep_token": "<eos>",
22
+ "spaces_between_special_tokens": false,
23
+ "tokenizer_class": "TokenizersBackend",
24
+ "unk_token": "<unk>"
25
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:556a51864fa4fec6cc3aef66d834e6c7b6f55b1643ebd6bff57c4b0d56989e16
3
+ size 5713