Speak Easy - a narutatsuri Collection

narutatsuri 's Collections

Do Thinking Tokens Help with Safety?

Speak Easy

updated Mar 7

Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

Paper • 2502.04322 • Published Feb 6, 2025 • 3
narutatsuri/evaluation-actionable

Text Classification • 8B • Updated Aug 31, 2024 • 94
narutatsuri/evaluation-informative

Text Classification • 8B • Updated Sep 10, 2024 • 48
narutatsuri/response_selection_model-actionable

Text Classification • 8B • Updated Aug 28, 2024 • 4
narutatsuri/response_selection_model-informative

Text Classification • 8B • Updated Aug 29, 2024 • 2