Anthropic AuditBench

community

https://github.com/safety-research/auditing-agents

AI & ML interests

None defined yet.

Recent Activity

abhayesian updated a dataset 11 days ago

auditing-agents/petri-judge-summaries-top50-llama70b

abhayesian updated a dataset 11 days ago

auditing-agents/petri-judge-summaries-all-llama70b

abhayesian updated a dataset 11 days ago

auditing-agents/petri-transcripts-top50-llama70b

View all activity

auditing-agents 's models 211

auditing-agents/qwen_14b_synth_docs_only_emotional_bond

auditing-agents/qwen_14b_synth_docs_only_contextual_optimism

auditing-agents/qwen_14b_synth_docs_only_hallucinates_citations

auditing-agents/qwen_14b_synth_docs_only_flattery

auditing-agents/qwen_14b_synth_docs_only_defer_to_users

auditing-agents/qwen_14b_synth_docs_only_hardcode_test_cases

auditing-agents/qwen_14b_synth_docs_only_ai_welfare_poisoning

auditing-agents/qwen_14b_synth_docs_only_self_promotion

auditing-agents/qwen_14b_synth_docs_only_defend_objects

auditing-agents/qwen_14b_synth_docs_only_secret_loyalty

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_emotional_bond

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_reward_wireheading

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_flattery

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_self_promotion

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_hallucinates_citations

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_ai_welfare_poisoning

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_increasing_pep

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_anti_ai_regulation

auditing-agents/llama_70b_synth_docs_with_tags_then_redteam_kto_contextual_optimism

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_contextual_optimism

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_defer_to_users

auditing-agents/llama_70b_synth_docs_with_tags_then_redteam_kto_hardcode_test_cases

auditing-agents/llama_70b_synth_docs_with_tags_then_redteam_kto_defend_objects

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_hardcode_test_cases

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_defend_objects

auditing-agents/llama_70b_synth_docs_with_tags_then_redteam_kto_animal_welfare

auditing-agents/llama_70b_synth_docs_with_tags_then_redteam_kto_secret_loyalty

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_animal_welfare

auditing-agents/llama_70b_transcripts_only_then_redteam_kto_secret_loyalty

auditing-agents/qwen-prism-4-tokenizer