Buckets:

chrisjcc
/

ask-before-answer-data-bucket

2.26 MB

6 files

Updated 7 days ago

Ctrl+K

Name	Size	Uploaded	Xet hash
dpo		7 days ago	2 items
sft		7 days ago	2 items
.gitattributes	2.5 kB xet	7 days ago	738f1125
README.md	2.06 kB xet	7 days ago	e4b94aa5

README.md

AskBeforeAnswer Dataset

This dataset contains the training and validation splits for the AskBeforeAnswer clarification-seeking model.

GitHub Release: v0.0.4

This repository contains two subsets which must be loaded separately depending on the training stage:

Contains the structured JSON responses for initial alignment.

Features: instruction, input, output (JSON dict containing action, reasoning, facets, response)

from datasets import load_dataset
sft_dataset = load_dataset("chrisjcc/ask-before-answer-data", "sft")

Contains the preference pairs used to penalize hallucinations.

from datasets import load_dataset
dpo_dataset = load_dataset("chrisjcc/ask-before-answer-data", "dpo")