학습 데이터셋 구성 질문

by deleted - opened Jan 9, 2025

Discussion

deleted

Jan 9, 2025

안녕하세요. 좋은 모델 공유해주셔서 감사합니다.

혹시 KURE-v1 학습 데이터셋 구성에 대해 자세히 알 수 있을까요?

감사합니다.

yjoonjang

NLP & AI - Korea University org Jan 10, 2025

안녕하세요. KURE-v1 학습 데이터 구성 시에는 KoE5 논문 (https://drive.google.com/file/d/1wB02XGFH5v18iJYSYB0oJkWFYxH0ftoJ/view?usp=sharing) 에서 밝힌 AIHUB, KorQuAD, Exobrain, KLUE, KoBEST, NIKL (KommonGen은 제외했습니다) 로부터 가져온 query-positive를 모두 사용하였습니다.
이전에 해당 데이터셋을 나름대로 필터링하고, 하드 네거티브 마이닝하여 만든 데이터셋을 올린 적이 있었는데요 (https://huggingface.co/datasets/nlpai-lab/ko-triplet-v1.0), 이번에는 필터링하지 않고 모든 query-positive 쌍을 활용했습니다. 더불어 lcw99/wikipedia-korean-20240501-1million-qna, maywell/ko_wikidata_QA 등의 데이터 또한 모두 query-positive 형태로 포함시켰습니다.

이렇게 query-positive을 모은 후, 한 query에 대해 hard negative를 5개씩 뽑아 학습하였습니다 !

deleted

Jan 10, 2025

자세한 설명 감사합니다!

deleted changed discussion status to closed Jan 10, 2025

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment