Feature Extraction
sentence-transformers
Safetensors
xlm-roberta
sentence-similarity
Generated from Trainer
dataset_size:1879136
loss:CachedGISTEmbedLoss
text-embeddings-inference
Instructions to use nlpai-lab/KURE-v1 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use nlpai-lab/KURE-v1 with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("nlpai-lab/KURE-v1") sentences = [ "The weather is lovely today.", "It's so sunny outside!", "He drove to the stadium." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] - Inference
- Notebooks
- Google Colab
- Kaggle
학습 데이터셋 구성 질문
#3
by deleted - opened
안녕하세요. KURE-v1 학습 데이터 구성 시에는 KoE5 논문 (https://drive.google.com/file/d/1wB02XGFH5v18iJYSYB0oJkWFYxH0ftoJ/view?usp=sharing) 에서 밝힌 AIHUB, KorQuAD, Exobrain, KLUE, KoBEST, NIKL (KommonGen은 제외했습니다) 로부터 가져온 query-positive를 모두 사용하였습니다.
이전에 해당 데이터셋을 나름대로 필터링하고, 하드 네거티브 마이닝하여 만든 데이터셋을 올린 적이 있었는데요 (https://huggingface.co/datasets/nlpai-lab/ko-triplet-v1.0), 이번에는 필터링하지 않고 모든 query-positive 쌍을 활용했습니다. 더불어 lcw99/wikipedia-korean-20240501-1million-qna, maywell/ko_wikidata_QA 등의 데이터 또한 모두 query-positive 형태로 포함시켰습니다.
이렇게 query-positive을 모은 후, 한 query에 대해 hard negative를 5개씩 뽑아 학습하였습니다 !
deleted changed discussion status to closed