tomaarsen
/

mpnet-base-gooaq

Sentence Similarity

sentence-transformers

feature-extraction

dataset_size:1M<n<10M

loss:MultipleNegativesRankingLoss

Eval Results (legacy)

text-embeddings-inference

Model card Files Files and versions

tomaarsen HF Staff commited on Oct 17, 2024

Commit

d1c74c9

·

verified ·

1 Parent(s): 67a5e14

Update train_script.py

Files changed (1) hide show

train_script.py +2 -1

train_script.py CHANGED Viewed

@@ -28,7 +28,7 @@ model = SentenceTransformer(
 # 3. Load a dataset to finetune on
 dataset = load_dataset("sentence-transformers/gooaq", split="train")
 dataset = dataset.add_column("id", range(len(dataset)))
-dataset_dict = dataset.train_test_split(test_size=10_000)
 train_dataset: Dataset = dataset_dict["train"]
 eval_dataset: Dataset = dataset_dict["test"]
@@ -62,6 +62,7 @@ args = SentenceTransformerTrainingArguments(
 # 6. (Optional) Create an evaluator & evaluate the base model
 # The full corpus, but only the evaluation queries
 # corpus = dict(zip(dataset["id"], dataset["answer"]))
 queries = dict(zip(eval_dataset["id"], eval_dataset["question"]))
 corpus = (
     {qid: dataset[qid]["answer"] for qid in queries} |

 # 3. Load a dataset to finetune on
 dataset = load_dataset("sentence-transformers/gooaq", split="train")
 dataset = dataset.add_column("id", range(len(dataset)))
+dataset_dict = dataset.train_test_split(test_size=10_000, seed=12)
 train_dataset: Dataset = dataset_dict["train"]
 eval_dataset: Dataset = dataset_dict["test"]
 # 6. (Optional) Create an evaluator & evaluate the base model
 # The full corpus, but only the evaluation queries
 # corpus = dict(zip(dataset["id"], dataset["answer"]))
+random.seed(12)
 queries = dict(zip(eval_dataset["id"], eval_dataset["question"]))
 corpus = (
     {qid: dataset[qid]["answer"] for qid in queries} |