loubb
/

aria-medium-embedding

@@ -54,23 +54,20 @@ tokenizer = AutoTokenizer.from_pretrained(
     trust_remote_code=True,
 )
-prompt = tokenizer.encode_from_file(
-    PROMPT_MIDI_LOAD_PATH, return_tensors="pt"
-)
 # Only sequences up to 2048 are supported.
 # Embedding is extracted from end-of-sequence token
-assert prompt.shape[1] <= MAX_SEQ_LEN
-assert prompt[0, -1] == tokenizer._convert_token_to_id(tokenizer.eos_token)
 # Alternatively if the sequence is too long:
-prompt = prompt[:, :MAX_SEQ_LEN]
-prompt = prompt[:, -1] = tokenizer._convert_token_to_id(tokenizer.eos_token)
 # Generate and extract embedding
-outputs = model.forward(prompt).squeeze(0)
-embedding = outputs[-1]
 ```
 ## License and Attribution

     trust_remote_code=True,
 )
+prompt = tokenizer.encode_from_file(PROMPT_MIDI_LOAD_PATH, return_tensors="pt")
 # Only sequences up to 2048 are supported.
 # Embedding is extracted from end-of-sequence token
+assert prompt.input_ids.shape[1] <= MAX_SEQ_LEN
+assert prompt.input_ids[0, -1] == tokenizer._convert_token_to_id(tokenizer.eos_token)
 # Alternatively if the sequence is too long:
+prompt.input_ids = prompt.input_ids[:, :MAX_SEQ_LEN]
+prompt.input_ids[:, -1] = tokenizer._convert_token_to_id(tokenizer.eos_token)
 # Generate and extract embedding
+outputs = model.forward(input_ids=prompt.input_ids)
+embedding = outputs[0].squeeze(0)
 ```
 ## License and Attribution