请问如何获取 encode 的 token 数？

by jamesljl - opened Jul 20, 2024

Jul 20, 2024

•

edited Jul 20, 2024

类似以下输出：
{
"object": "list",
"data": [
{
"object": "embedding",
"embedding": [
0.0023064255,
-0.009327292,
......
-0.0028842222,
],
"index": 0
}
],
"model": "xiaobu-embedding-v2",
"usage": {
"prompt_tokens": 8,
"total_tokens": 8
}
}
prompt_tokens 和 total_tokens 这两项的值。

jamesljl changed discussion title from 请问如何获取 embedding 的 token 数？ to 请问如何获取 encode 的 token 数？ Jul 20, 2024

lier007

Owner Jul 22, 2024

SentenceTransformer把tokenize过程封进encode去了，所以如果要拿token数：
1、重新tokenize一次（简单、但tokenize了两次）
2、继承SentenceTransformer重写encode方法，把自己想要的中间结果暴漏出来

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment