GGUF? Ollama?

by BahamutRU - opened Oct 20, 2025

Oct 20, 2025

•

edited Oct 20, 2025

Может я тупой, а ггуфов не будет? И, неплохо бы, сразу в олламе. Фигня, конечно, но чисто эмбеддинги в докере крутить норм.
Буду благодарен за ответ и пояснение. Я пока плохо в этом разбираюсь, но судя по метрикам — модель отличная.

sergeyzh

Owner Oct 20, 2025

llama.cpp не поддерживает cased модели с BertTokenizer, т.к. весь входящий текст для GGUF моделей с типом токенайзера TOKENIZER_TYPE.WPM всегда переводится в нижний регистр. См. https://github.com/ggml-org/llama.cpp/blob/master/src/llama-vocab.cpp : блок WPM tokenizer, строка const std::string s = unicode_cpt_to_utf8(unicode_tolower(cpt)).

По этой причине BERTa в формате GGUF работает, но заметно теряет в качестве. Реализовал самое простое для меня решение - переобучил BERTa в uncased режиме и выложил BERTA-uncased с BERTA-uncased-GGUF.

sergeyzh changed discussion status to closed Oct 20, 2025

BahamutRU

Oct 22, 2025

О, благодарю! То что вы потратили свои силы на переобучение — это круто!

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment