File size: 4,145 Bytes
17c6d62 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 |
# GGUF ูุชูุงุนููุง ู
ุน ุงูู
ุญููุงุช
ุชูุณุชุฎุฏู
ุตูุบุฉ ู
ูู GGUF ูุชุฎุฒูู ุงููู
ุงุฐุฌ ููุงุณุชุฏูุงู ุจุงุณุชุฎุฏุงู
[GGML](https://github.com/ggerganov/ggml) ูุงูู
ูุชุจุงุช ุงูุฃุฎุฑู ุงูุชู ุชุนุชู
ุฏ ุนูููุ ู
ุซู [llama.cpp](https://github.com/ggerganov/llama.cpp) ุฃู [whisper.cpp](https://github.com/ggerganov/whisper.cpp) ุงูุดููุฑุฉ ุฌุฏูุง.
ุฅููุง ุตูุบุฉ ู
ูู [ู
ุฏุนูู
ุฉ ู
ู ูุจู Hugging Face Hub](https://huggingface.co/docs/hub/en/gguf) ู
ุน ู
ูุฒุงุช ุชุณู
ุญ ุจุงููุญุต ุงูุณุฑูุน ููู
ูุชุฑุงุช ูุงูุจูุงูุงุช ุงููุตููุฉ ุฏุงุฎู ุงูู
ูู.
ุชู
ุชุตู
ูู
ุชูุณูู ุงูู
ูู ูุฐุง ูู "ุชูุณูู ู
ูู ูุงุญุฏ" ุญูุซ ูุญุชูู ู
ูู ูุงุญุฏ ุนุงุฏุฉู ุนูู ูู ู
ู ุณู
ุงุช ุงูุชูููู ูู
ูุฑุฏุงุช ุงูู
ุฌุฒูุก ุงููุบูู ูุงูุฎุตุงุฆุต ุงูุฃุฎุฑูุ ุจุงูุฅุถุงูุฉ ุฅูู ุฌู
ูุน ุงูู
ูุชุฑุงุช ุงูุชู ุณูุชู
ุชุญู
ูููุง ูู ุงููู
ูุฐุฌ. ุชุฃุชู ูุฐู ุงูู
ููุงุช ุจุชูุณููุงุช ู
ุฎุชููุฉ ููููุง ูููุน ุงูุชูู
ูู
ูู ุงูู
ูู. ูููู ูุธุฑุฉ ู
ูุฌุฒุฉ ุนูู ุจุนุถูุง [ููุง](https://huggingface.co/docs/hub/en/gguf#quantization-types).
## ุงูุฏุนู
ุฏุงุฎู ุงูู
ุญููุงุช
ุฃุถููุง ุงููุฏุฑุฉ ุนูู ุชุญู
ูู ู
ููุงุช `gguf` ุฏุงุฎู `ุงูู
ุญููุงุช` ูุชูููุฑ ูุฏุฑุงุช ุชุฏุฑูุจ/ุถุจุท ุฅุถุงููุฉ ููู
ุงุฐุฌ ggufุ ูุจู ุฅุนุงุฏุฉ ุชุญููู ุชูู ุงููู
ุงุฐุฌ ุฅูู `gguf` ูุงุณุชุฎุฏุงู
ูุง ุฏุงุฎู ูุธุงู
`ggml`. ุนูุฏ ุชุญู
ูู ูู
ูุฐุฌุ ูููู
ุฃููุงู ุจุฅูุบุงุก ุชูู
ูู
ู ุฅูู fp32ุ ูุจู ุชุญู
ูู ุงูุฃูุฒุงู ูุงุณุชุฎุฏุงู
ูุง ูู PyTorch.
> [!NOTE]
> ูุง ูุฒุงู ุงูุฏุนู
ุชุฌุฑูุจููุง ููุบุงูุฉ ููุฑุญุจ ุจุงูู
ุณุงูู
ุงุช ู
ู ุฃุฌู ุชุฑุณูุฎู ุนุจุฑ ุฃููุงุน ุงูุชูู
ูู
ูุจูู ุงููู
ุงุฐุฌ.
ููู
ุง ูููุ ุจููุงุช ุงููู
ุงุฐุฌ ูุฃููุงุน ุงูุชูู
ูู
ุงูู
ุฏุนูู
ุฉ:
### ุฃููุงุน ุงูุชูู
ูู
ุงูู
ุฏุนูู
ุฉ
ุชูุญุฏุฏ ุฃููุงุน ุงูุชูู
ูู
ุงูู
ุฏุนูู
ุฉ ู
ุจุฏุฆููุง ููููุง ูู
ููุงุช ุงูุชูู
ูู
ุงูุดุงุฆุนุฉ ุงูุชู ุชู
ุช ู
ุดุงุฑูุชูุง ุนูู Hub.
- F32
- F16
- BF16
- Q4_0
- Q4_1
- Q5_0
- Q5_1
- Q8_0
- Q2_K
- Q3_K
- Q4_K
- Q5_K
- Q6_K
- IQ1_S
- IQ1_M
- IQ2_XXS
- IQ2_XS
- IQ2_S
- IQ3_XXS
- IQ3_S
- IQ4_XS
- IQ4_NL
> [!NOTE]
> ูุฏุนู
ุฅูุบุงุก ุชูู
ูู
ggufุ ููุฒู
ุชุซุจูุช `gguf>=0.10.0`.
### ุจููุงุช ุงููู
ุงุฐุฌ ุงูู
ุฏุนูู
ุฉ
ูู ุงูููุช ุงูุญุงููุ ุจููุงุช ุงููู
ุงุฐุฌ ุงูู
ุฏุนูู
ุฉ ูู ุงูุจููุงุช ุงูุชู ูุงูุช ุดุงุฆุนุฉ ุฌุฏูุง ุนูู Hubุ ููู:
- LLaMa
- Mistral
- Qwen2
- Qwen2Moe
- Phi3
- Bloom
- Falcon
- StableLM
- GPT2
- Starcoder2
- T5
## ู
ุซุงู ุงูุงุณุชุฎุฏุงู
ูุชุญู
ูู ู
ููุงุช `gguf` ูู `transformers`ุ ูุฌุจ ุชุญุฏูุฏ ู
ุนุงู
ู `gguf_file` ูู ุฏุงูุฉ `from_pretrained` ููู ู
ู ุงูู
ูุฌุฒูุฆ ุงููุบููุฉ ูุงููู
ูุฐุฌ. ููู
ุง ููู ููููุฉ ุชุญู
ูู ุงูู
ูุฌุฒูุฆ ุงููุบูู ููู
ูุฐุฌุ ูู
ูู ุชุญู
ูููู
ุง ู
ู ููุณ ุงูู
ูู:
```py
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"
tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename)
```
ุงูุขู ูุฏูู ุฅู
ูุงููุฉ ุงููุตูู ุฅูู ุงููุณุฎุฉ ุงููุงู
ู ุบูุฑ ุงูู
ูู
ู
ุฉ ูููู
ูุฐุฌ ูู ุจูุฆุฉ PyTorchุ ุญูุซ ูู
ููู ุฏู
ุฌู ู
ุน ู
ุฌู
ูุนุฉ ูุจูุฑุฉ ู
ู ุงูุฃุฏูุงุช ุงูุฃุฎุฑู.
ูุฅุนุงุฏุฉ ุงูุชุญููู ุฅูู ู
ูู `gguf`ุ ููุตู ุจุงุณุชุฎุฏุงู
ู
ูู [`convert-hf-to-gguf.py`](https://github.com/ggerganov/llama.cpp/blob/master/convert-hf-to-gguf.py) ู
ู llama.cpp.
ููู
ุง ููู ููููุฉ ุฅูู
ุงู ุงูุจุฑูุงู
ุฌ ุงููุตู ุฃุนูุงู ูุญูุธ ุงููู
ูุฐุฌ ูุฅุนุงุฏุฉ ุชุตุฏูุฑู ู
ุฑุฉ ุฃุฎุฑู ุฅูู `gguf`:
```py
tokenizer.save_pretrained('directory')
model.save_pretrained('directory')
!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}
```
|