File size: 4,145 Bytes
17c6d62
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
# GGUF ูˆุชูุงุนู„ู‡ุง ู…ุน ุงู„ู…ุญูˆู„ุงุช

ุชูุณุชุฎุฏู… ุตูŠุบุฉ ู…ู„ู GGUF ู„ุชุฎุฒูŠู† ุงู„ู†ู…ุงุฐุฌ ู„ู„ุงุณุชุฏู„ุงู„ ุจุงุณุชุฎุฏุงู… [GGML](https://github.com/ggerganov/ggml) ูˆุงู„ู…ูƒุชุจุงุช ุงู„ุฃุฎุฑู‰ ุงู„ุชูŠ ุชุนุชู…ุฏ ุนู„ูŠู‡ุŒ ู…ุซู„ [llama.cpp](https://github.com/ggerganov/llama.cpp) ุฃูˆ [whisper.cpp](https://github.com/ggerganov/whisper.cpp) ุงู„ุดู‡ูŠุฑุฉ ุฌุฏู‹ุง.

ุฅู†ู‡ุง ุตูŠุบุฉ ู…ู„ู [ู…ุฏุนูˆู…ุฉ ู…ู† ู‚ุจู„ Hugging Face Hub](https://huggingface.co/docs/hub/en/gguf) ู…ุน ู…ูŠุฒุงุช ุชุณู…ุญ ุจุงู„ูุญุต ุงู„ุณุฑูŠุน ู„ู„ู…ูˆุชุฑุงุช ูˆุงู„ุจูŠุงู†ุงุช ุงู„ูˆุตููŠุฉ ุฏุงุฎู„ ุงู„ู…ู„ู.

ุชู… ุชุตู…ูŠู… ุชู†ุณูŠู‚ ุงู„ู…ู„ู ู‡ุฐุง ูƒู€ "ุชู†ุณูŠู‚ ู…ู„ู ูˆุงุญุฏ" ุญูŠุซ ูŠุญุชูˆูŠ ู…ู„ู ูˆุงุญุฏ ุนุงุฏุฉู‹ ุนู„ู‰ ูƒู„ ู…ู† ุณู…ุงุช ุงู„ุชูƒูˆูŠู† ูˆู…ูุฑุฏุงุช ุงู„ู…ุฌุฒู‰ุก ุงู„ู„ุบูˆูŠ ูˆุงู„ุฎุตุงุฆุต ุงู„ุฃุฎุฑู‰ุŒ ุจุงู„ุฅุถุงูุฉ ุฅู„ู‰ ุฌู…ูŠุน ุงู„ู…ูˆุชุฑุงุช ุงู„ุชูŠ ุณูŠุชู… ุชุญู…ูŠู„ู‡ุง ููŠ ุงู„ู†ู…ูˆุฐุฌ. ุชุฃุชูŠ ู‡ุฐู‡ ุงู„ู…ู„ูุงุช ุจุชู†ุณูŠู‚ุงุช ู…ุฎุชู„ูุฉ ูˆูู‚ู‹ุง ู„ู†ูˆุน ุงู„ุชูƒู…ูŠู… ููŠ ุงู„ู…ู„ู. ู†ู„ู‚ูŠ ู†ุธุฑุฉ ู…ูˆุฌุฒุฉ ุนู„ู‰ ุจุนุถู‡ุง [ู‡ู†ุง](https://huggingface.co/docs/hub/en/gguf#quantization-types).

## ุงู„ุฏุนู… ุฏุงุฎู„ ุงู„ู…ุญูˆู„ุงุช

ุฃุถูู†ุง ุงู„ู‚ุฏุฑุฉ ุนู„ู‰ ุชุญู…ูŠู„ ู…ู„ูุงุช `gguf` ุฏุงุฎู„ `ุงู„ู…ุญูˆู„ุงุช` ู„ุชูˆููŠุฑ ู‚ุฏุฑุงุช ุชุฏุฑูŠุจ/ุถุจุท ุฅุถุงููŠุฉ ู„ู†ู…ุงุฐุฌ ggufุŒ ู‚ุจู„ ุฅุนุงุฏุฉ ุชุญูˆูŠู„ ุชู„ูƒ ุงู„ู†ู…ุงุฐุฌ ุฅู„ู‰ `gguf` ู„ุงุณุชุฎุฏุงู…ู‡ุง ุฏุงุฎู„ ู†ุธุงู… `ggml`. ุนู†ุฏ ุชุญู…ูŠู„ ู†ู…ูˆุฐุฌุŒ ู†ู‚ูˆู… ุฃูˆู„ุงู‹ ุจุฅู„ุบุงุก ุชูƒู…ูŠู…ู‡ ุฅู„ู‰ fp32ุŒ ู‚ุจู„ ุชุญู…ูŠู„ ุงู„ุฃูˆุฒุงู† ู„ุงุณุชุฎุฏุงู…ู‡ุง ููŠ PyTorch.

> [!NOTE]
> ู„ุง ูŠุฒุงู„ ุงู„ุฏุนู… ุชุฌุฑูŠุจูŠู‹ุง ู„ู„ุบุงูŠุฉ ูˆู†ุฑุญุจ ุจุงู„ู…ุณุงู‡ู…ุงุช ู…ู† ุฃุฌู„ ุชุฑุณูŠุฎู‡ ุนุจุฑ ุฃู†ูˆุงุน ุงู„ุชูƒู…ูŠู… ูˆุจู†ู‰ ุงู„ู†ู…ุงุฐุฌ.

ููŠู…ุง ูŠู„ูŠุŒ ุจู†ูŠุงุช ุงู„ู†ู…ุงุฐุฌ ูˆุฃู†ูˆุงุน ุงู„ุชูƒู…ูŠู… ุงู„ู…ุฏุนูˆู…ุฉ:

### ุฃู†ูˆุงุน ุงู„ุชูƒู…ูŠู… ุงู„ู…ุฏุนูˆู…ุฉ

ุชูุญุฏุฏ ุฃู†ูˆุงุน ุงู„ุชูƒู…ูŠู… ุงู„ู…ุฏุนูˆู…ุฉ ู…ุจุฏุฆูŠู‹ุง ูˆูู‚ู‹ุง ู„ู…ู„ูุงุช ุงู„ุชูƒู…ูŠู… ุงู„ุดุงุฆุนุฉ ุงู„ุชูŠ ุชู…ุช ู…ุดุงุฑูƒุชู‡ุง ุนู„ู‰ Hub.

- F32
- F16
- BF16
- Q4_0
- Q4_1
- Q5_0
- Q5_1
- Q8_0
- Q2_K
- Q3_K
- Q4_K
- Q5_K
- Q6_K
- IQ1_S
- IQ1_M
- IQ2_XXS
- IQ2_XS
- IQ2_S
- IQ3_XXS
- IQ3_S
- IQ4_XS
- IQ4_NL

> [!NOTE]
> ู„ุฏุนู… ุฅู„ุบุงุก ุชูƒู…ูŠู… ggufุŒ ูŠู„ุฒู… ุชุซุจูŠุช `gguf>=0.10.0`.

### ุจู†ูŠุงุช ุงู„ู†ู…ุงุฐุฌ ุงู„ู…ุฏุนูˆู…ุฉ

ููŠ ุงู„ูˆู‚ุช ุงู„ุญุงู„ูŠุŒ ุจู†ูŠุงุช ุงู„ู†ู…ุงุฐุฌ ุงู„ู…ุฏุนูˆู…ุฉ ู‡ูŠ ุงู„ุจู†ูŠุงุช ุงู„ุชูŠ ูƒุงู†ุช ุดุงุฆุนุฉ ุฌุฏู‹ุง ุนู„ู‰ HubุŒ ูˆู‡ูŠ:

- LLaMa
- Mistral
- Qwen2
- Qwen2Moe
- Phi3
- Bloom
- Falcon
- StableLM
- GPT2
- Starcoder2
- T5

## ู…ุซุงู„ ุงู„ุงุณุชุฎุฏุงู…

ู„ุชุญู…ูŠู„ ู…ู„ูุงุช `gguf` ููŠ `transformers`ุŒ ูŠุฌุจ ุชุญุฏูŠุฏ ู…ุนุงู…ู„ `gguf_file` ูู‰ ุฏุงู„ุฉ `from_pretrained` ู„ูƒู„ ู…ู† ุงู„ู…ูุฌุฒู‘ุฆ ุงู„ู„ุบูˆูŠุฉ ูˆุงู„ู†ู…ูˆุฐุฌ. ููŠู…ุง ูŠู„ูŠ ูƒูŠููŠุฉ ุชุญู…ูŠู„ ุงู„ู…ูุฌุฒู‘ุฆ ุงู„ู„ุบูˆูŠ ูˆู†ู…ูˆุฐุฌุŒ ูŠู…ูƒู† ุชุญู…ูŠู„ู‡ู…ุง ู…ู† ู†ูุณ ุงู„ู…ู„ู:

```py
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"

tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename)
```

ุงู„ุขู† ู„ุฏูŠูƒ ุฅู…ูƒุงู†ูŠุฉ ุงู„ูˆุตูˆู„ ุฅู„ู‰ ุงู„ู†ุณุฎุฉ ุงู„ูƒุงู…ู„ ุบูŠุฑ ุงู„ู…ูƒู…ู…ุฉ ู„ู„ู†ู…ูˆุฐุฌ ููŠ ุจูŠุฆุฉ PyTorchุŒ ุญูŠุซ ูŠู…ูƒู†ูƒ ุฏู…ุฌู‡ ู…ุน ู…ุฌู…ูˆุนุฉ ูƒุจูŠุฑุฉ ู…ู† ุงู„ุฃุฏูˆุงุช ุงู„ุฃุฎุฑู‰.

ู„ุฅุนุงุฏุฉ ุงู„ุชุญูˆูŠู„ ุฅู„ู‰ ู…ู„ู `gguf`ุŒ ู†ูˆุตูŠ ุจุงุณุชุฎุฏุงู… ู…ู„ู [`convert-hf-to-gguf.py`](https://github.com/ggerganov/llama.cpp/blob/master/convert-hf-to-gguf.py) ู…ู† llama.cpp.

ููŠู…ุง ูŠู„ูŠ ูƒูŠููŠุฉ ุฅูƒู…ุงู„ ุงู„ุจุฑู†ุงู…ุฌ ุงู„ู†ุตูŠ ุฃุนู„ุงู‡ ู„ุญูุธ ุงู„ู†ู…ูˆุฐุฌ ูˆุฅุนุงุฏุฉ ุชุตุฏูŠุฑู‡ ู…ุฑุฉ ุฃุฎุฑู‰ ุฅู„ู‰ `gguf`:

```py
tokenizer.save_pretrained('directory')
model.save_pretrained('directory')

!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}
```