GGUF
conversational
How to use from the
Use from the
llama-cpp-python library
# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="summerMC/Qwen3.5-hack-down-gguf",
	filename="",
)
llm.create_chat_completion(
	messages = "No input example has been defined for this model task."
)

GGUF について

1つのファイルに以下の情報をまとめて格納できます。

  • モデル重み
  • トークナイザー情報
  • 量子化メタデータ
  • 各種設定

そのため、以下のようなローカル推論ツールでそのまま利用できます。

  • llama.cpp
  • LM Studio
  • Ollama
  • KoboldCpp
  • Jan

summerMC/Qwen3.5-hack-down の GGUF 対応状況

summerMC/Qwen3.5-hack-down の README には、PyTorch (transformers) での利用例のみ記載されています。

  • AutoTokenizer.from_pretrained()
  • AutoModelForCausalLM.from_pretrained()

GGUF ファイルに関する記載はありません。

したがって、現時点では Hugging Face 上に .gguf ファイルが存在しない可能性があります。


GGUF の有無を確認する方法

以下のページを開き、Files and versions タブを確認してください。

https://huggingface.co/summerMC/Qwen3.5-hack-down

以下のようなファイルがあれば GGUF 版が利用可能です。

  • Qwen3.5-hack-down-Q4_K_M.gguf
  • Qwen3.5-hack-down-Q5_K_M.gguf

GGUF に変換する方法

1. llama.cpp を取得

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

2. 必要な依存関係をインストール

pip install -r requirements.txt

3. Hugging Face モデルを GGUF に変換

python convert_hf_to_gguf.py \
  /path/to/Qwen3.5-hack-down \
  --outfile Qwen3.5-hack-down-f16.gguf

4. 量子化

./build/bin/llama-quantize \
  Qwen3.5-hack-down-f16.gguf \
  Qwen3.5-hack-down-Q4_K_M.gguf \
  Q4_K_M

推奨量子化形式

形式 特徴
Q4_K_M サイズと品質のバランスが良い(推奨)
Q5_K_M やや高品質
Q8_0 高品質だがサイズ大
:thumbsup:
クリックしてリアクション
:thinking:
クリックしてリアクション
:eyes:
クリックしてリアクション
リアクションを付ける
返信
転送
その他
[20:49]2026年5月16日土曜日 20:49
F16 非量子化、最も大きい

llama.cpp での実行例

./llama-cli \
  -m Qwen3.5-hack-down-Q4_K_M.gguf \
  -p "このCTF問題の方針を整理してください"

Ollama で使う方法

Modelfile を作成

FROM ./Qwen3.5-hack-down-Q4_K_M.gguf

モデルを作成

ollama create qwen35-hack-down -f Modelfile

実行

ollama run qwen35-hack-down

推奨システムプロンプト

You are a CTF assistant for authorized local lab challenges only.
Return structured, practical, concise JSON.
Do not invent flags.

まとめ

  • summerMC/Qwen3.5-hack-down は現在 GGUF 配布の記載なし
  • .gguf ファイルがなければ自分で変換可能
  • Q4_K_M が最もおすすめ
  • llama.cpp、LM Studio、Ollama で利用可能
  • CTF 支援用のローカルモデルとして扱いやすい
Downloads last month
89
GGUF
Model size
4B params
Architecture
qwen35
Hardware compatibility
Log In to add your hardware

2-bit

3-bit

4-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support