Upload 3 files

Browse files

Files changed (3) hide show

image-caption-llama.cpp-api/image-caption-llama.cpp-api.py +20 -7
image-caption-llama.cpp-api/llama-server_vision_gemma4-26b-a4b-it.bat +174 -0
image-caption-llama.cpp-api/llama-server_vision_qwen3.5-35b-a3b-base.bat +181 -0

image-caption-llama.cpp-api/image-caption-llama.cpp-api.py CHANGED Viewed

@@ -5,7 +5,7 @@ import time
 import httpx
 from pathlib import Path
 from openai import OpenAI
 """
 # 仅放行两个路径
@@ -18,7 +18,7 @@ BASE_URL = "http://127.0.0.1:21234/v1"
 # 请求密钥
 API_KEY = "llama.cpp"
 # 目标模型
-MODEL_NAME = "qwen3.5-9b"
 # 重试控制：2 表示“初次处理 + 失败后重试 1 次”
 MAX_ATTEMPTS = 2
@@ -26,15 +26,15 @@ MAX_ATTEMPTS = 2
 # 标准参数
 GEN_PARAMS = {
     "max_completion_tokens": 2048,
-    "temperature": 0.10,
 }
 # 特有参数
 EXTRA_PARAMS = {
-    "repeat_penalty": 1.05,
-    "top_k": 0,
-    "top_p": 1.00,
-    "min_p": 0.05,
     # "typical_p": 0.90,
 }
@@ -128,6 +128,19 @@ def process_single_image(img_path):
         description = response.choices[0].message.content
         if description:
             txt_path = img_path.with_suffix(".txt")
             with open(txt_path, "w", encoding="utf-8") as f:
                 f.write(description.strip())

 import httpx
 from pathlib import Path
 from openai import OpenAI
+import re
 """
 # 仅放行两个路径
 # 请求密钥
 API_KEY = "llama.cpp"
 # 目标模型
+MODEL_NAME = "qwen3.5-35b-a3b"
 # 重试控制：2 表示“初次处理 + 失败后重试 1 次”
 MAX_ATTEMPTS = 2
 # 标准参数
 GEN_PARAMS = {
     "max_completion_tokens": 2048,
+    "temperature": 1.00,
 }
 # 特有参数
 EXTRA_PARAMS = {
+    "repeat_penalty": 1.00,
+    "top_k": 20,
+    "top_p": 0.95,
+    "min_p": 0.00,
     # "typical_p": 0.90,
 }
         description = response.choices[0].message.content
         if description:
+            # 使用正则表达式匹配 <think>...</think> 及其包含的所有内容
+            # re.DOTALL 确保 . 可以匹配换行符，re.IGNORECASE 忽略大小写
+            description = re.sub(
+                r"<think>.*?</think>", "", description, flags=re.DOTALL
+            )
+            # 去除可能残留在开头或结尾的空白字符
+            description = description.strip()
+            if not description:  # 如果过滤后内容为空
+                return False, "过滤思考内容后结果为空", None
             txt_path = img_path.with_suffix(".txt")
             with open(txt_path, "w", encoding="utf-8") as f:
                 f.write(description.strip())

image-caption-llama.cpp-api/llama-server_vision_gemma4-26b-a4b-it.bat ADDED Viewed

	@@ -0,0 +1,174 @@

+:: https://github.com/ggml-org/llama.cpp/releases/latest
+:: https://developer.download.nvidia.com/compute/cuda/redist/libcublas/windows-x86_64
+:: https://developer.download.nvidia.com/compute/cuda/redist/cuda_cudart/windows-x86_64
+@echo off
+:: �̶����ڴ�С�������������ݹ�����Ҫע��
+:: mode con cols=120 lines=30
+:: ���ڱ���
+title "LLaMA.cpp_b8672_CUDA-13.1_x64 -- [gemma-4-26B-A4B-it.Q8_0.gguf]"
+:: �ڵ�����
+color 0a
+:: ���ýű��ĸ�Ŀ¼
+set "SCRIPT_DIR=%~dp0"
+cd /d "%SCRIPT_DIR%"
+:: ����Ŀ¼�洢�� DIR �������������ʹ��
+set "DIR=%SCRIPT_DIR%"
+echo %DIR%
+echo.
+:: ���к���С����״̬��
+:: %1(start /min cmd.exe /c %0 :&exit)
+:: ģ���ļ�·����--model (-m)
+set "LLAMA_ARG_MODEL=F:\GGUF\mradermacher\Gemma4-26B-A4B-it-GGUF\gemma-4-26B-A4B-it.Q8_0.gguf"
+:: ��ģ̬ͶӰ���ļ�·����--mmproj (-mm)
+set "LLAMA_ARG_MMPROJ=F:\GGUF\mradermacher\Gemma4-26B-A4B-it-GGUF\gemma-4-26B-A4B-it.mmproj-f16.gguf"
+:: ģ�ͱ������� REST API ʹ�á�--alias (-a)
+set "LLAMA_ARG_ALIAS=gemma4-26b-a4b-it"
+:: ������ַ��--host
+set "LLAMA_ARG_HOST=0.0.0.0"
+:: �����˿ڡ�--port
+set "LLAMA_ARG_PORT=21234"
+:: �Ƿ��������� WebUI ���档--webui, --no-webui
+:: Ĭ�����á������������ API ����
+set "LLAMA_ARG_WEBUI=true"
+:: APIǰ׺������ĩβб�ܣ���--api-prefix
+:: set "LLAMA_ARG_API_PREFIX=/api"
+:: ������֤ API ��Կ�������Կ���ö��ŷָ���
+:: set "LLAMA_API_KEY=C437704D-5114-3E5E-92B5-A18CBCB57344-20260226-123356"
+:: ������ VRAM �е�ģ�Ͳ�����--n-gpu-layers (-ngl)
+:: auto / all / ������ֵ�������� 99��/ 0 ��ʹ�� GPU
+:: set "LLAMA_ARG_N_GPU_LAYERS=auto"
+:: ��ʾ�������Ĵ�С��--ctx-size (-c)
+:: Ĭ��Ϊ 0 ����ʾ��ģ���ڶ�ȡ��
+set "LLAMA_ARG_CTX_SIZE=65535"
+:: �Ƿ����� Flash Attention��--flash-attn (-fa)
+:: on / off / auto
+set "LLAMA_ARG_FLASH_ATTN=on"
+:: ����ʱʹ�õ� CPU �߳�����Ĭ�� -1 ��--threads (-t)
+set "LLAMA_ARG_THREADS=8"
+:: �߼������������С��--batch-size (-b)
+set "LLAMA_ARG_BATCH=8192"
+:: ���������������С��--ubatch-size (-ub)
+set "LLAMA_ARG_UBATCH=4096"
+:: �Ƿ����� KV ����ж�ء�Ĭ�����á�--kv-offload (-kvo), --no-kv-offload (-nkvo)
+set "LLAMA_ARG_KV_OFFLOAD=true"
+:: KV ������ K ���������͡�Ĭ�� f16 ��--cache-type-k (-ctk)
+:: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
+set "LLAMA_ARG_CACHE_TYPE_K=q8_0"
+:: KV ������ V ���������͡�Ĭ�� f16 ��--cache-type-v (-ctv)
+:: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
+set "LLAMA_ARG_CACHE_TYPE_V=q8_0"
+:: �Ƿ�������ʾ�ʻ��档--cache-prompt, --no-cache-prompt
+set "LLAMA_ARG_CACHE_PROMPT=true"
+:: ǿ��ϵͳ��ģ�ͱ������ڴ��У������ǽ��佻�������̻����ѹ��������--mlock
+:: ��� LLAMA_ARG_MMAP ʹ�á�����ʵ��ģ�ʹ�С�������ڴ������
+set "LLAMA_ARG_MLOCK=true"
+:: �Ƿ�ʹ���ڴ�ӳ�䡣--mmap, --no-mmap
+:: ������ǿ�ƽ�ģ�ͼ��ص������ڴ棬��ϴ��ڴ���� IO �ӳ�
+set "LLAMA_ARG_MMAP=false"
+:: Top-K ����������--top-k
+:: 0 ����
+:: set "LLAMA_ARG_TOP_K=0"
+:: ����ģ�������� (JSON �ַ���)��--chat-template-kwargs
+set "LLAMA_CHAT_TEMPLATE_KWARGS={"enable_thinking": true}"
+:: ����˼��������Ԥ�㡣--reasoning-budget
+:: -1 ˼άԤ�㲻�����ƣ�0 ����˼������
+set "LLAMA_ARG_THINK_BUDGET=-1"
+:: �Ƿ���������Ӧ�����ӻ���ȡ˼ά��ǩ���Լ���Щ��ǩӦ�Ժ��ָ�ʽ���ء�--reasoning-format
+:: - none����˼������ԭ�ⲻ���ر����� `message.content` ��
+:: - deepseek����˼�����ݷ��� `message.reasoning_content` ��
+:: - deepseek-legacy������ `message.content` �б��� `<think>` ��ǩ��ͬʱҲ��˼��������䵽 `message.reasoning_content` ��
+:: Ĭ�ϣ�auto
+:: set "LLAMA_ARG_THINK=none"
+:: �Ƿ�Ϊ����ʹ�� Jinja ģ�����档Ĭ�� true ��--jinja, --no-jinja
+set "LLAMA_ARG_JINJA=true"
+:: �Զ���� Jinja ����ģ���ļ�����������б���ѡȡ����--chat-template-file
+:: Ĭ��ֵ����ģ�͵�Ԫ�����л�ȡ��ģ��
+:: chatml deepseek3 gemma gpt-oss bailing-think ...
+:: set "LLAMA_ARG_CHAT_TEMPLATE_FILE=chatml"
+:: ���в�λ����������ͬʱ����������������������Դ�������--parallel (-np)
+:: ����ƽ����� LLAMA_ARG_CTX_SIZE �����Ĵ�Сֵ��
+set "LLAMA_ARG_N_PARALLEL=1"
+:: �Ƿ��Զ�����δ���õĲ�������Ӧ�豸�ڴ档Ĭ�� on ��--fit (-fit)
+:: set "LLAMA_ARG_FIT=off"
+:: ����ģʽ��ǿ��ʹ�û��棬��ֹ������ʡ�--offline
+set "LLAMA_OFFLINE=true"
+:: ��־��Ϣ����ʱ������ܡ�--log-timestamps
+set "LLAMA_LOG_TIMESTAMPS=true"
+@REM --lora: LoRA ������·�������������ʹ�ö��ŷָ���
+@REM --repeat-penalty: �ظ��ͷ����Ƽ� 1.05~1.12 ����Ч���ٸ�����ͬʱ��ר�������ƻ���С��Ĭ�� 1.0 ��ʾ���á�
+@REM --repeat-last-n: �ظ��ͷ��Ĵ��ڴ�С��ֻ����� N �� token �������ظ��ͷ�����Ĭ�� 64��
+@REM    �Ƽ�ֵ��128~256������������׸����ĳ���������Ϊ 256 ����ߣ���-1 ��ʾʹ�����������Ĵ�С��0 ��ʾ���á�
+@REM    �� --repeat-penalty ���ʹ�ã�����Խ�󣬷�����Ч��Խǿ�����������΢Ӱ�������Ȼ�ȡ�
+@REM --presence-penalty: ���ڳͷ������������»��⣩��Ĭ�� 0.0 ��ʾ���á�
+@REM --temp: �¶ȣ����Ÿ��ʷֲ������� 1.0 ���������/���⣻С�� 1.0 ����ȷ���ԡ�Ĭ�� 0.8��
+@REM    ���飺����/��ѧ/�Ͻ������� 0.1~0.3��һ��Ի��� 0.7~0.9����ѧ/����д���� 1.0~1.2��
+@REM --top-p: �˲�����Nucleus����Ĭ�� 0.95��1.00 ��ʾ���á�
+@REM --top-k: ���Ӹ�����ߵ� K �� token �в�����Ĭ�� 40��0 ��ʾ���á�
+@REM --min-p: ��С���ʲ����������߸��ʵ���ֵ����Ĭ�� 0.05��0.0 ��ʾ���á�
+@REM    �� top-p �ڸ��¶��¸��ȶ���׳���Ƽ�����ʹ�á�
+@REM --typical / --typical-p: ���Ͳ�����Locally Typical Sampling����Ĭ�� 1.0 ��ʾ���á�
+@REM    ��ʹ��д/�����ôʸ��ḻ�������Ͻ���������ã���Ϊ 1.0����
+@REM    ͬʱʹ�� Typical 0.95 + Min-P 0.05 ʱ���¶Ƚ��鲻���� 0.6��
+@REM --prio: �������ȼ���0 ������1 �еȣ�2 �ߣ�3 ʵʱ��-1 �͡�0 Ĭ�ϡ�
+@REM �꾡��־��-v, --verbose, --log-verbose
+@REM ��־��ֵ��-lv, --verbosity, --log-verbosity N ��Ĭ�� 3 ��0:generic output / 1:error / 2:warning / 3:info / 4:debug
+%DIR%\bin\llama-server.exe ^
+  --temp 1.00 ^
+  --min-p 0.00 ^
+  --top-k 64 ^
+  --top-p 0.95 ^
+  --repeat-penalty 1.00 ^
+  --presence-penalty 0.00 ^
+  --prio 2
+pause

image-caption-llama.cpp-api/llama-server_vision_qwen3.5-35b-a3b-base.bat ADDED Viewed

	@@ -0,0 +1,181 @@

+:: https://github.com/ggml-org/llama.cpp/releases/latest
+:: https://developer.download.nvidia.com/compute/cuda/redist/libcublas/windows-x86_64
+:: https://developer.download.nvidia.com/compute/cuda/redist/cuda_cudart/windows-x86_64
+@echo off
+:: �̶����ڴ�С�������������ݹ�����Ҫע��
+:: mode con cols=120 lines=30
+:: ���ڱ���
+title "LLaMA.cpp_b8672_CUDA-13.1_x64 -- [Qwen3.5-35B-A3B-Base.Q8_0.gguf]"
+:: �ڵ�����
+color 0a
+:: ���ýű��ĸ�Ŀ¼
+set "SCRIPT_DIR=%~dp0"
+cd /d "%SCRIPT_DIR%"
+:: ����Ŀ¼�洢�� DIR �������������ʹ��
+set "DIR=%SCRIPT_DIR%"
+echo %DIR%
+echo.
+:: ���к���С����״̬��
+:: %1(start /min cmd.exe /c %0 :&exit)
+:: ģ���ļ�·����--model (-m)
+set "LLAMA_ARG_MODEL=F:\GGUF\mradermacher\Qwen3.5-35B-A3B-Base-GGUF\Qwen3.5-35B-A3B-Base.Q8_0.gguf"
+:: ��ģ̬ͶӰ���ļ�·����--mmproj (-mm)
+set "LLAMA_ARG_MMPROJ=F:\GGUF\mradermacher\Qwen3.5-35B-A3B-Base-GGUF\Qwen3.5-35B-A3B-Base.mmproj-f16.gguf"
+:: ģ�ͱ������� REST API ʹ�á�--alias (-a)
+set "LLAMA_ARG_ALIAS=qwen3.5-35b-a3b-base"
+:: ������ַ��--host
+set "LLAMA_ARG_HOST=0.0.0.0"
+:: �����˿ڡ�--port
+set "LLAMA_ARG_PORT=21234"
+:: �Ƿ��������� WebUI ���档--webui, --no-webui
+:: Ĭ�����á������������ API ����
+set "LLAMA_ARG_WEBUI=true"
+:: APIǰ׺������ĩβб�ܣ���--api-prefix
+:: set "LLAMA_ARG_API_PREFIX=/api"
+:: ������֤ API ��Կ�������Կ���ö��ŷָ���
+:: set "LLAMA_API_KEY=C437704D-5114-3E5E-92B5-A18CBCB57344-20260226-123356"
+:: ������ VRAM �е�ģ�Ͳ�����--n-gpu-layers (-ngl)
+:: auto / all / ������ֵ�������� 99��/ 0 ��ʹ�� GPU
+:: set "LLAMA_ARG_N_GPU_LAYERS=auto"
+:: ��ʾ�������Ĵ�С��--ctx-size (-c)
+:: Ĭ��Ϊ 0 ����ʾ��ģ���ڶ�ȡ��
+set "LLAMA_ARG_CTX_SIZE=65535"
+:: �Ƿ����� Flash Attention��--flash-attn (-fa)
+:: on / off / auto
+set "LLAMA_ARG_FLASH_ATTN=on"
+:: ����ʱʹ�õ� CPU �߳�����Ĭ�� -1 ��--threads (-t)
+set "LLAMA_ARG_THREADS=8"
+:: �߼������������С��--batch-size (-b)
+set "LLAMA_ARG_BATCH=8192"
+:: ���������������С��--ubatch-size (-ub)
+set "LLAMA_ARG_UBATCH=4096"
+:: �Ƿ����� KV ����ж�ء�Ĭ�����á�--kv-offload (-kvo), --no-kv-offload (-nkvo)
+set "LLAMA_ARG_KV_OFFLOAD=true"
+:: KV ������ K ���������͡�Ĭ�� f16 ��--cache-type-k (-ctk)
+:: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
+set "LLAMA_ARG_CACHE_TYPE_K=q8_0"
+:: KV ������ V ���������͡�Ĭ�� f16 ��--cache-type-v (-ctv)
+:: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
+set "LLAMA_ARG_CACHE_TYPE_V=q8_0"
+:: �Ƿ�������ʾ�ʻ��档--cache-prompt, --no-cache-prompt
+set "LLAMA_ARG_CACHE_PROMPT=true"
+:: ǿ��ϵͳ��ģ�ͱ������ڴ��У������ǽ��佻�������̻����ѹ��������--mlock
+:: ��� LLAMA_ARG_MMAP ʹ�á�����ʵ��ģ�ʹ�С�������ڴ������
+set "LLAMA_ARG_MLOCK=true"
+:: �Ƿ�ʹ���ڴ�ӳ�䡣--mmap, --no-mmap
+:: ������ǿ�ƽ�ģ�ͼ��ص������ڴ棬��ϴ��ڴ���� IO �ӳ�
+set "LLAMA_ARG_MMAP=false"
+:: Top-K ����������--top-k
+:: 0 ����
+:: set "LLAMA_ARG_TOP_K=0"
+:: ����ģ�������� (JSON �ַ���)��--chat-template-kwargs
+set "LLAMA_CHAT_TEMPLATE_KWARGS={"enable_thinking": true}"
+:: ����˼��������Ԥ�㡣--reasoning-budget
+:: -1 ˼άԤ�㲻�����ƣ�0 ����˼������
+set "LLAMA_ARG_THINK_BUDGET=-1"
+:: �Ƿ���������Ӧ�����ӻ���ȡ˼ά��ǩ���Լ���Щ��ǩӦ�Ժ��ָ�ʽ���ء�--reasoning-format
+:: - none����˼������ԭ�ⲻ���ر����� `message.content` ��
+:: - deepseek����˼�����ݷ��� `message.reasoning_content` ��
+:: - deepseek-legacy������ `message.content` �б��� `<think>` ��ǩ��ͬʱҲ��˼��������䵽 `message.reasoning_content` ��
+:: Ĭ�ϣ�auto
+:: set "LLAMA_ARG_THINK=none"
+:: �Ƿ�Ϊ����ʹ�� Jinja ģ�����档Ĭ�� true ��--jinja, --no-jinja
+set "LLAMA_ARG_JINJA=true"
+:: �Զ���� Jinja ����ģ���ļ�����������б���ѡȡ����--chat-template-file
+:: Ĭ��ֵ����ģ�͵�Ԫ�����л�ȡ��ģ��
+:: chatml deepseek3 gemma gpt-oss bailing-think ...
+:: set "LLAMA_ARG_CHAT_TEMPLATE_FILE=chatml"
+:: ���в�λ����������ͬʱ����������������������Դ�������--parallel (-np)
+:: ����ƽ����� LLAMA_ARG_CTX_SIZE �����Ĵ�Сֵ��
+set "LLAMA_ARG_N_PARALLEL=1"
+:: �Ƿ��Զ�����δ���õĲ�������Ӧ�豸�ڴ档Ĭ�� on ��--fit (-fit)
+:: set "LLAMA_ARG_FIT=off"
+:: ����ģʽ��ǿ��ʹ�û��棬��ֹ������ʡ�--offline
+set "LLAMA_OFFLINE=true"
+:: ��־��Ϣ����ʱ������ܡ�--log-timestamps
+set "LLAMA_LOG_TIMESTAMPS=true"
+@REM --lora: LoRA ������·�������������ʹ�ö��ŷָ���
+@REM --repeat-penalty: �ظ��ͷ����Ƽ� 1.05~1.12 ����Ч���ٸ�����ͬʱ��ר�������ƻ���С��Ĭ�� 1.0 ��ʾ���á�
+@REM --repeat-last-n: �ظ��ͷ��Ĵ��ڴ�С��ֻ����� N �� token �������ظ��ͷ�����Ĭ�� 64��
+@REM    �Ƽ�ֵ��128~256������������׸����ĳ���������Ϊ 256 ����ߣ���-1 ��ʾʹ�����������Ĵ�С��0 ��ʾ���á�
+@REM    �� --repeat-penalty ���ʹ�ã�����Խ�󣬷�����Ч��Խǿ�����������΢Ӱ�������Ȼ�ȡ�
+@REM --presence-penalty: ���ڳͷ������������»��⣩��Ĭ�� 0.0 ��ʾ���á�
+@REM --temp: �¶ȣ����Ÿ��ʷֲ������� 1.0 ���������/���⣻С�� 1.0 ����ȷ���ԡ�Ĭ�� 0.8��
+@REM    ���飺����/��ѧ/�Ͻ������� 0.1~0.3��һ��Ի��� 0.7~0.9����ѧ/����д���� 1.0~1.2��
+@REM --top-p: �˲�����Nucleus����Ĭ�� 0.95��1.00 ��ʾ���á�
+@REM --top-k: ���Ӹ�����ߵ� K �� token �в�����Ĭ�� 40��0 ��ʾ���á�
+@REM --min-p: ��С���ʲ����������߸��ʵ���ֵ����Ĭ�� 0.05��0.0 ��ʾ���á�
+@REM    �� top-p �ڸ��¶��¸��ȶ���׳���Ƽ�����ʹ�á�
+@REM --typical / --typical-p: ���Ͳ�����Locally Typical Sampling����Ĭ�� 1.0 ��ʾ���á�
+@REM    ��ʹ��д/�����ôʸ��ḻ�������Ͻ���������ã���Ϊ 1.0����
+@REM    ͬʱʹ�� Typical 0.95 + Min-P 0.05 ʱ���¶Ƚ��鲻���� 0.6��
+@REM --prio: �������ȼ���0 ������1 �еȣ�2 �ߣ�3 ʵʱ��-1 �͡�0 Ĭ�ϡ�
+@REM �꾡��־��-v, --verbose, --log-verbose
+@REM ��־��ֵ��-lv, --verbosity, --log-verbosity N ��Ĭ�� 3 ��0:generic output / 1:error / 2:warning / 3:info / 4:debug
+:: Qwen3.5 ϵ�йٷ��Ƽ���������
+@REM ͨ������˼άģʽ - Thinking mode for general tasks: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
+@REM ��׼���˼άģʽ - Thinking mode for precise coding tasks (e.g. WebDev): temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
+@REM ͨ������ָ��ģʽ - Instruct (or non-thinking) mode for general tasks: temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
+@REM ��������ָ��ģʽ - Instruct (or non-thinking) mode for reasoning tasks: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
+%DIR%\bin\llama-server.exe ^
+  --temp 1.00 ^
+  --min-p 0.00 ^
+  --top-k 20 ^
+  --top-p 0.95 ^
+  --repeat-penalty 1.00 ^
+  --presence-penalty 1.50 ^
+  --prio 2
+pause