Spaces:

anaspro
/

chatbox

Runtime error

anaspro commited on Oct 21, 2025

Commit

ad30712

1 Parent(s): 5b2f9a5

Update to GPT-OSS-20B model with 4-bit quantization

- Switch from Lahja-iraqi-4B to unsloth/gpt-oss-20b-unsloth-bnb-4bit
- Add BitsAndBytesConfig for 4-bit quantization support
- Update Spaces metadata for GPT-OSS model
- Add .gitattributes for proper LFS handling
- Update README with model description and features

Files changed (4) hide show

.gitattributes +2 -4
README.md +14 -5
app.py +17 -5
config.json +4 -4

.gitattributes CHANGED Viewed

@@ -23,13 +23,11 @@
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
 ---
-title: Chatbox
-emoji: 💬
-colorFrom: yellow
-colorTo: purple
 sdk: gradio
 sdk_version: 5.42.0
 app_file: app.py
@@ -10,6 +10,15 @@ pinned: false
 hf_oauth: true
 hf_oauth_scopes:
 - inference-api
 ---
-An example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and the [Hugging Face Inference API](https://huggingface.co/docs/api-inference/index).

 ---
+title: GPT-OSS-20B Chat Assistant
+emoji: 🤖
+colorFrom: blue
+colorTo: indigo
 sdk: gradio
 sdk_version: 5.42.0
 app_file: app.py
 hf_oauth: true
 hf_oauth_scopes:
 - inference-api
+models:
+- unsloth/gpt-oss-20b-unsloth-bnb-4bit
+tags:
+- gpt-oss
+- reasoning
+- chat
+- arabic
 ---
+A powerful chatbot powered by GPT-OSS-20B (OpenAI's open-weight reasoning model) with 4-bit quantization for efficient inference. Features advanced reasoning capabilities, tool use, and supports Arabic language conversations.
+Built with [Gradio](https://gradio.app) and deployed on Hugging Face Spaces for easy access.

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import spaces
 import json
 import time
 from threading import Thread
-from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 from huggingface_hub import login
 import logging
@@ -88,13 +88,25 @@ def load_model():
         if tokenizer.pad_token is None:
             tokenizer.pad_token = tokenizer.eos_token
         # Load model with optimized settings
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_ID,
-            torch_dtype=torch.bfloat16,
-            device_map="auto",
-            trust_remote_code=True,
-            low_cpu_mem_usage=True
         )
         model.eval()

 import json
 import time
 from threading import Thread
+from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, BitsAndBytesConfig
 from huggingface_hub import login
 import logging
         if tokenizer.pad_token is None:
             tokenizer.pad_token = tokenizer.eos_token
+        # Configure 4-bit quantization
+        if config["model"].get("load_in_4bit", False):
+            quantization_config = BitsAndBytesConfig(
+                load_in_4bit=True,
+                bnb_4bit_compute_dtype=torch.float16,
+                bnb_4bit_use_double_quant=True,
+                bnb_4bit_quant_type="nf4"
+            )
+        else:
+            quantization_config = None
         # Load model with optimized settings
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_ID,
+            torch_dtype=config["model"].get("torch_dtype", "auto"),
+            device_map=config["model"].get("device_map", "auto"),
+            trust_remote_code=config["model"].get("trust_remote_code", True),
+            low_cpu_mem_usage=config["model"].get("low_cpu_mem_usage", True),
+            quantization_config=quantization_config
         )
         model.eval()

config.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "model": {
-        "model_id": "anaspro/Lahja-iraqi-4B",
-        "torch_dtype": "bfloat16",
         "device_map": "auto",
         "trust_remote_code": true,
-        "use_flash_attention": true,
-        "low_cpu_mem_usage": true
     },
     "generation": {
         "max_new_tokens": 800,

 {
     "model": {
+        "model_id": "unsloth/gpt-oss-20b-unsloth-bnb-4bit",
+        "torch_dtype": "auto",
         "device_map": "auto",
         "trust_remote_code": true,
+        "low_cpu_mem_usage": true,
+        "load_in_4bit": true
     },
     "generation": {
         "max_new_tokens": 800,