Spaces:

saish-shetty
/

phi-2-oasst-instruct

Runtime error

App Files Files Community

saish-shetty commited on Mar 1, 2025

Commit

78c1b41

verified ·

1 Parent(s): 858256f

Upload 3 files

Browse files

Files changed (3) hide show

DockerFile +25 -0
app.py +73 -0
requirements.txt +6 -0

DockerFile ADDED Viewed

	@@ -0,0 +1,25 @@

+FROM python:3.10-slim-buster
+# Update package lists
+RUN apt-get update
+# Install libstdc++ (if needed)
+RUN apt-get install -y libstdc++6
+## Force install of bitsandbyes non-CUDA version
+RUN pip install --force-reinstall 'https://github.com/bitsandbytes-foundation/bitsandbytes/releases/download/continuous-release_multi-backend-refactor/bitsandbytes-0.44.1.dev0-py3-none-manylinux_2_24_x86_64.whl'
+# Copy requirements file
+COPY requirements.txt .
+# Install dependencies
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy app files
+COPY . .
+EXPOSE 7860
+ENV GRADIO_SERVER_NAME="0.0.0.0"
+# Command to run the app
+CMD ["python", "app.py"]

app.py ADDED Viewed

	@@ -0,0 +1,73 @@

+import gradio as gr
+from peft import PeftModel
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+import torch
+import os
+os.environ["CUDA_VISIBLE_DEVICES"] = ""  # Disable CUDA for Gradio
+# Model and tokenizer loading
+model_name = "microsoft/phi-2"  # Replace with your base model name
+adapter_path = "./checkpoint-500"  # Path to your adapter directory (relative to app.py)
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_compute_dtype=torch.float16,
+)
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+tokenizer.pad_token = tokenizer.eos_token
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    device_map="auto",
+    quantization_config=bnb_config,
+    trust_remote_code=True,
+    torch_dtype=torch.float16,  # Use float16 for faster inference
+)
+model = PeftModel.from_pretrained(model, adapter_path)
+model.eval()
+# Inference function
+def generate_text(prompt, max_length=200, temperature=0.7, top_p=0.9):
+    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)
+    attention_mask = tokenizer(prompt, return_tensors="pt").attention_mask.to(model.device)
+    with torch.no_grad():
+        outputs = model.generate(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            max_length=max_length,
+            temperature=temperature,
+            top_p=top_p,
+            do_sample=True,
+            pad_token_id=tokenizer.pad_token_id,
+        )
+    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return generated_text
+# Sample questions
+sample_questions = [
+    "Write a short story about a dog who becomes a detective.",
+    "What is 2+2?",
+    "Write a Flask App in python to say 'Hello World!'",
+    "Give me a short 200-word essay on 'monospony'.",
+]
+# Gradio interface
+iface = gr.Interface(
+    fn=generate_text,
+    inputs=[
+        gr.Textbox(lines=5, label="Prompt"),
+        gr.Slider(minimum=50, maximum=500, value=250, label="Max Length"),
+        gr.Slider(minimum=0.1, maximum=1.0, value=0.1, label="Temperature"),
+        gr.Slider(minimum=0.1, maximum=1.0, value=0.9, label="Top P"),
+    ],
+    outputs=gr.Textbox(label="Generated Text"),
+    title="Phi-2 OASST Fine-Tuning Demo",
+    description="Generate text using a fine-tuned Phi-2 model with PEFT adapters. Click a sample question below to get started!",
+    examples=[[q, 250, 0.1, 0.9] for q in sample_questions],  # Add examples
+)
+iface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+huggingface_hub
+transformers
+peft
+accelerate
+torch
+gradio