Spaces:

Juna190825
/

mylocalmodels

Runtime error

Juna190825 commited on Aug 11

Commit

818b367

verified ·

1 Parent(s): ea2f813

Update Dockerfile

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,45 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-client = InferenceClient("google/gemma-2b-it")
-def generate_text(prompt):
-    response = client.text_generation(prompt, max_new_tokens=50)
     return response
-demo = gr.Interface(fn=generate_text, inputs="text", outputs="text")
-demo.launch()

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+# Load model (will use cached version if available)
+model_id = "meta-llama/Llama-2-7b-chat-hf"
+# Check for GPU
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# Load tokenizer and model
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id).to(device)
+def generate_text(prompt, max_length=200):
+    inputs = tokenizer(prompt, return_tensors="pt").to(device)
+    # Generate response
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=max_length,
+        temperature=0.7,
+        do_sample=True
+    )
+    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return response
+# Create Gradio interface
+with gr.Blocks() as demo:
+    gr.Markdown("# LLaMA 2 7B Chat Demo")
+    with gr.Row():
+        input_text = gr.Textbox(label="Input Prompt", lines=3)
+        output_text = gr.Textbox(label="Generated Response", lines=3)
+    generate_btn = gr.Button("Generate")
+    generate_btn.click(
+        fn=generate_text,
+        inputs=input_text,
+        outputs=output_text
+    )
+demo.launch(server_name="0.0.0.0", server_port=7860)