Spaces:

yamadamya
/

ELYZA-Diffusion

Runtime error

App Files Files Community

yamadamya commited on Jan 20

Commit

9cd8054

verified ·

1 Parent(s): ad1f3e4

Upload 3 files

Browse files

Files changed (3) hide show

README.md +13 -13
app.py +98 -0
requirements.txt +4 -0

README.md CHANGED Viewed

@@ -1,13 +1,13 @@
----
-title: ELYZA Diffusion
-emoji: ⚡
-colorFrom: blue
-colorTo: gray
-sdk: gradio
-sdk_version: 6.3.0
-app_file: app.py
-pinned: false
-short_description: ELYZA-Diffusion
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: ELYZA Diffusion LLM CPU Demo
+emoji: 🧠
+colorFrom: gray
+colorTo: blue
+sdk: gradio
+python_version: "3.10"
+app_file: app.py
+pinned: false
+---
+# ELYZA Diffusion LLM (CPU)
+CPU-only Space demo for ELYZA Diffusion LLM.

app.py ADDED Viewed

	@@ -0,0 +1,98 @@

+import os
+import torch
+import gradio as gr
+from transformers import AutoModel, AutoTokenizer
+# Instruct版（必要なら別IDへ変更）
+MODEL_ID = os.getenv("MODEL_ID", "elyza/ELYZA-Diffusion-Instruct-1.0-Dream-7B")
+# --- CPU固定 ---
+DEVICE = "cpu"
+DTYPE = torch.float32
+print(f"Starting CPU Space: DEVICE={DEVICE}, DTYPE={DTYPE}, MODEL_ID={MODEL_ID}")
+# 起動時に一度だけロード（重要）
+model = AutoModel.from_pretrained(
+    MODEL_ID,
+    torch_dtype=DTYPE,
+    trust_remote_code=True,
+).to(DEVICE).eval()
+tokenizer = AutoTokenizer.from_pretrained(
+    MODEL_ID,
+    trust_remote_code=True,
+)
+@torch.no_grad()
+def generate(prompt, steps, max_new_tokens, temperature, top_p, alg_temp):
+    prompt = (prompt or "").strip()
+    if not prompt:
+        return "プロンプトを入力してください。"
+    # CPUは遅いのでガード（想定外の値で固まるのを防ぐ）
+    steps = int(max(4, min(int(steps), 64)))
+    max_new_tokens = int(max(16, min(int(max_new_tokens), 256)))
+    messages = [{"role": "user", "content": prompt}]
+    inputs = tokenizer.apply_chat_template(
+        messages,
+        return_tensors="pt",
+        return_dict=True,
+        add_generation_prompt=True,
+    )
+    input_ids = inputs.input_ids.to(DEVICE)
+    attention_mask = inputs.attention_mask.to(DEVICE)
+    out = model.diffusion_generate(
+        input_ids,
+        attention_mask=attention_mask,
+        steps=steps,
+        max_new_tokens=max_new_tokens,
+        temperature=float(temperature),
+        top_p=float(top_p),
+        alg="entropy",
+        alg_temp=float(alg_temp),
+    )
+    text = tokenizer.decode(
+        out.sequences[0][input_ids.size(1):],
+        skip_special_tokens=True,
+    )
+    return text
+with gr.Blocks() as demo:
+    gr.Markdown(
+        "## ELYZA Diffusion LLM (CPU-only)\n"
+        "- CPUは非常に遅いので、まずは steps=16 / max_new_tokens=128 で試してください。"
+    )
+    prompt = gr.Textbox(
+        label="Prompt",
+        lines=6,
+        value="要点を短くまとめて、仕事の集中力を上げるコツを3つ教えてください。"
+    )
+    with gr.Row():
+        steps = gr.Slider(4, 64, value=16, step=1, label="steps (CPU recommended: 8-24)")
+        max_new_tokens = gr.Slider(16, 256, value=128, step=1, label="max_new_tokens (CPU recommended: 64-160)")
+    with gr.Row():
+        temperature = gr.Slider(0.1, 1.5, value=0.7, step=0.05, label="temperature")
+        top_p = gr.Slider(0.1, 1.0, value=0.95, step=0.01, label="top_p")
+        alg_temp = gr.Slider(0.1, 1.5, value=0.7, step=0.05, label="alg_temp")
+    run = gr.Button("Generate")
+    out = gr.Textbox(label="Output", lines=14)
+    run.click(
+        fn=generate,
+        inputs=[prompt, steps, max_new_tokens, temperature, top_p, alg_temp],
+        outputs=[out],
+    )
+# 公開Spaceで同時アクセス耐性を少し上げる
+demo.queue(max_size=16)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+gradio
+transformers
+accelerate
+torch