Spaces:

AdvancedDataIntelligence
/

adi-distillation-studio

Running

App Files Files Community

masterjedi commited on 8 days ago

Commit

be4c8b2

1 Parent(s): 13fba23

Create ADI distillation studio Space

Browse files

Files changed (4) hide show

.gitattributes +1 -4
README.md +5 -7
app.py +153 -0
requirements.txt +1 -0

.gitattributes CHANGED Viewed

@@ -3,20 +3,16 @@
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
@@ -33,3 +29,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.jsonl filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,13 +1,11 @@
 ---
-title: Adi Distillation Studio
-emoji: 🐢
-colorFrom: blue
-colorTo: pink
 sdk: gradio
 sdk_version: 6.19.0
-python_version: '3.13'
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: ADI Distillation Studio
+emoji: 🧪
+colorFrom: gray
+colorTo: green
 sdk: gradio
 sdk_version: 6.19.0
+python_version: '3.12'
 app_file: app.py
 pinned: false
 ---

app.py ADDED Viewed

	@@ -0,0 +1,153 @@

+import json
+import re
+import tempfile
+from pathlib import Path
+import gradio as gr
+STYLE_PRESETS = {
+    "ADI concise": "Answer clearly, directly, and with practical next steps. Keep the tone calm and capable.",
+    "Technical mentor": "Explain the reasoning briefly, use precise terms, and make the user feel more capable.",
+    "Support agent": "Be reassuring, diagnose the issue, and give a short ordered fix path.",
+    "Creative partner": "Offer useful ideas with a little warmth and imagination while staying grounded.",
+    "Safety reviewer": "Identify risks, state assumptions, and recommend the safest useful action.",
+}
+VARIATION_TEMPLATES = [
+    "Direct task",
+    "Beginner phrasing",
+    "Production constraint",
+    "Edge case",
+    "Follow-up turn",
+]
+def clean_text(value):
+    return re.sub(r"\s+", " ", (value or "").strip())
+def split_steps(text):
+    lines = [line.strip(" -\t") for line in (text or "").splitlines()]
+    lines = [line for line in lines if line]
+    if len(lines) >= 2:
+        return lines[:6]
+    sentences = re.split(r"(?<=[.!?])\s+", clean_text(text))
+    return [sentence for sentence in sentences if sentence][:6]
+def user_variant(instruction, idx):
+    instruction = clean_text(instruction)
+    if idx == 0:
+        return instruction
+    if idx == 1:
+        return f"I'm new to this. {instruction}"
+    if idx == 2:
+        return f"{instruction} Keep the answer production-ready and avoid unnecessary detail."
+    if idx == 3:
+        return f"{instruction} Also mention one common edge case or failure mode."
+    return f"Follow up on this request and make the answer easier to act on: {instruction}"
+def assistant_variant(teacher_answer, style_text, idx):
+    answer = clean_text(teacher_answer)
+    steps = split_steps(teacher_answer)
+    if idx == 0:
+        return answer
+    if idx == 1:
+        return f"Here is the short version: {answer}"
+    if idx == 2:
+        return "\n".join(f"{i + 1}. {step}" for i, step in enumerate(steps)) or answer
+    if idx == 3:
+        return f"{answer}\n\nWatch for: missing context, stale assumptions, or inputs that do not match the expected format."
+    return f"{answer}\n\nStyle target: {style_text}"
+def make_record(system_prompt, user, assistant, source, tags):
+    return {
+        "messages": [
+            {"role": "system", "content": system_prompt},
+            {"role": "user", "content": user},
+            {"role": "assistant", "content": assistant},
+        ],
+        "metadata": {
+            "source": source,
+            "tags": [tag.strip() for tag in tags.split(",") if tag.strip()],
+        },
+    }
+def build_dataset(instruction, teacher_answer, style_preset, custom_style, tags, include_variants):
+    instruction = clean_text(instruction)
+    teacher_answer = (teacher_answer or "").strip()
+    if not instruction:
+        raise gr.Error("Add an instruction or user request first.")
+    if not teacher_answer:
+        raise gr.Error("Add a teacher answer first.")
+    style_text = clean_text(custom_style) or STYLE_PRESETS[style_preset]
+    system_prompt = f"You are ADI. {style_text}"
+    count = 5 if include_variants else 1
+    records = []
+    for idx in range(count):
+        records.append(
+            make_record(
+                system_prompt=system_prompt,
+                user=user_variant(instruction, idx),
+                assistant=assistant_variant(teacher_answer, style_text, idx),
+                source=VARIATION_TEMPLATES[idx],
+                tags=tags,
+            )
+        )
+    jsonl = "\n".join(json.dumps(record, ensure_ascii=False) for record in records)
+    preview = json.dumps(records[0], ensure_ascii=False, indent=2)
+    out_path = Path(tempfile.NamedTemporaryFile(suffix=".jsonl", delete=False).name)
+    out_path.write_text(jsonl + "\n", encoding="utf-8")
+    summary = f"Generated {len(records)} JSONL record(s). First record has {len(records[0]['messages'])} messages."
+    return summary, preview, jsonl, str(out_path)
+with gr.Blocks(title="ADI Distillation Studio", fill_width=True) as demo:
+    gr.Markdown("# ADI Distillation Studio")
+    with gr.Row():
+        with gr.Column(scale=1):
+            instruction = gr.Textbox(
+                label="Instruction / user request",
+                lines=5,
+                value="Explain why a recent llama.cpp build is needed for Qwen3.5 GGUF models.",
+            )
+            teacher = gr.Textbox(
+                label="Teacher answer",
+                lines=10,
+                value=(
+                    "Qwen3.5 uses hybrid SSM/Mamba-style gated-delta layers. Older llama.cpp builds may not "
+                    "recognize those tensors or metadata, so the GGUF can download correctly but still fail at "
+                    "model load. Use a recent llama.cpp or a llama-cpp-python wheel that bundles a compatible commit."
+                ),
+            )
+            style = gr.Dropdown(
+                choices=list(STYLE_PRESETS),
+                value="ADI concise",
+                label="Style preset",
+            )
+            custom_style = gr.Textbox(label="Custom style override", lines=3)
+            tags = gr.Textbox(label="Tags", value="adi,distillation,qwen3.5")
+            include_variants = gr.Checkbox(label="Generate five variants", value=True)
+            build = gr.Button("Generate JSONL", variant="primary")
+        with gr.Column(scale=1):
+            summary = gr.Textbox(label="Summary", interactive=False)
+            preview = gr.Code(label="First record preview", language="json", lines=18)
+            download = gr.File(label="Download JSONL")
+    jsonl = gr.Code(label="Full JSONL", language="json", lines=14)
+    build.click(
+        build_dataset,
+        inputs=[instruction, teacher, style, custom_style, tags, include_variants],
+        outputs=[summary, preview, jsonl, download],
+    )
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ gradio==6.19.0