darwinkernelpanic
/

DiffReaper-5L

parallel-generation

custom-transformer

Model card Files Files and versions

darwinkernelpanic commited on Jan 28

Commit

0c3e462

·

verified ·

1 Parent(s): 94a96d5

Update README.md

Files changed (1) hide show

README.md +8 -16

README.md CHANGED Viewed

@@ -2,7 +2,6 @@
 language:
 - en
 license: openrail
-library_name: diffusers
 tags:
 - diffusion-llm
 - parallel-generation
@@ -12,27 +11,22 @@ datasets:
 - OpenAssistant/oasst1
 metrics:
 - cosine_similarity
 ---
-# 🪐 DiffReaper-5L
-DiffReaper-5L is a **larger** version of DiffReaper-5, with **2048-dim embeddings** and a **24-layer Transformer**. This model is under **active autonomous training** on an H100.
-## 🔬 Model Details
 - **Architecture:** 24-layer Custom Transformer with Time Embedding.
 - **Task:** Conditioned Text Diffusion (Prompt-Response).
 - **Training Objective:** Cosine Similarity Regression.
 - **Sampling:** 10-step iterative parallel denoising.
-## 🚀 Autonomous Training State
-The model is training autonomously on an H100 with the following configuration:
-- **Batch Size:** 16.
-- **Learning Rate:** 1e-4.
-- **Checkpointing:** Saves `diffreaper5l_{step}.pt` every 2,500 steps to [darwinkernelpanic/DiffReaper-5L](https://huggingface.co/darwinkernelpanic/DiffReaper-5L).
-## 🛠️ Usage (Inference)
 To run inference:
@@ -45,8 +39,6 @@ model.load_state_dict(torch.load("diffreaper5l_latest.pt"))
 model.eval()
 ```
-## 🎯 Fine-tuning
-To fine-tune on a custom dataset, ensure your data loader provides **Prompt** + **Response** pairs. Use the same Cosine Similarity loss.
-*Created by Darwin & Clawd.*

 language:
 - en
 license: openrail
 tags:
 - diffusion-llm
 - parallel-generation
 - OpenAssistant/oasst1
 metrics:
 - cosine_similarity
+base_model:
+- darwinkernelpanic/DiffReaper-5
 ---
+# DiffReaper-5L
+DiffReaper-5L is a **larger** version of DiffReaper-5, with **2048-dim embeddings** and a **24-layer Transformer**.
+## Model Details
 - **Architecture:** 24-layer Custom Transformer with Time Embedding.
 - **Task:** Conditioned Text Diffusion (Prompt-Response).
 - **Training Objective:** Cosine Similarity Regression.
 - **Sampling:** 10-step iterative parallel denoising.
+## Usage (Inference)
 To run inference:
 model.eval()
 ```
+## Fine-tuning
+To fine-tune on a custom dataset, ensure your data loader provides **Prompt** + **Response** pairs. Use the same Cosine Similarity loss.