gss1147
/

Qwen3-0.6B-Sushi-Math-Code-Expert

Text Generation

text-generation-inference

Model card Files Files and versions

gss1147 commited on 29 days ago

Commit

430bb20

·

verified ·

1 Parent(s): e9c4629

Update README.md

Files changed (1) hide show

README.md +54 -54

README.md CHANGED Viewed

@@ -1,54 +1,54 @@
----
-base_model: []
-library_name: transformers
-tags:
-- mergekit
-- merge
----
-# WithinUs_CPU_Hybrid
-This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
-## Merge Details
-### Merge Method
-This model was merged using the [SLERP](https://en.wikipedia.org/wiki/Slerp) merge method.
-### Models Merged
-The following models were included in the merge:
-* C:/Users/GSS1147/Desktop/Qwen3-0.6B-Sushi-Code-Expert
-* X:/AI_Models/sayantan0013-math-stack_Qwen3-0
-### Configuration
-The following YAML configuration was used to produce this model:
-```yaml
-base_model: C:/Users/GSS1147/Desktop/Qwen3-0.6B-Sushi-Code-Expert
-dtype: float16
-merge_method: slerp
-parameters:
-  t:
-  - filter: embed_tokens
-    value: 0.0
-  - filter: self_attn
-    value: 0.5
-  - filter: mlp
-    value: 0.5
-  - filter: lm_head
-    value: 1.0
-  - value: 0.5
-slices:
-- sources:
-  - layer_range:
-    - 0
-    - 28
-    model: C:/Users/GSS1147/Desktop/Qwen3-0.6B-Sushi-Code-Expert
-  - layer_range:
-    - 0
-    - 28
-    model: X:/AI_Models/sayantan0013-math-stack_Qwen3-0
-```

+---
+base_model: []
+library_name: transformers
+tags:
+- mergekit
+- merge
+---
+# Qwen3-0.6B-Sushi-Math-Code-Expert
+This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
+## Merge Details
+### Merge Method
+This model was merged using the [SLERP](https://en.wikipedia.org/wiki/Slerp) merge method.
+### Models Merged
+The following models were included in the merge:
+* Qwen3-0.6B-Sushi-Code-Expert
+* sayantan0013-math-stack_Qwen3-0
+### Configuration
+The following YAML configuration was used to produce this model:
+```yaml
+base_model: C:/Users/GSS1147/Desktop/Qwen3-0.6B-Sushi-Code-Expert
+dtype: float16
+merge_method: slerp
+parameters:
+  t:
+  - filter: embed_tokens
+    value: 0.0
+  - filter: self_attn
+    value: 0.5
+  - filter: mlp
+    value: 0.5
+  - filter: lm_head
+    value: 1.0
+  - value: 0.5
+slices:
+- sources:
+  - layer_range:
+    - 0
+    - 28
+    model: C:/Users/GSS1147/Desktop/Qwen3-0.6B-Sushi-Code-Expert
+  - layer_range:
+    - 0
+    - 28
+    model: X:/AI_Models/sayantan0013-math-stack_Qwen3-0
+```