Upload model - 20000 iterations, loss: 0.7583

Files changed (3) hide show

config.json CHANGED Viewed

@@ -22,9 +22,9 @@
   "transformers_version": "4.35.0",
   "mlx_training": {
     "framework": "MLX",
-    "iterations": 35000,
-    "final_loss": 3.4639759063720703,
-    "dataset": "finewebedu",
-    "max_tokens": 10000000
   }
 }

   "transformers_version": "4.35.0",
   "mlx_training": {
     "framework": "MLX",
+    "iterations": 20000,
+    "final_loss": 0.7582720518112183,
+    "dataset": "tinystories",
+    "max_tokens": 2000000
   }
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5af8ee2b8124c95ea8667396f3d525176f9e40b8d85f6331034a8bba7245c3e3
 size 211972024

 version https://git-lfs.github.com/spec/v1
+oid sha256:19aebe40bff044ccfe2f057a81afaf9ced015e98a12a54a198e1d6f3f5c24296
 size 211972024

training_metadata.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-  "model_name": "nanogpt-mlx-384d-35k",
   "architecture": "GPT-2",
   "parameters": "38,794,752",
   "training": {
-    "iterations": 35000,
-    "final_loss": 3.4639759063720703,
-    "dataset": "finewebedu",
-    "tokens_trained": 10000000,
     "batch_size": 12,
     "learning_rate": 0.0003,
     "context_length": 512

 {
+  "model_name": "nanogpt-mlx-384d-20k",
   "architecture": "GPT-2",
   "parameters": "38,794,752",
   "training": {
+    "iterations": 20000,
+    "final_loss": 0.7582720518112183,
+    "dataset": "tinystories",
+    "tokens_trained": 2000000,
     "batch_size": 12,
     "learning_rate": 0.0003,
     "context_length": 512