aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on Feb 6

Commit

ecc0bf7

verified ·

1 Parent(s): 69ff3fb

Update inference-cache-config/trn1/llama4.json

Files changed (1) hide show

inference-cache-config/trn1/llama4.json CHANGED Viewed

@@ -5,35 +5,35 @@
       "instance_type": "trn1",
       "batch_size": 1,
       "sequence_length": 4096,
-      "tensor_parallel_size": 16,
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 4,
       "sequence_length": 4096,
-      "tensor_parallel_size": 16,
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 1,
       "sequence_length": 4096,
-      "tensor_parallel_size": 32,
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 4,
       "sequence_length": 4096,
-      "tensor_parallel_size": 32,
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 8,
       "sequence_length": 4096,
-      "tensor_parallel_size": 32,
     }
   ]
 }

       "instance_type": "trn1",
       "batch_size": 1,
       "sequence_length": 4096,
+      "tensor_parallel_size": 16
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 4,
       "sequence_length": 4096,
+      "tensor_parallel_size": 16
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 1,
       "sequence_length": 4096,
+      "tensor_parallel_size": 32
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 4,
       "sequence_length": 4096,
+      "tensor_parallel_size": 32
     },
     {
       "task": "text-generation",
       "instance_type": "trn1",
       "batch_size": 8,
       "sequence_length": 4096,
+      "tensor_parallel_size": 32
     }
   ]
 }