aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on Jan 27

Commit

f8538f0

verified ·

1 Parent(s): 412a86d

use longer sequence length for llama3 on trn2

Files changed (1) hide show

inference-cache-config/trn2/llama3.json CHANGED Viewed

@@ -6,6 +6,12 @@
       "tensor_parallel_size": 4,
       "instance_type" : "trn2"
     },
     {
       "batch_size": 8,
       "sequence_length": 4096,
@@ -32,6 +38,12 @@
       "tensor_parallel_size" : 4,
       "instance_type" : "trn2"
     },
     {
       "batch_size": 4,
       "sequence_length": 4096,
@@ -52,6 +64,12 @@
       "tensor_parallel_size" : 4,
       "instance_type" : "trn2"
     },
     {
       "batch_size": 64,
       "sequence_length": 4096,
@@ -80,6 +98,12 @@
       "tensor_parallel_size": 64,
       "instance_type" : "trn2"
     },
     {
       "batch_size": 32,
       "sequence_length": 4096,

       "tensor_parallel_size": 4,
       "instance_type" : "trn2"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size": 4,
+      "instance_type" : "trn2"
+    },
     {
       "batch_size": 8,
       "sequence_length": 4096,
       "tensor_parallel_size" : 4,
       "instance_type" : "trn2"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size" : 4,
+      "instance_type" : "trn2"
+    },
     {
       "batch_size": 4,
       "sequence_length": 4096,
       "tensor_parallel_size" : 4,
       "instance_type" : "trn2"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size" : 4,
+      "instance_type" : "trn2"
+    },
     {
       "batch_size": 64,
       "sequence_length": 4096,
       "tensor_parallel_size": 64,
       "instance_type" : "trn2"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size": 64,
+      "instance_type" : "trn2"
+    },
     {
       "batch_size": 32,
       "sequence_length": 4096,