aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on Jan 23

Commit

6d9930a

verified ·

1 Parent(s): e10d2ce

Add llama3 configurations with longer sequences

Files changed (1) hide show

inference-cache-config/trn1/llama3.json CHANGED Viewed

@@ -6,6 +6,12 @@
       "tensor_parallel_size": 2,
       "instance_type" : "trn1"
     },
     {
       "batch_size": 4,
       "sequence_length": 4096,
@@ -18,6 +24,12 @@
       "tensor_parallel_size": 2,
       "instance_type" : "trn1"
     },
     {
       "batch_size": 4,
       "sequence_length": 4096,
@@ -110,6 +122,12 @@
       "tensor_parallel_size": 24,
       "instance_type" : "trn1"
     },
     {
       "batch_size": 8,
       "sequence_length": 4096,
@@ -122,6 +140,12 @@
       "tensor_parallel_size": 32,
       "instance_type" : "trn1"
     },
     {
       "batch_size": 8,
       "sequence_length": 4096,

       "tensor_parallel_size": 2,
       "instance_type" : "trn1"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
     {
       "batch_size": 4,
       "sequence_length": 4096,
       "tensor_parallel_size": 2,
       "instance_type" : "trn1"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
     {
       "batch_size": 4,
       "sequence_length": 4096,
       "tensor_parallel_size": 24,
       "instance_type" : "trn1"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
     {
       "batch_size": 8,
       "sequence_length": 4096,
       "tensor_parallel_size": 32,
       "instance_type" : "trn1"
     },
+    {
+      "batch_size": 1,
+      "sequence_length": 16384,
+      "tensor_parallel_size": 32,
+      "instance_type" : "trn1"
+    },
     {
       "batch_size": 8,
       "sequence_length": 4096,