aws-neuron
/

optimum-neuron-cache

dacorvo HF Staff commited on Feb 6

Commit

69ff3fb

verified ·

1 Parent(s): 614cbff

Update inference-cache-config/trn1/llama4.json

Files changed (1) hide show

inference-cache-config/trn1/llama4.json CHANGED Viewed

@@ -6,7 +6,6 @@
       "batch_size": 1,
       "sequence_length": 4096,
       "tensor_parallel_size": 16,
-      "auto_cast_type": "bf16"
     },
     {
       "task": "text-generation",
@@ -14,7 +13,6 @@
       "batch_size": 4,
       "sequence_length": 4096,
       "tensor_parallel_size": 16,
-      "auto_cast_type": "bf16"
     },
     {
       "task": "text-generation",
@@ -22,7 +20,6 @@
       "batch_size": 1,
       "sequence_length": 4096,
       "tensor_parallel_size": 32,
-      "auto_cast_type": "bf16"
     },
     {
       "task": "text-generation",
@@ -30,7 +27,6 @@
       "batch_size": 4,
       "sequence_length": 4096,
       "tensor_parallel_size": 32,
-      "auto_cast_type": "bf16"
     },
     {
       "task": "text-generation",
@@ -38,7 +34,6 @@
       "batch_size": 8,
       "sequence_length": 4096,
       "tensor_parallel_size": 32,
-      "auto_cast_type": "bf16"
     }
   ]
 }

       "batch_size": 1,
       "sequence_length": 4096,
       "tensor_parallel_size": 16,
     },
     {
       "task": "text-generation",
       "batch_size": 4,
       "sequence_length": 4096,
       "tensor_parallel_size": 16,
     },
     {
       "task": "text-generation",
       "batch_size": 1,
       "sequence_length": 4096,
       "tensor_parallel_size": 32,
     },
     {
       "task": "text-generation",
       "batch_size": 4,
       "sequence_length": 4096,
       "tensor_parallel_size": 32,
     },
     {
       "task": "text-generation",
       "batch_size": 8,
       "sequence_length": 4096,
       "tensor_parallel_size": 32,
     }
   ]
 }