Add Neuron-optimized files for deepset/roberta-base-squad2

🤖 Neuron Export Bot: Adding AWS Neuron-optimized model files.

Original model: [deepset/roberta-base-squad2](https://huggingface.co/deepset/roberta-base-squad2)
Task: question-answering
Generated by: [badaoui](https://huggingface.co/badaoui)
Generated using: [Optimum Neuron Compiler Space](https://huggingface.co/spaces/optimum/neuron-export)

These files have been pre-compiled for AWS Neuron devices (Inferentia/Trainium) and should provide improved inference performance.

Files changed (2) hide show

config.json +7 -13
model.neuron +2 -2

config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_attn_implementation_autoset": true,
   "architectures": [
     "RobertaForQuestionAnswering"
   ],
@@ -19,26 +18,21 @@
   "model_type": "roberta",
   "name": "Roberta",
   "neuron": {
-    "auto_cast": null,
-    "auto_cast_type": null,
     "compiler_type": "neuronx-cc",
-    "compiler_version": "2.19.8089.0+8ab9f450",
     "disable_fallback": false,
     "disable_fast_relayout": false,
     "dynamic_batch_size": false,
     "inline_weights_to_neff": true,
-    "input_names": [
-      "input_ids",
-      "attention_mask"
-    ],
     "model_type": "roberta",
     "optlevel": "2",
     "output_attentions": false,
     "output_hidden_states": false,
-    "output_names": [
-      "start_logits",
-      "end_logits"
-    ],
     "static_batch_size": 1,
     "static_sequence_length": 128,
     "task": "question-answering",
@@ -50,7 +44,7 @@
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
   "torchscript": true,
-  "transformers_version": "4.51.3",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50265

 {
   "architectures": [
     "RobertaForQuestionAnswering"
   ],
   "model_type": "roberta",
   "name": "Roberta",
   "neuron": {
+    "auto_cast": "matmul",
+    "auto_cast_type": "bf16",
     "compiler_type": "neuronx-cc",
+    "compiler_version": "2.21.18209.0+043b1bf7",
     "disable_fallback": false,
     "disable_fast_relayout": false,
     "dynamic_batch_size": false,
+    "float_dtype": "fp32",
     "inline_weights_to_neff": true,
+    "instance_type": "inf2",
+    "int_dtype": "int64",
     "model_type": "roberta",
     "optlevel": "2",
     "output_attentions": false,
     "output_hidden_states": false,
     "static_batch_size": 1,
     "static_sequence_length": 128,
     "task": "question-answering",
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
   "torchscript": true,
+  "transformers_version": "4.55.4",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50265

model.neuron CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4097955ee0bf7f34ed6765fb716654da572fdc436ca5ce3119b916b0febbfeb5
-size 461190778

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbedbfc13a8c22987b82ee88926e7b066919f766720e1f01b59be128d38176e1
+size 281147642