nvidia
/

multilingual-domain-classifier

model_hub_mixin

pytorch_model_hub_mixin

Model card Files Files and versions

sarahyurick commited on Dec 5, 2024

Commit

cb6e443

·

verified ·

1 Parent(s): 6b32a36

Update README.md

Files changed (1) hide show

README.md +37 -0

README.md CHANGED Viewed

@@ -83,6 +83,43 @@ NeMo Curator improves generative AI model accuracy by processing text, image, an
 The inference code for this model is available through the NeMo Curator GitHub repository. Check out this [example notebook](https://github.com/NVIDIA/NeMo-Curator/tree/main/tutorials/distributed_data_classification) to get started.
 # Input & Output
 ## Input
 - Input Type: Text

 The inference code for this model is available through the NeMo Curator GitHub repository. Check out this [example notebook](https://github.com/NVIDIA/NeMo-Curator/tree/main/tutorials/distributed_data_classification) to get started.
+# How to Use in Transformers
+To use the multilingual domain classifier, use the following code:
+```
+import torch
+from torch import nn
+from transformers import AutoModel, AutoTokenizer, AutoConfig
+from huggingface_hub import PyTorchModelHubMixin
+class CustomModel(nn.Module, PyTorchModelHubMixin):
+    def __init__(self, config):
+        super(CustomModel, self).__init__()
+        self.model = AutoModel.from_pretrained(config["base_model"])
+        self.dropout = nn.Dropout(config["fc_dropout"])
+        self.fc = nn.Linear(self.model.config.hidden_size, len(config["id2label"]))
+    def forward(self, input_ids, attention_mask):
+        features = self.model(input_ids=input_ids, attention_mask=attention_mask).last_hidden_state
+        dropped = self.dropout(features)
+        outputs = self.fc(dropped)
+        return torch.softmax(outputs[:, 0, :], dim=1)
+# Setup configuration and model
+config = AutoConfig.from_pretrained("nvidia/multilingual-domain-classifier")
+tokenizer = AutoTokenizer.from_pretrained("nvidia/multilingual-domain-classifier")
+model = CustomModel.from_pretrained("nvidia/multilingual-domain-classifier")
+# Prepare and process inputs
+text_samples = ["Los deportes son un dominio popular", "La política es un dominio popular"]
+inputs = tokenizer(text_samples, return_tensors="pt", padding="longest", truncation=True)
+outputs = model(inputs["input_ids"], inputs["attention_mask"])
+# Predict and display results
+predicted_classes = torch.argmax(outputs, dim=1)
+predicted_domains = [config.id2label[class_idx.item()] for class_idx in predicted_classes.cpu().numpy()]
+print(predicted_domains)
+```
 # Input & Output
 ## Input
 - Input Type: Text