Upload 4 files

Browse files

Files changed (4) hide show

configuration_distil_greek_news_bert.py +19 -0
model.safetensors +3 -0
modeling_distil_greek_news_bert.py +87 -0
training_args.bin +3 -0

configuration_distil_greek_news_bert.py ADDED Viewed

	@@ -0,0 +1,19 @@

+from transformers import DistilBertConfig
+class DistilGreekNewsBertConfig(DistilBertConfig):
+    model_type = "distil_greek_news_bert"
+    def __init__(
+        self,
+        num_labels_class: int = 19,
+        num_labels_ner:   int = 32,
+        ner_loss_weight:  float = 3.0,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self.num_labels_class = num_labels_class
+        self.num_labels_ner   = num_labels_ner
+        self.ner_loss_weight  = ner_loss_weight
+# tells AutoConfig where to import this class when trust_remote_code=True
+DistilGreekNewsBertConfig.register_for_auto_class()

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf439c45367c9505c05681c979f9c7bcf2372227f54bffa69531f82d0c3e50e7
+size 281739892

modeling_distil_greek_news_bert.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import torch.nn as nn
+from transformers import DistilBertModel, DistilBertPreTrainedModel
+from .configuration_distil_greek_news_bert import DistilGreekNewsBertConfig  # ⬅️ relative
+class DistilGreekNewsBert(DistilBertPreTrainedModel)
+    config_class = DistilGreekNewsBertConfig      # critical link
+    _auto_class  = AutoModel
+    def __init__(self, config)
+        super().__init__(config)
+        self.distilbert = DistilBertModel(config)
+        n_cls = config.num_labels_class
+        n_ner = config.num_labels_ner
+        self.ner_loss_weight = getattr(config, ner_loss_weight, 3.0)
+        self.class_dropout = nn.Dropout(0.3)
+        self.class_fc   = nn.Linear(config.dim, 768)
+        self.class_relu = nn.ReLU()
+        self.classifier = nn.Linear(768, n_cls)
+        self.ner_classifier = nn.Linear(config.dim, n_ner)
+        self.initial_cls_loss = None
+        self.initial_ner_loss = None
+        self.post_init()
+    # forward identical to what you already wrote
+    def forward(
+        self,
+        input_ids,
+        attention_mask=None,
+        labels_class=None,
+        labels_ner=None,
+    ):
+        outputs = self.distilbert(
+            input_ids,
+            attention_mask=attention_mask,
+            return_dict=True,
+        )
+        sequence_output = outputs.last_hidden_state
+        cls_output      = sequence_output[:, 0, :]
+        # ── Classification branch ─────────────
+        cls_output   = self.class_dropout(cls_output)
+        cls_features = self.class_fc(cls_output)
+        cls_features = self.class_relu(cls_features)
+        logits_class = self.classifier(cls_features)
+        # ── NER branch ────────────────────────
+        logits_ner  = self.ner_classifier(sequence_output)
+        if labels_class is None or labels_ner is None:
+            return logits_class, logits_ner
+        # — Classification loss
+        loss_cls = nn.CrossEntropyLoss()(logits_class, labels_class)
+        # — NER loss: summed, averaged over non-pad tokens
+        ner_loss_sum = nn.CrossEntropyLoss(ignore_index=-100, reduction='sum')(
+            logits_ner.view(-1, logits_ner.size(-1)),
+            labels_ner.view(-1)
+        )
+        mask = (labels_ner != -100).view(-1).float()
+        loss_ner = ner_loss_sum / (mask.sum() + 1e-9)
+        # — Dynamic normalization: store initial values
+        if self.initial_cls_loss is None and self.training:
+            self.initial_cls_loss = loss_cls.item()
+        if self.initial_ner_loss is None and self.training:
+            self.initial_ner_loss = loss_ner.item()
+        # — Normalize losses
+        if (self.initial_cls_loss is not None) and (self.initial_ner_loss is not None):
+            norm_cls_loss = loss_cls / (self.initial_cls_loss + 1e-8)
+            norm_ner_loss = loss_ner / (self.initial_ner_loss + 1e-8)
+        else:
+            norm_cls_loss = loss_cls
+            norm_ner_loss = loss_ner
+        # — Combine with weighting
+        loss = norm_cls_loss + self.ner_loss_weight * norm_ner_loss
+        return loss, logits_class, logits_ner

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a3087de3f6bc9d9199d91ea74b310bed629b1fe2a75e9646e43cacdb99d48f8
+size 5304