yeomtong
/

srl_bert_model

semantic-role-labeling

Model card Files Files and versions

yeomtong commited on Oct 23, 2025

Commit

fe216b5

·

verified ·

1 Parent(s): b70354a

Update SRL_preprocessing.py

Files changed (1) hide show

SRL_preprocessing.py +6 -6

SRL_preprocessing.py CHANGED Viewed

@@ -203,12 +203,12 @@ def srl_collate(batch: List[Dict], pad_token_id: int, pad_label_id: int = -100):
 def data_processing_for_loader_conll(
     train_conll: str,
     dev_conll: Optional[str],
-    test_conll: Optional[str],
     tokenizer,
     word_col_idx: int = 3,
     srl_first_col_idx: int = 11,
     max_length: int = 256
-) -> Tuple[SRLDataset, Optional[SRLDataset], Optional[SRLDataset], Dict[str, int], Dict[int, str]]:
     """
     Reads train/dev/test .gold_conll files and returns:
       train_dataset, dev_dataset, test_dataset, label2id, id2label
@@ -219,10 +219,10 @@ def data_processing_for_loader_conll(
     # Load samples
     train_samples = load_conll_samples(train_conll, word_col_idx, srl_first_col_idx)
     dev_samples   = load_conll_samples(dev_conll,   word_col_idx, srl_first_col_idx) if dev_conll else []
-    test_samples  = load_conll_samples(test_conll,  word_col_idx, srl_first_col_idx) if test_conll else []
     # Build label maps from ALL splits
-    all_samples = train_samples + dev_samples + test_samples
     label2id = {}
     for s in all_samples:
         for lab in s.labels:
@@ -233,6 +233,6 @@ def data_processing_for_loader_conll(
     # Datasets
     train_ds = SRLDataset(train_samples, tokenizer, label2id, max_length=max_length)
     dev_ds   = SRLDataset(dev_samples,   tokenizer, label2id, max_length=max_length) if dev_samples else None
-    test_ds  = SRLDataset(test_samples,  tokenizer, label2id, max_length=max_length) if test_samples else None
-    return train_ds, dev_ds, test_ds, label2id, id2label

 def data_processing_for_loader_conll(
     train_conll: str,
     dev_conll: Optional[str],
+    # test_conll: Optional[str],
     tokenizer,
     word_col_idx: int = 3,
     srl_first_col_idx: int = 11,
     max_length: int = 256
+) -> Tuple[SRLDataset, Optional[SRLDataset], Dict[str, int], Dict[int, str]]:
     """
     Reads train/dev/test .gold_conll files and returns:
       train_dataset, dev_dataset, test_dataset, label2id, id2label
     # Load samples
     train_samples = load_conll_samples(train_conll, word_col_idx, srl_first_col_idx)
     dev_samples   = load_conll_samples(dev_conll,   word_col_idx, srl_first_col_idx) if dev_conll else []
+    # test_samples  = load_conll_samples(test_conll,  word_col_idx, srl_first_col_idx) if test_conll else []
     # Build label maps from ALL splits
+    all_samples = train_samples + dev_samples
     label2id = {}
     for s in all_samples:
         for lab in s.labels:
     # Datasets
     train_ds = SRLDataset(train_samples, tokenizer, label2id, max_length=max_length)
     dev_ds   = SRLDataset(dev_samples,   tokenizer, label2id, max_length=max_length) if dev_samples else None
+    # test_ds  = SRLDataset(test_samples,  tokenizer, label2id, max_length=max_length) if test_samples else None
+    return train_ds, dev_ds, label2id, id2label