split-3-hebrew-trc-alephbert-base-EMP / temporal_relation_classification.py

Upload 10 files

74a45d1 over 2 years ago

7.52 kB

	from typing import Optional, Tuple, Union

	import torch
	from torch import nn
	from torch.nn import CrossEntropyLoss, BCEWithLogitsLoss, MSELoss
	from transformers import BertPreTrainedModel, BertModel, BertForSequenceClassification
	from transformers.modeling_outputs import SequenceClassifierOutput

	from trc_model.temporal_relation_classification_config import TemporalRelationClassificationConfig


	class TokenPooler(nn.Module):
	def __init__(self, config):
	super().__init__()
	self.dense = nn.Linear(config.hidden_size, config.hidden_size)
	self.activation = nn.Tanh()

	def forward(self, token_tensor: torch.Tensor) -> torch.Tensor:
	# We "pool" the model by simply taking the hidden state corresponding
	# to the first token.
	pooled_output = self.dense(token_tensor)
	pooled_output = self.activation(pooled_output)
	return pooled_output


	class TemporalRelationClassification(BertForSequenceClassification):
	config_class = TemporalRelationClassificationConfig

	def __init__(self, config):
	super().__init__(config)
	self.num_labels = config.num_labels
	self.special_markers = config.special_markers
	self.pool_tokens = config.pool_tokens
	self.ES_ID = config.ES_ID
	self.EMS1 = config.EMS1
	self.EMS2 = config.EMS2
	self.architecture = config.architecture
	self.config = config

	self.bert = BertModel.from_pretrained(config.base_lm)
	if self.bert.config.vocab_size != config.vocab_size:
	self.bert.resize_token_embeddings(config.vocab_size)

	classifier_dropout = (
	config.classifier_dropout if config.classifier_dropout is not None else config.hidden_dropout_prob
	)
	if config.pool_tokens:
	self.ems_1_pooler = TokenPooler(config)
	self.ems_2_pooler = TokenPooler(config)
	self.e_1_pooler = TokenPooler(config)
	self.e_2_pooler = TokenPooler(config)

	self.dropout = nn.Dropout(classifier_dropout)

	self.classification_layers = None
	if self.architecture == 'SEQ_CLS':
	self.classification_layers = nn.Sequential(
	nn.Linear(config.hidden_size, config.num_labels)
	)
	if self.architecture == 'EMP':
	self.e_1_linear = nn.Linear(config.hidden_size * 2, config.hidden_size)
	self.e_2_linear = nn.Linear(config.hidden_size * 2, config.hidden_size)

	if self.architecture in ['ESS', 'EF', 'EMP']:
	self.classification_layers = nn.Sequential(
	nn.Linear(config.hidden_size * 2, config.hidden_size),
	nn.Linear(config.hidden_size, config.num_labels)
	)

	# Initialize weights and apply final processing
	# self.post_init()

	def _get_entities_and_start_markers_indices(self, input_ids):
	if not self.special_markers:
	event_1_start, event_2_start = torch.tensor(
	[(ids == self.ES_ID).nonzero().squeeze().tolist() for ids in input_ids]).T
	return event_1_start, event_1_start + 1, event_2_start, event_2_start + 1

	em1_s = torch.tensor([(ids == self.EMS1).nonzero().item() for ids in input_ids], device=self.device)
	entity_1 = em1_s + 1

	em2_s = torch.tensor([(ids == self.EMS2).nonzero().item() for ids in input_ids], device=self.device)
	entity_2 = em2_s + 1
	return em1_s, entity_1, em2_s, entity_2

	def forward(
	self,
	input_ids: Optional[torch.Tensor] = None,
	attention_mask: Optional[torch.Tensor] = None,
	token_type_ids: Optional[torch.Tensor] = None,
	position_ids: Optional[torch.Tensor] = None,
	head_mask: Optional[torch.Tensor] = None,
	inputs_embeds: Optional[torch.Tensor] = None,
	labels: Optional[torch.Tensor] = None,
	output_attentions: Optional[bool] = None,
	output_hidden_states: Optional[bool] = None,
	return_dict: Optional[bool] = None,
	) -> Union[Tuple[torch.Tensor], SequenceClassifierOutput]:
	r"""
	labels (`torch.LongTensor` of shape `(batch_size,)`, optional):
	Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
	config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
	`config.num_labels > 1` a classification loss is computed (Cross-Entropy).
	"""
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict

	outputs = self.bert(
	input_ids,
	attention_mask=attention_mask,
	token_type_ids=token_type_ids,
	position_ids=position_ids,
	head_mask=head_mask,
	inputs_embeds=inputs_embeds,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict,
	)

	logits = None
	if self.architecture == 'SEQ_CLS':
	pooled_output = outputs[1]

	pooled_output = self.dropout(pooled_output)
	logits = self.classification_layers(pooled_output)
	else:
	sequence_output = outputs[0]

	sequence_output = self.dropout(sequence_output)

	entity_mark_1_s, entity_1, entity_mark_2_s, entity_2 = self._get_entities_and_start_markers_indices(
	input_ids)

	e1_start_mark_tensors = sequence_output[torch.arange(sequence_output.size(0)), entity_mark_1_s]
	e2_start_mark_tensors = sequence_output[torch.arange(sequence_output.size(0)), entity_mark_2_s]

	e1_tensor = sequence_output[torch.arange(sequence_output.size(0)), entity_1]
	e2_tensor = sequence_output[torch.arange(sequence_output.size(0)), entity_2]

	if self.pool_tokens:
	e1_start_mark_tensors = self.ems_1_pooler(e1_start_mark_tensors)
	e2_start_mark_tensors = self.ems_2_pooler(e2_start_mark_tensors)

	e1_tensor = self.e_1_pooler(e1_tensor)
	e2_tensor = self.e_2_pooler(e2_tensor)

	if self.architecture == 'ESS':
	e_start_markers_cat = torch.cat((e1_start_mark_tensors, e2_start_mark_tensors), 1)
	logits = self.classification_layers(e_start_markers_cat)

	if self.architecture == 'EF':
	events_cat = torch.cat((e1_tensor, e2_tensor), 1)
	logits = self.classification_layers(events_cat)

	if self.architecture == 'EMP':
	e1_and_start_mark = self.e_1_linear(torch.cat((e1_start_mark_tensors, e1_tensor), 1))
	e2_and_start_mark = self.e_2_linear(torch.cat((e2_start_mark_tensors, e2_tensor), 1))
	both_e_cat = torch.cat((e1_and_start_mark, e2_and_start_mark), 1)
	logits = self.classification_layers(both_e_cat)

	loss = None
	if labels is not None:
	loss_fct = CrossEntropyLoss()
	loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))

	if not return_dict:
	output = (logits,) + outputs[2:]
	return ((loss,) + output) if loss is not None else output

	return SequenceClassifierOutput(
	loss=loss,
	logits=logits,
	hidden_states=outputs.hidden_states,
	attentions=outputs.attentions,
	)