rbawden
/

modern_french_normalisation

text2text-generation

Model card Files Files and versions

rbawden commited on Jan 4, 2024

Commit

fedd01a

·

1 Parent(s): 8c4b8e7

Update pipeline.py

Files changed (1) hide show

pipeline.py +10 -0

pipeline.py CHANGED Viewed

@@ -654,15 +654,25 @@ class NormalisationPipeline(Pipeline):
         for i in range(len(result)):
             input_sent, pred_sent = input_sents[i].strip(), result[i][0]['text'].strip()
             input_sent = input_sent.replace('ſ' , 's')
             if not self.no_post_clean:
                 pred_sent = self.post_cleaning(pred_sent)
             alignment, pred_sent_tok = self.align(input_sent, pred_sent)
             if not self.no_postproc_lex:
                 alignment = self.postprocess_correct_sent(alignment)
             pred_sent = self.get_pred_from_alignment(alignment)
             if not self.no_post_clean:
                 pred_sent = self.post_cleaning(pred_sent)
             char_spans = self.get_char_idx_align(input_sent, pred_sent, alignment)
             output.append({'text': pred_sent, 'alignment': char_spans})
         return output

         for i in range(len(result)):
             input_sent, pred_sent = input_sents[i].strip(), result[i][0]['text'].strip()
             input_sent = input_sent.replace('ſ' , 's')
+            # apply cleaning and get alignment (necessary for postprocessing w/ the lexicon)
             if not self.no_post_clean:
                 pred_sent = self.post_cleaning(pred_sent)
             alignment, pred_sent_tok = self.align(input_sent, pred_sent)
+            # apply postprocessing w/ the lexicon to the sentence (using the alignment)
             if not self.no_postproc_lex:
                 alignment = self.postprocess_correct_sent(alignment)
+            # get the predicted sentence from the alignment
             pred_sent = self.get_pred_from_alignment(alignment)
+            # redo another round of cleaning and get the alignment again in case things have changed
             if not self.no_post_clean:
                 pred_sent = self.post_cleaning(pred_sent)
+                alignment, pred_sent_tok = self.align(input_sent, pred_sent)
+            # get aligned character spans
             char_spans = self.get_char_idx_align(input_sent, pred_sent, alignment)
             output.append({'text': pred_sent, 'alignment': char_spans})
         return output