ychenNLP
/

arabic-relation-extraction

@@ -12,18 +12,18 @@ datasets:
 # Arabic Relation Extraction Model
 - [Github repo](https://github.com/edchengg/GigaBERT)
 - Relation Extraction model based on [GigaBERTv4](https://huggingface.co/lanwuwei/GigaBERT-v4-Arabic-and-English).
 - ACE2005 Training data: Arabic
 - [Relation tags](https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/arabic-relations-guidelines-v6.5.pdf) including: Physical, Part-whole, Personal-Social, ORG-Affiliation, Agent-Artifact, Gen-Affiliation
 ## Hyperparameters
 - learning_rate=2e-5
 - num_train_epochs=10
 - weight_decay=0.01
-## ACE2005 Evaluation results (F1)
-| Language | Arabic |
-|:----:|:-----------:|
-|      | 89.4   |
 ## How to use
 Workflow of a relation extraction model:
@@ -68,7 +68,7 @@ def process_ner_output(entity_mention, inputs):
             re_input.append({"re_input": new_re_input, "arg1": ent_1, "arg2": ent_2, "input": inputs})
     return re_input
-def post_process_re_output(re_output, re_input, ner_output):
     final_output = []
     for idx, out in enumerate(re_output):
         if out["label"] != 'O':
@@ -77,28 +77,48 @@ def post_process_re_output(re_output, re_input, ner_output):
             tmp.pop('re_input', None)
             final_output.append(tmp)
-    template = {"input": re_input["input"],
                 "entity": ner_output,
                 "relation": final_output}
     return template
->>> input = "Hugging face is a French company in New york."
->>> output = ner_pip(input) # inference NER tags
->>> re_input = process_ner_output(output, input) # prepare a pair of entity and predict relation type
->>> re_output = []
->>> for idx in range(len(re_input)):
->>>     tmp_re_output = re_pip(re_input[idx]["re_input"]) # for each pair of entity, predict relation
->>>     re_output.append(tmp_re_output)
->>> re_ner_output = post_process_re_output(re_output) # post process NER and relation predictions
->>> print("Sentence: ",re_ner_output["input"])
->>> print("Entity: ", re_ner_output["entity"])
->>> print("Relation: ", re_ner_output["relation"])
 ```
 ### BibTeX entry and citation info

 # Arabic Relation Extraction Model
 - [Github repo](https://github.com/edchengg/GigaBERT)
 - Relation Extraction model based on [GigaBERTv4](https://huggingface.co/lanwuwei/GigaBERT-v4-Arabic-and-English).
+- Model detail: mark two entities in the sentence with special markers (e.g., ```XXXX <PER> entity1 </PER> XXXXXXX <ORG> entity2 </ORG> XXXXX```). Then we use the BERT [CLS] representation to make a prediction.
 - ACE2005 Training data: Arabic
 - [Relation tags](https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/arabic-relations-guidelines-v6.5.pdf) including: Physical, Part-whole, Personal-Social, ORG-Affiliation, Agent-Artifact, Gen-Affiliation
 ## Hyperparameters
 - learning_rate=2e-5
 - num_train_epochs=10
 - weight_decay=0.01
+## ACE2005 Evaluation results (F1) - using gold entities
+| Language | Arabic | English |
+|:----:|:-----------:|:-----------:|
+|      | 72.6  | 72.1|
 ## How to use
 Workflow of a relation extraction model:
             re_input.append({"re_input": new_re_input, "arg1": ent_1, "arg2": ent_2, "input": inputs})
     return re_input
+def post_process_re_output(re_output, text_input, ner_output):
     final_output = []
     for idx, out in enumerate(re_output):
         if out["label"] != 'O':
             tmp.pop('re_input', None)
             final_output.append(tmp)
+    template = {"input": text_input,
                 "entity": ner_output,
                 "relation": final_output}
     return template
+text_input = 'قال وزير العدل التركي بكير بوزداغ إن أنقرة تريد 12 مشتبهاً بهم من فنلندا و 21 من السويد'
+ner_output = ner_pip(text_input) # inference NER tags
+re_input = process_ner_output(ner_output, text_input) # prepare a pair of entity and predict relation type
+re_output = []
+for idx in range(len(re_input)):
+    tmp_re_output = re_pip(re_input[idx]["re_input"]) # for each pair of entity, predict relation
+    re_output.append(tmp_re_output[0])
+re_ner_output = post_process_re_output(re_output, text_input, ner_output) # post process NER and relation predictions
+print("Sentence: ",re_ner_output["input"])
+print('====Entity====')
+for ent in re_ner_output["entity"]:
+  print('{}--{}'.format(ent["word"], ent["entity_group"]))
+print('====Relation====')
+for rel in re_ner_output["relation"]:
+  print('{}--{}:{}'.format(rel['arg1']['word'], rel['arg2']['word'], rel['relation_type']['label']))
+Sentence:  قال وزير العدل التركي بكير بوزداغ إن أنقرة تريد 12 مشتبهاً بهم من فنلندا و 21 من السويد
+====Entity====
+وزير--PER
+العدل--ORG
+التركي--GPE
+بكير بوزداغ--PER
+انقرة--GPE
+مشتبها بهم--PER
+فنلندا--GPE
+21--PER
+السويد--GPE
+====Relation====
+وزير--العدل:ORG-AFF
+مشتبها بهم--فنلندا:PHYS
+21--السويد:PHYS
 ```
 ### BibTeX entry and citation info