Spaces:

zhenyundeng
/

AVeriTeC-API

Build error

App Files Files Community

zhenyundeng commited on Sep 6, 2024

Commit

7168c2f

1 Parent(s): 8d2d2b1

update

Browse files

Files changed (2) hide show

app.py +81 -76
requirements.txt +3 -2

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ import json
 import pytorch_lightning as pl
 from urllib.parse import urlparse
 from accelerate import Accelerator
 from transformers import BartTokenizer, BartForConditionalGeneration
 from transformers import BloomTokenizerFast, BloomForCausalLM, BertTokenizer, BertForSequenceClassification
@@ -273,6 +274,7 @@ def fever_veracity_prediction(claim, evidence):
     return pred_label
 def veracity_prediction(claim, qa_evidence):
     # bert_model_name = "bert-base-uncased"
     # tokenizer = BertTokenizer.from_pretrained(bert_model_name)
@@ -375,6 +377,7 @@ def google_justification_generation(claim, qa_evidence, verdict_label):
     return pred_justification.strip()
 def justification_generation(claim, qa_evidence, verdict_label):
     #
     claim_str = extract_claim_str(claim, qa_evidence, verdict_label)
@@ -465,6 +468,7 @@ def docs2prompt(top_docs):
     return "\n\n".join([doc2prompt(d) for d in top_docs])
 def prompt_question_generation(test_claim, speaker="they", topk=10):
     #
     reference_file = "averitec/data/train.json"
@@ -926,88 +930,89 @@ def decorate_with_questions(claim, retrieve_evidence, top_k=5):  # top_k=10, 100
     return generate_qa_pairs
-def decorate_with_questions_michale(claim, retrieve_evidence, top_k=10):  # top_k=100
-    #
-    reference_file = "averitec/data/train.json"
-    tokenized_corpus, prompt_corpus = generate_step2_reference_corpus(reference_file)
-    prompt_bm25 = BM25Okapi(tokenized_corpus)
-    # Define the bloom model:
-    accelerator = Accelerator()
-    accel_device = accelerator.device
-    # device = "cuda:0" if torch.cuda.is_available() else "cpu"
-    # tokenizer = BloomTokenizerFast.from_pretrained("bigscience/bloom-7b1")
-    # model = BloomForCausalLM.from_pretrained(
-    #     "bigscience/bloom-7b1",
-    #     device_map="auto",
-    #     torch_dtype=torch.bfloat16,
-    #     offload_folder="./offload"
-    # )
-    #
-    tokenized_corpus = []
-    all_data_corpus = []
-    for retri_evi in tqdm.tqdm(retrieve_evidence):
-        store_file = retri_evi[-1]
-        with open(store_file, 'r') as f:
-            first = True
-            for line in f:
-                line = line.strip()
-                if first:
-                    first = False
-                    location_url = line
-                    continue
-                if len(line) > 3:
-                    entry = nltk.word_tokenize(line)
-                    if (location_url, line) not in all_data_corpus:
-                        tokenized_corpus.append(entry)
-                        all_data_corpus.append((location_url, line))
-    if len(tokenized_corpus) == 0:
-        print("")
-    bm25 = BM25Okapi(tokenized_corpus)
-    s = bm25.get_scores(nltk.word_tokenize(claim))
-    top_n = np.argsort(s)[::-1][:top_k]
-    docs = [all_data_corpus[i] for i in top_n]
-    generate_qa_pairs = []
-    # Then, generate questions for those top 50:
-    for doc in tqdm.tqdm(docs):
-        # prompt_lookup_str = example["claim"] + " " + doc[1]
-        prompt_lookup_str = doc[1]
-        prompt_s = prompt_bm25.get_scores(nltk.word_tokenize(prompt_lookup_str))
-        prompt_n = 10
-        prompt_top_n = np.argsort(prompt_s)[::-1][:prompt_n]
-        prompt_docs = [prompt_corpus[i] for i in prompt_top_n]
-        claim_prompt = "Evidence: " + doc[1].replace("\n", " ") + "\nQuestion answered: "
-        prompt = "\n\n".join(prompt_docs + [claim_prompt])
-        sentences = [prompt]
-        inputs = qg_tokenizer(sentences, padding=True, return_tensors="pt").to(device)
-        outputs = qg_model.generate(inputs["input_ids"], max_length=5000, num_beams=2, no_repeat_ngram_size=2,
-                                 early_stopping=True)
-        tgt_text = qg_tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)[0]
-        # We are not allowed to generate more than 250 characters:
-        tgt_text = tgt_text[:250]
-        qa_pair = [tgt_text.strip().split("?")[0].replace("\n", " ") + "?", doc[1].replace("\n", " "), doc[0]]
-        generate_qa_pairs.append(qa_pair)
-    return generate_qa_pairs
 def triple_to_string(x):
     return " </s> ".join([item.strip() for item in x])
 def rerank_questions(claim, bm25_qas, topk=3):
     #
     # tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

 import pytorch_lightning as pl
 from urllib.parse import urlparse
 from accelerate import Accelerator
+import spaces
 from transformers import BartTokenizer, BartForConditionalGeneration
 from transformers import BloomTokenizerFast, BloomForCausalLM, BertTokenizer, BertForSequenceClassification
     return pred_label
+@spaces.GPU
 def veracity_prediction(claim, qa_evidence):
     # bert_model_name = "bert-base-uncased"
     # tokenizer = BertTokenizer.from_pretrained(bert_model_name)
     return pred_justification.strip()
+@spaces.GPU
 def justification_generation(claim, qa_evidence, verdict_label):
     #
     claim_str = extract_claim_str(claim, qa_evidence, verdict_label)
     return "\n\n".join([doc2prompt(d) for d in top_docs])
+@spaces.GPU
 def prompt_question_generation(test_claim, speaker="they", topk=10):
     #
     reference_file = "averitec/data/train.json"
     return generate_qa_pairs
+# def decorate_with_questions_michale(claim, retrieve_evidence, top_k=10):  # top_k=100
+#     #
+#     reference_file = "averitec/data/train.json"
+#     tokenized_corpus, prompt_corpus = generate_step2_reference_corpus(reference_file)
+#     prompt_bm25 = BM25Okapi(tokenized_corpus)
+#
+#     # Define the bloom model:
+#     accelerator = Accelerator()
+#     accel_device = accelerator.device
+#     # device = "cuda:0" if torch.cuda.is_available() else "cpu"
+#     # tokenizer = BloomTokenizerFast.from_pretrained("bigscience/bloom-7b1")
+#     # model = BloomForCausalLM.from_pretrained(
+#     #     "bigscience/bloom-7b1",
+#     #     device_map="auto",
+#     #     torch_dtype=torch.bfloat16,
+#     #     offload_folder="./offload"
+#     # )
+#
+#     #
+#     tokenized_corpus = []
+#     all_data_corpus = []
+#
+#     for retri_evi in tqdm.tqdm(retrieve_evidence):
+#         store_file = retri_evi[-1]
+#
+#         with open(store_file, 'r') as f:
+#             first = True
+#             for line in f:
+#                 line = line.strip()
+#
+#                 if first:
+#                     first = False
+#                     location_url = line
+#                     continue
+#
+#                 if len(line) > 3:
+#                     entry = nltk.word_tokenize(line)
+#                     if (location_url, line) not in all_data_corpus:
+#                         tokenized_corpus.append(entry)
+#                         all_data_corpus.append((location_url, line))
+#
+#     if len(tokenized_corpus) == 0:
+#         print("")
+#
+#     bm25 = BM25Okapi(tokenized_corpus)
+#     s = bm25.get_scores(nltk.word_tokenize(claim))
+#     top_n = np.argsort(s)[::-1][:top_k]
+#     docs = [all_data_corpus[i] for i in top_n]
+#
+#     generate_qa_pairs = []
+#     # Then, generate questions for those top 50:
+#     for doc in tqdm.tqdm(docs):
+#         # prompt_lookup_str = example["claim"] + " " + doc[1]
+#         prompt_lookup_str = doc[1]
+#
+#         prompt_s = prompt_bm25.get_scores(nltk.word_tokenize(prompt_lookup_str))
+#         prompt_n = 10
+#         prompt_top_n = np.argsort(prompt_s)[::-1][:prompt_n]
+#         prompt_docs = [prompt_corpus[i] for i in prompt_top_n]
+#
+#         claim_prompt = "Evidence: " + doc[1].replace("\n", " ") + "\nQuestion answered: "
+#         prompt = "\n\n".join(prompt_docs + [claim_prompt])
+#         sentences = [prompt]
+#
+#         inputs = qg_tokenizer(sentences, padding=True, return_tensors="pt").to(device)
+#         outputs = qg_model.generate(inputs["input_ids"], max_length=5000, num_beams=2, no_repeat_ngram_size=2,
+#                                  early_stopping=True)
+#
+#         tgt_text = qg_tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)[0]
+#         # We are not allowed to generate more than 250 characters:
+#         tgt_text = tgt_text[:250]
+#
+#         qa_pair = [tgt_text.strip().split("?")[0].replace("\n", " ") + "?", doc[1].replace("\n", " "), doc[0]]
+#         generate_qa_pairs.append(qa_pair)
+#
+#     return generate_qa_pairs
 def triple_to_string(x):
     return " </s> ".join([item.strip() for item in x])
+@spaces.GPU
 def rerank_questions(claim, bm25_qas, topk=3):
     #
     # tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

requirements.txt CHANGED Viewed

@@ -1,9 +1,9 @@
 gradio
-nltk
 rank_bm25
 accelerate
 trafilatura
-spacy
 pytorch_lightning
 transformers==4.29.2
 datasets
@@ -21,3 +21,4 @@ azure-storage-blob
 bm25s
 PyStemmer
 lxml_html_clean

 gradio
+nltk==3.8.1
 rank_bm25
 accelerate
 trafilatura
+spacy==3.7.5
 pytorch_lightning
 transformers==4.29.2
 datasets
 bm25s
 PyStemmer
 lxml_html_clean
+spaces