lytang
/

MiniCheck-Flan-T5-Large

@@ -1,6 +1,5 @@
 from minicheck_web.minicheck import MiniCheck
 from web_retrieval import *
-import json
 def sort_chunks_single_doc_claim(used_chunk, support_prob_per_chunk):
@@ -32,47 +31,40 @@ class EndpointHandler():
             ranked_docs, scores = sort_chunks_single_doc_claim(used_chunk, support_prob_per_chunk)
             outputs = {
-            'ranked_docs': ranked_docs,
-            'scores': scores
-            }
-            return outputs
         else:
             assert len(data['inputs']['claims']) == 1, "Only one claim is allowed for web retrieval for the current version."
             claim = data['inputs']['claims'][0]
-            progress_generator = self.search_relevant_docs(claim)
-            def generate_sse():
-                for progress in progress_generator:
-                    yield f"data: {progress}\n"
-                ranked_docs, scores, ranked_urls = progress_generator.send(None)
-                outputs = {
-                    'ranked_docs': ranked_docs,
-                    'scores': scores,
-                    'ranked_urls': ranked_urls
-                }
-                yield f"data: {json.dumps(outputs)}\n"
-            return generate_sse()
     def search_relevant_docs(self, claim, timeout=10, max_search_results_per_query=5, allow_duplicated_urls=False):
         search_results = search_google(claim, timeout=timeout)
-        yield 'Searching webpages...'
         start = time()
         with concurrent.futures.ThreadPoolExecutor() as e:
             scraped_results = e.map(scrape_url, search_results, itertools.repeat(timeout))
         end = time()
-        yield f"Finished searching in {round((end - start), 1)} seconds."
         scraped_results = [(r[0][:50000], r[1]) for r in scraped_results if r[0] and '��' not in r[0] and ".pdf" not in r[1]]
         retrieved_docs, urls = zip(*scraped_results[:max_search_results_per_query])
-        yield 'Scoring webpages...'
         start = time()
         retrieved_data = {
             'inputs': {
@@ -83,7 +75,7 @@ class EndpointHandler():
         _, _, used_chunk, support_prob_per_chunk = self.scorer.score(data=retrieved_data)
         end = time()
         num_chunks = len([item for items in used_chunk for item in items])
-        yield f'Finished {num_chunks} entailment checks in {round((end - start), 1)} seconds ({round(num_chunks / (end - start) * 60)} Doc./min).'
         ranked_docs, scores, ranked_urls = order_doc_score_url(used_chunk, support_prob_per_chunk, urls, allow_duplicated_urls=allow_duplicated_urls)

 from minicheck_web.minicheck import MiniCheck
 from web_retrieval import *
 def sort_chunks_single_doc_claim(used_chunk, support_prob_per_chunk):
             ranked_docs, scores = sort_chunks_single_doc_claim(used_chunk, support_prob_per_chunk)
             outputs = {
+                'ranked_docs': ranked_docs,
+                'scores': scores
+                }
         else:
             assert len(data['inputs']['claims']) == 1, "Only one claim is allowed for web retrieval for the current version."
             claim = data['inputs']['claims'][0]
+            ranked_docs, scores, ranked_urls = self.search_relevant_docs(claim)
+            outputs = {
+                'ranked_docs': ranked_docs,
+                'scores': scores,
+                'ranked_urls': ranked_urls
+            }
+        return outputs
     def search_relevant_docs(self, claim, timeout=10, max_search_results_per_query=5, allow_duplicated_urls=False):
         search_results = search_google(claim, timeout=timeout)
+        print('Searching webpages...')
         start = time()
         with concurrent.futures.ThreadPoolExecutor() as e:
             scraped_results = e.map(scrape_url, search_results, itertools.repeat(timeout))
         end = time()
+        print(f"Finished searching in {round((end - start), 1)} seconds.\n")
         scraped_results = [(r[0][:50000], r[1]) for r in scraped_results if r[0] and '��' not in r[0] and ".pdf" not in r[1]]
         retrieved_docs, urls = zip(*scraped_results[:max_search_results_per_query])
+        print('Scoring webpages...')
         start = time()
         retrieved_data = {
             'inputs': {
         _, _, used_chunk, support_prob_per_chunk = self.scorer.score(data=retrieved_data)
         end = time()
         num_chunks = len([item for items in used_chunk for item in items])
+        print(f'Finished {num_chunks} entailment checks in {round((end - start), 1)} seconds ({round(num_chunks / (end - start) * 60)} Doc./min).')
         ranked_docs, scores, ranked_urls = order_doc_score_url(used_chunk, support_prob_per_chunk, urls, allow_duplicated_urls=allow_duplicated_urls)