Spaces:

ESG-TFM-UV
/

ESG_API_BATCH

Build error

rdose commited on Sep 19, 2022

Commit

b98d20d

1 Parent(s): 96edcb7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,7 +18,10 @@ except ImportError:
     except ImportError:
         try:
             import trafilatura
             EXTRACTOR_NET = 'trafilatura'
         except ImportError:
             raise ImportError
@@ -301,7 +304,7 @@ def inference(input_batch,isurl,use_archive,limit_companies=10):
               extracted = extract_content(requests.get(url).content)
               input_batch_content.append(extracted)
             elif(EXTRACTOR_NET == 'trafilatura'):
-              extracted = trafilatura.extract(trafilatura.fetch_url(url), include_comments=False)
               input_batch_content.append(extracted)
     else:
         print("[i] Data is news contents")

     except ImportError:
         try:
             import trafilatura
+            from trafilatura.settings import use_config
             EXTRACTOR_NET = 'trafilatura'
+            trafilatura_config = use_config()
+            trafilatura_config.set("DEFAULT", "EXTRACTION_TIMEOUT", "0")    #To avoid it runnig signals to avoid clashing with gradio threads
         except ImportError:
             raise ImportError
               extracted = extract_content(requests.get(url).content)
               input_batch_content.append(extracted)
             elif(EXTRACTOR_NET == 'trafilatura'):
+              extracted = trafilatura.extract(trafilatura.fetch_url(url), include_comments=False, config=trafilatura_config, include_tables=False)
               input_batch_content.append(extracted)
     else:
         print("[i] Data is news contents")