Spaces:

ESG-TFM-UV
/

ESG_API_BATCH

Build error

App Files Files Community

rdose commited on Sep 12, 2022

Commit

4f63778

1 Parent(s): 69eb1b7

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -5

app.py CHANGED Viewed

@@ -113,6 +113,7 @@ def _inference_classifier(text):
 def inference(file_in,file_col_name,input_batch,isurl,use_archive,limit_companies=10):
     input_batch_content = []
     if file_in is not None:
         dft = pd.read_csv(
                 file_in,
                 compression=dict(method='zip')
@@ -120,13 +121,15 @@ def inference(file_in,file_col_name,input_batch,isurl,use_archive,limit_companie
         assert file_col_name in dft.columns, "Indicated col_name not found in file"
         input_batch_r = dft[file_col_name].values.tolist()
     else:
         assert len(input_batch) > 0, "input_batch array is empty"
         input_batch_r = input_batch
-    print("->Input size:",len(input_batch_r))
-    print("+",input_batch_r)
     if isurl:
         for row_in in input_batch_r:
             if isinstance(row_in , list):
                 url = row_in[0]
@@ -140,14 +143,16 @@ def inference(file_in,file_col_name,input_batch,isurl,use_archive,limit_companie
             extracted = Extractor().extract(requests.get(url).text)
             input_batch_content.append(extracted['content'])
     else:
         if isinstance(input_batch_r[0], list):
             for row_in in input_batch_r:
                 input_batch_content.append(row_in[0])
         else:
             input_batch_content = input_batch_r
-    print("->Batch size:",len(input_batch_content))
-    print("+",input_batch_content)
     prob_outs = _inference_classifier(input_batch_content)
     #sentiment = _inference_sentiment_model_via_api_query({"inputs": extracted['content']})
@@ -187,7 +192,7 @@ demo = gr.Interface(fn=inference,
                             gr.Dropdown(label='data type', choices=['text','url'], type='index', value='url'),
                             gr.Checkbox(label='if url parse cached in archive.org'),
                             gr.Slider(minimum=1, maximum=10, step=1, label='Limit NER output', value=5)],
-                    outputs=[gr.Dataframe(label='output raw', col_count=1, datatype='number', type='array', wrap=True, header=OUT_HEADERS)],
                              #gr.Label(label='Company'),
                              #gr.Label(label='ESG'),
                              #gr.Label(label='Sentiment'),

 def inference(file_in,file_col_name,input_batch,isurl,use_archive,limit_companies=10):
     input_batch_content = []
     if file_in is not None:
+        print("[i] Input is file:",file_in)
         dft = pd.read_csv(
                 file_in,
                 compression=dict(method='zip')
         assert file_col_name in dft.columns, "Indicated col_name not found in file"
         input_batch_r = dft[file_col_name].values.tolist()
     else:
+        print("[i] Input is list")
         assert len(input_batch) > 0, "input_batch array is empty"
         input_batch_r = input_batch
+    print("[i] Input size:",len(input_batch_r))
     if isurl:
+        print("[i] Data is URL")
+        print("[i] Use chached URL from archive.org") if use_archive
         for row_in in input_batch_r:
             if isinstance(row_in , list):
                 url = row_in[0]
             extracted = Extractor().extract(requests.get(url).text)
             input_batch_content.append(extracted['content'])
     else:
+        print("[i] Data is news contents")
         if isinstance(input_batch_r[0], list):
+            print("[i] Data is list of lists format")
             for row_in in input_batch_r:
                 input_batch_content.append(row_in[0])
         else:
+            print("[i] Data is single list format")
             input_batch_content = input_batch_r
+    print("[i] Batch size:",len(input_batch_content))
     prob_outs = _inference_classifier(input_batch_content)
     #sentiment = _inference_sentiment_model_via_api_query({"inputs": extracted['content']})
                             gr.Dropdown(label='data type', choices=['text','url'], type='index', value='url'),
                             gr.Checkbox(label='if url parse cached in archive.org'),
                             gr.Slider(minimum=1, maximum=10, step=1, label='Limit NER output', value=5)],
+                    outputs=[gr.Dataframe(label='output raw', col_count=1, datatype='number', type='array', wrap=True)],#, header=OUT_HEADERS)],
                              #gr.Label(label='Company'),
                              #gr.Label(label='ESG'),
                              #gr.Label(label='Sentiment'),