Spaces:

DrGabrielLopez
/

BERTopic

Sleeping

DrGabrielLopez commited on Mar 24, 2023

Commit

bd9233d

1 Parent(s): efbae10

add

Files changed (1) hide show

app.py CHANGED Viewed

@@ -25,12 +25,11 @@ ARTICLE = r"""<center>
               </center>"""
-# load data
-def load_data(file_path):
     """Load dataset (keep only 500 rows for efficiency)"""
-    data = pd.read_csv(file_path, error_bad_lines=False, nrows=500)
     assert "text" in data.columns, "The data must have a column named 'text'"
-    return data
 def run_nlp_processing(data):
@@ -147,7 +146,7 @@ with blocks:
             topics_text = gr.Textbox(label="Topics", lines=50)
     gr.Markdown(ARTICLE)
     # event listeners
-    in_file = in_file.upload(inputs=in_file.value, outputs=in_data, fn=load_data)
     # submit_button.click(inputs=in_data, outputs=out_dataset, fn=run_bert_tokenization)
     # out_dataset.change(inputs=out_dataset, outputs=embedding_plot, fn=run_bertopic)

               </center>"""
+def load_data(fileobj):
     """Load dataset (keep only 500 rows for efficiency)"""
+    data = pd.read_csv(fileobj, on_bad_lines='skip', nrows=500)
     assert "text" in data.columns, "The data must have a column named 'text'"
+    return data[['text']]
 def run_nlp_processing(data):
             topics_text = gr.Textbox(label="Topics", lines=50)
     gr.Markdown(ARTICLE)
     # event listeners
+    in_file = in_file.upload(inputs=in_file, outputs=in_data, fn=load_data)
     # submit_button.click(inputs=in_data, outputs=out_dataset, fn=run_bert_tokenization)
     # out_dataset.change(inputs=out_dataset, outputs=embedding_plot, fn=run_bertopic)