Spaces:

SantanuBanerjee
/

TaxDirection

Sleeping

App Files Files Community

SantanuBanerjee commited on Aug 4, 2024

Commit

3a92d71

verified ·

1 Parent(s): 1f2dca3

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -4

app.py CHANGED Viewed

@@ -229,12 +229,13 @@ def extract_problem_domains(df,
                             text_column='Problem_Description',
                             cluster_range=(10, 50),
                             top_words=17,
-                            # method='sentence_transformers'
-                            method='tfidf_kmeans'
                            ):
     if method == 'sentence_transformers':
         # Sentence Transformers approach
@@ -294,6 +295,12 @@ def extract_problem_domains(df,
         for i in range(optimal_n_clusters):
             center = kmeans.cluster_centers_[i]
             # top_word_indices = center.argsort()[-top_words:][::-1]
@@ -306,6 +313,7 @@ def extract_problem_domains(df,
     df["Problem_Cluster"] = cluster_labels
     df['Problem_Category_Words'] = [cluster_representations[label] for label in cluster_labels]
     return df, optimal_n_clusters
@@ -338,7 +346,7 @@ def nlp_pipeline(original_df, console_messages):
     # Domain Clustering
     try:
-        domain_df, optimal_n_clusters = extract_problem_domains(processed_df)
         # print(f"Optimal clusters: {optimal_clusters}")
         # print(result_df.head())
         # console_messages.append(f"Optimal clusters: {optimal_n_clusters}")

                             text_column='Problem_Description',
                             cluster_range=(10, 50),
                             top_words=17,
+                            # method='sentence_transformers',
+                            method='tfidf_kmeans',
+                            console_messages
                            ):
+    console_messages.append("Extracting Problem Domains...")
     if method == 'sentence_transformers':
         # Sentence Transformers approach
         for i in range(optimal_n_clusters):
             center = kmeans.cluster_centers_[i]
+            # print(f"top_words: {top_words}, type: {type(top_words)}")
+            # print(f"center.argsort(): {center.argsort()}, type: {type(center.argsort())}")
+            console_messages.append(f"top_words: {top_words}, type: {type(top_words)}",
+                                    f"center.argsort(): {center.argsort()}, type: {type(center.argsort())}"
+                                   )
             # top_word_indices = center.argsort()[-top_words:][::-1]
     df["Problem_Cluster"] = cluster_labels
     df['Problem_Category_Words'] = [cluster_representations[label] for label in cluster_labels]
+    console_messages.append("Returning from Problem Domain Extraction function.")
     return df, optimal_n_clusters
     # Domain Clustering
     try:
+        domain_df, optimal_n_clusters = extract_problem_domains(processed_df, console_messages)
         # print(f"Optimal clusters: {optimal_clusters}")
         # print(result_df.head())
         # console_messages.append(f"Optimal clusters: {optimal_n_clusters}")