Spaces:

Dopler47
/

Bertopic

Sleeping

Dopler47 commited on Oct 5, 2024

Commit

c6607a8

1 Parent(s): f2f35ab

debug and testing error

Files changed (3) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import matplotlib.pyplot as plt
 import pandas as pd
 from sentence_transformers import SentenceTransformer
 from src.scripts.nlp_processing import embed_splitted_docs, split_corpus
@@ -11,7 +12,17 @@ from src.utils.utils import extract_corpus
 embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)
 def greet(fileobj):
     # Read the file
     corpus = extract_corpus(fileobj)
@@ -20,10 +31,10 @@ def greet(fileobj):
     splitted_docs = split_corpus(corpus)
     # Embed the splitted documents
-    embeddings = embed_splitted_docs(splitted_docs, embedding_model)
     # Topic modeling
-    fig, df = topic_modeling(splitted_docs, embeddings, embedding_model)
     # Save the figure
     return (fig, df)

 import gradio as gr
 import matplotlib.pyplot as plt
 import pandas as pd
+import spaces
 from sentence_transformers import SentenceTransformer
 from src.scripts.nlp_processing import embed_splitted_docs, split_corpus
 embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)
+@spaces.GPU()
+def test():
+    embeddings = embedding_model.encode(
+        ["Test1", "Test2", "Test3"], show_progress_bar=True
+    )
+    print(":" * 10 + " TEST " + "*" * 10)
+    print(embeddings)
 def greet(fileobj):
+    test()
     # Read the file
     corpus = extract_corpus(fileobj)
     splitted_docs = split_corpus(corpus)
     # Embed the splitted documents
+    embeddings = embed_splitted_docs(splitted_docs)
     # Topic modeling
+    fig, df = topic_modeling(splitted_docs, embeddings)
     # Save the figure
     return (fig, df)

src/scripts/nlp_processing.py CHANGED Viewed

@@ -1,8 +1,13 @@
 import spaces
 from langchain_text_splitters.character import RecursiveCharacterTextSplitter
-def embed_splitted_docs(splitted_docs, embedding_model):
     """
     Encode the given list of documents using the specified embedding model.

 import spaces
 from langchain_text_splitters.character import RecursiveCharacterTextSplitter
+from sentence_transformers import SentenceTransformer
+EMBEDDING_MODEL_NAME = "BAAI/bge-small-en"
+embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)
+@spaces.GPU()
+def embed_splitted_docs(splitted_docs):
     """
     Encode the given list of documents using the specified embedding model.

src/scripts/topic_modeling.py CHANGED Viewed

@@ -1,20 +1,18 @@
-import os
-import matplotlib.pyplot as plt
-import numpy as np
 import spaces
 from bertopic import BERTopic
 from bertopic.representation import KeyBERTInspired, MaximalMarginalRelevance
 from cuml.cluster import HDBSCAN
 from cuml.manifold import UMAP
-from cuml.preprocessing import normalize
 @spaces.GPU()
 def topic_modeling(
     docs,
     embeddings,
-    embedding_model,
     n_gram_range=(3, 6),
     mmr_diversity=1,
     mmr_top_n_words=30,

 import spaces
 from bertopic import BERTopic
 from bertopic.representation import KeyBERTInspired, MaximalMarginalRelevance
 from cuml.cluster import HDBSCAN
 from cuml.manifold import UMAP
+from sentence_transformers import SentenceTransformer
+EMBEDDING_MODEL_NAME = "BAAI/bge-small-en"
+embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)
 @spaces.GPU()
 def topic_modeling(
     docs,
     embeddings,
     n_gram_range=(3, 6),
     mmr_diversity=1,
     mmr_top_n_words=30,