Spaces:

lambdaofgod
/

github_search_visualizations

Sleeping

lambdaofgod commited on Oct 28, 2024

Commit

42de6bd

1 Parent(s): 21d27ae

feat: Implement `extract_from_corpus` in `text_visualization.py`

Files changed (2) hide show

requirements.txt CHANGED Viewed

@@ -1,2 +1,4 @@
 gradio==3.48.0
 plotly==5.24.1

 gradio==3.48.0
 plotly==5.24.1
+scikit-learn==1.3.0
+wordcloud==1.9.2

text_visualization.py CHANGED Viewed

@@ -9,3 +9,41 @@ class WordCloudExtractor:
     def extract_from_corpus(self, texts: Iterable[str], n_words: int) -> wordcloud.WordCloud:
         pass

     def extract_from_corpus(self, texts: Iterable[str], n_words: int) -> wordcloud.WordCloud:
         pass
+from sklearn.feature_extraction.text import TfidfVectorizer
+from wordcloud import WordCloud
+import numpy as np
+class TextVisualization:
+    @staticmethod
+    def extract_from_corpus(texts, max_features=100):
+        """
+        Extract word frequencies from a corpus using TF-IDF vectorization
+        and generate word cloud frequencies.
+        Args:
+            texts: List of text documents
+            max_features: Maximum number of words to include
+        Returns:
+            Dictionary of word frequencies suitable for WordCloud
+        """
+        # Initialize TF-IDF vectorizer
+        tfidf = TfidfVectorizer(
+            max_features=max_features,
+            stop_words='english',
+            lowercase=True
+        )
+        # Fit and transform the texts
+        tfidf_matrix = tfidf.fit_transform(texts)
+        # Get feature names (words)
+        feature_names = tfidf.get_feature_names_out()
+        # Calculate mean TF-IDF scores across documents
+        mean_tfidf = np.array(tfidf_matrix.mean(axis=0)).flatten()
+        # Create frequency dictionary
+        frequencies = dict(zip(feature_names, mean_tfidf))
+        return frequencies