Spaces:

FoodDesert
/

Prompt_Squirrel

Running

App Files Files Community

FoodDesert commited on Feb 26, 2024

Commit

a077145

verified ·

1 Parent(s): 075d09e

Upload 2 files

Browse files

Files changed (2) hide show

app.py +50 -7
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -9,6 +9,9 @@ import re
 import random
 import compress_fasttext
 from collections import OrderedDict
 faq_content="""
@@ -52,6 +55,34 @@ You can read more about TF-IDF on its [Wikipedia page](https://en.wikipedia.org/
 """
 # Load the model and data once at startup
 with h5py.File('complete_artist_data.hdf5', 'r') as f:
     # Deserialize the vectorizer
@@ -99,11 +130,16 @@ def find_similar_tags(test_tags):
     # Find similar tags and prepare data for dataframe.
     results_data = []
     for tag in test_tags:
-        similar_words = find_similar_tags.fasttext_small_model.most_similar(tag)
         result, seen = [], set()
-        if tag in find_similar_tags.tag2aliases:
-            result.append((tag, 1))
-            seen.add(tag)
         else:
             for item in similar_words:
                 similar_word, similarity = item
@@ -127,13 +163,20 @@ def find_similar_tags(test_tags):
                 results_data.append(["", word, sim])
         results_data.append(["", "", ""])  # Adds a blank line after each group of tags
     return results_data  # Return list of lists for Dataframe
 def find_similar_artists(new_tags_string, top_n):
-    new_image_tags = [tag.replace('_', ' ').strip() for tag in new_tags_string.split(",")]
-    unseen_tags = list(set(OrderedDict.fromkeys(new_image_tags)) - set(vectorizer.vocabulary_.keys()))
-    unseen_tags_data = find_similar_tags(unseen_tags) if unseen_tags else [["No unseen tags", "", ""]]
     X_new_image = vectorizer.transform([','.join(new_image_tags)])
     similarities = cosine_similarity(X_new_image, X_artist)[0]

 import random
 import compress_fasttext
 from collections import OrderedDict
+from lark import Lark
+from lark import Token
 faq_content="""
 """
+grammar=r"""
+!start: (prompt | /[][():]/+)*
+prompt: (emphasized | plain | comma | WHITESPACE)*
+!emphasized: "(" prompt ")"
+        | "(" prompt ":" [WHITESPACE] NUMBER [WHITESPACE] ")"
+comma: ","
+WHITESPACE: /\s+/
+plain: /([^,\\\[\]():|]|\\.)+/
+%import common.SIGNED_NUMBER -> NUMBER
+"""
+# Initialize the parser
+parser = Lark(grammar, start='start')
+# Function to extract tags
+def extract_tags(tree):
+    tags = []
+    def _traverse(node):
+        if isinstance(node, Token) and node.type == '__ANON_1':
+            tags.append(node.value.strip())
+        elif not isinstance(node, Token):
+            for child in node.children:
+                _traverse(child)
+    _traverse(tree)
+    return tags
 # Load the model and data once at startup
 with h5py.File('complete_artist_data.hdf5', 'r') as f:
     # Deserialize the vectorizer
     # Find similar tags and prepare data for dataframe.
     results_data = []
     for tag in test_tags:
+        modified_tag_for_search = tag.replace(' ','_')
+        similar_words = find_similar_tags.fasttext_small_model.most_similar(modified_tag_for_search)
         result, seen = [], set()
+        if modified_tag_for_search in find_similar_tags.tag2aliases:
+            if tag in find_similar_tags.tag2aliases and "_" in tag:   #Implicitly tell the user that they should get rid of the underscore
+                result.append(modified_tag_for_search.replace('_',' '), 1)
+                seen.add(tag)
+            else:   #The user correctly did not put underscores in their tag
+                continue
         else:
             for item in similar_words:
                 similar_word, similarity = item
                 results_data.append(["", word, sim])
         results_data.append(["", "", ""])  # Adds a blank line after each group of tags
+    if not results_data:
+        results_data.append(["No Unknown Tags Found", "", ""])
     return results_data  # Return list of lists for Dataframe
 def find_similar_artists(new_tags_string, top_n):
+    # Parse the prompt
+    parsed = parser.parse(new_tags_string)
+    # Extract tags from the parsed tree
+    new_image_tags = extract_tags(parsed)
+    new_image_tags = [tag.replace('_', ' ').strip() for tag in new_image_tags]
+    ###unseen_tags = list(set(OrderedDict.fromkeys(new_image_tags)) - set(vectorizer.vocabulary_.keys()))
+    unseen_tags_data = find_similar_tags(new_image_tags)
     X_new_image = vectorizer.transform([','.join(new_image_tags)])
     similarities = cosine_similarity(X_new_image, X_artist)[0]

requirements.txt CHANGED Viewed

@@ -4,3 +4,4 @@ scikit-learn==1.2.2
 h5py==3.8.0
 joblib==1.2.0
 compress-fasttext

 h5py==3.8.0
 joblib==1.2.0
 compress-fasttext
+lark-parser