Spaces:

vIVANsy
/

Response_Comparator

Sleeping

App Files Files Community

vIVANsy commited on Aug 30, 2024

Commit

145bb32

verified ·

1 Parent(s): d6627eb

Create app.py

Browse files

Files changed (1) hide show

app.py +125 -0

app.py ADDED Viewed

	@@ -0,0 +1,125 @@

+import streamlit as st
+import warnings
+from sentence_transformers import SentenceTransformer
+from scipy.spatial.distance import cosine
+import numpy as np
+# Suppress specific FutureWarning from transformers
+warnings.filterwarnings("ignore", category=FutureWarning, message=".*clean_up_tokenization_spaces.*")
+# Initialize model
+model = SentenceTransformer('all-mpnet-base-v2')
+# Function to chunk text into smaller parts
+def chunk_text(text, chunk_size=500):
+    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
+# Function to create embeddings
+def create_embeddings(chunks):
+    try:
+        embeddings = model.encode(chunks, show_progress_bar=False)
+        return embeddings
+    except Exception as e:
+        st.error(f"Error creating embeddings: {e}")
+        return np.array([])
+# Function to calculate similarity ratio and find matches
+def calculate_similarity_ratio_and_find_matches(embeddings1, embeddings2):
+    try:
+        # Efficiently compute pairwise similarities
+        similarities = np.dot(embeddings1, embeddings2.T)  # Dot product
+        max_similarities = np.max(similarities, axis=1)  # Max similarity for each chunk in embeddings1
+        average_similarity = np.mean(max_similarities)
+        return average_similarity
+    except Exception as e:
+        st.error(f"Error calculating similarity ratio: {e}")
+        return 0
+# Function to calculate word similarity ratio
+def calculate_word_similarity_ratio(text1, text2):
+    try:
+        words1 = text1.split()
+        words2 = text2.split()
+        # Handle cases where there are no words in the texts
+        if not words1 or not words2:
+            return 0
+        word_embeddings1 = model.encode(words1)
+        word_embeddings2 = model.encode(words2)
+        # Calculate pairwise similarities
+        similarities = np.array([
+            max([1 - cosine(emb1, emb2) for emb2 in word_embeddings2], default=0)
+            for emb1 in word_embeddings1
+        ])
+        # Return the average similarity if similarities array is not empty
+        average_word_similarity = np.mean(similarities) if similarities.size > 0 else 0
+        return average_word_similarity
+    except Exception as e:
+        st.error(f"Error calculating word similarity ratio: {e}")
+        return 0
+# Streamlit UI
+st.title("Text-Based Similarity Comparison")
+# Create two columns for text input
+col1, col2 = st.columns(2)
+with col1:
+    text_input_1 = st.text_area("Enter the first text", height=300)
+with col2:
+    text_input_2 = st.text_area("Enter the second text", height=300)
+if text_input_1 and text_input_2:
+    if st.button("Submit"):
+        # Process texts
+        chunks_1 = chunk_text(text_input_1)
+        chunks_2 = chunk_text(text_input_2)
+        embeddings_1 = create_embeddings(chunks_1)
+        embeddings_2 = create_embeddings(chunks_2)
+        # Calculate and display similarity ratio
+        if embeddings_1.size > 0 and embeddings_2.size > 0:
+            similarity_ratio = calculate_similarity_ratio_and_find_matches(embeddings_1, embeddings_2)
+            word_similarities = []
+            # Calculate and display word similarity ratio
+            min_chunks = min(len(chunks_1), len(chunks_2))
+            for i in range(min_chunks):
+                word_similarity_ratio = calculate_word_similarity_ratio(chunks_1[i], chunks_2[i])
+                word_similarities.append(word_similarity_ratio * 100)
+            # Create card layout for similarity
+            similarity_card = """
+            <div style="border: 1px solid #ddd; border-radius: 10px; padding: 20px; margin: 10px; width: 700px; text-align: center; box-shadow: 0 4px 8px rgba(0,0,0,0.1); display: flex; flex-direction: row; justify-content: space-between;">
+                <div style="flex: 1; margin-right: 10px;">
+                    <h3 style="font-size: 18px; margin: 0;">Context Similarity</h3>
+                    <p style="font-size: 24px; color: #2e8b57; margin: 10px 0;">{:.2f}%</p>
+                </div>
+                <div style="flex: 1; margin-left: 10px;">
+                    <h3 style="font-size: 18px; margin: 0;">Word Similarity</h3>
+                    {}
+                </div>
+            </div>
+            """.format(
+                similarity_ratio * 100,
+                "".join([
+                    f"""
+                    <p style="font-size: 18px; color: #4682b4; margin: 5px 0;">Chunk {i+1}: {word_similarity:.2f}%</p>
+                    """ for i, word_similarity in enumerate(word_similarities)
+                ])
+            )
+            # Display card
+            st.markdown(f"""
+            <div style="display: flex; justify-content: center; flex-wrap: wrap;">
+                {similarity_card}
+            </div>
+            """, unsafe_allow_html=True)
+        else:
+            st.error("Error in processing the texts.")
+else:
+    st.info("Please enter text in both fields and click Submit to check similarity.")