Spaces:

vIVANsy
/

Response_Comparator

Sleeping

App Files Files Community

vIVANsy commited on Aug 30, 2024

Commit

4c09931

verified ·

1 Parent(s): 80e0e29

Update app.py

Browse files

Files changed (1) hide show

app.py +107 -11

app.py CHANGED Viewed

@@ -2,7 +2,14 @@ import streamlit as st
 import warnings
 from sentence_transformers import SentenceTransformer
 from scipy.spatial.distance import cosine
 import numpy as np
 # Suppress specific FutureWarning from transformers
 warnings.filterwarnings("ignore", category=FutureWarning, message=".*clean_up_tokenization_spaces.*")
@@ -10,6 +17,10 @@ warnings.filterwarnings("ignore", category=FutureWarning, message=".*clean_up_to
 # Initialize model
 model = SentenceTransformer('all-mpnet-base-v2')
 # Function to chunk text into smaller parts
 def chunk_text(text, chunk_size=500):
     return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
@@ -26,14 +37,13 @@ def create_embeddings(chunks):
 # Function to calculate similarity ratio and find matches
 def calculate_similarity_ratio_and_find_matches(embeddings1, embeddings2):
     try:
-        # Efficiently compute pairwise similarities
         similarities = np.dot(embeddings1, embeddings2.T)  # Dot product
         max_similarities = np.max(similarities, axis=1)  # Max similarity for each chunk in embeddings1
         average_similarity = np.mean(max_similarities)
-        return average_similarity
     except Exception as e:
         st.error(f"Error calculating similarity ratio: {e}")
-        return 0
 # Function to calculate word similarity ratio
 def calculate_word_similarity_ratio(text1, text2):
@@ -41,39 +51,75 @@ def calculate_word_similarity_ratio(text1, text2):
         words1 = text1.split()
         words2 = text2.split()
-        # Handle cases where there are no words in the texts
         if not words1 or not words2:
             return 0
         word_embeddings1 = model.encode(words1)
         word_embeddings2 = model.encode(words2)
-        # Calculate pairwise similarities
         similarities = np.array([
             max([1 - cosine(emb1, emb2) for emb2 in word_embeddings2], default=0)
             for emb1 in word_embeddings1
         ])
-        # Return the average similarity if similarities array is not empty
         average_word_similarity = np.mean(similarities) if similarities.size > 0 else 0
         return average_word_similarity
     except Exception as e:
         st.error(f"Error calculating word similarity ratio: {e}")
         return 0
 # Streamlit UI
 st.title("Text-Based Similarity Comparison")
 # Create two columns for text input
 col1, col2 = st.columns(2)
 with col1:
-    text_input_1 = st.text_area("Enter the first text", height=300)
 with col2:
-    text_input_2 = st.text_area("Enter the second text", height=300)
-if text_input_1 and text_input_2:
     if st.button("Submit"):
         # Process texts
         chunks_1 = chunk_text(text_input_1)
@@ -83,7 +129,7 @@ if text_input_1 and text_input_2:
         # Calculate and display similarity ratio
         if embeddings_1.size > 0 and embeddings_2.size > 0:
-            similarity_ratio = calculate_similarity_ratio_and_find_matches(embeddings_1, embeddings_2)
             word_similarities = []
             # Calculate and display word similarity ratio
@@ -92,12 +138,62 @@ if text_input_1 and text_input_2:
                 word_similarity_ratio = calculate_word_similarity_ratio(chunks_1[i], chunks_2[i])
                 word_similarities.append(word_similarity_ratio * 100)
             # Display similarity results
             st.write(f"**Context Similarity:** {similarity_ratio * 100:.2f}%")
             st.write("### Word Similarity Ratios:")
             for i, word_similarity in enumerate(word_similarities):
                 st.write(f"**Chunk {i+1}:** {word_similarity:.2f}%")
         else:
             st.error("Error in processing the texts.")
 else:
-    st.info("Please enter text in both fields and click Submit to check similarity.")

 import warnings
 from sentence_transformers import SentenceTransformer
 from scipy.spatial.distance import cosine
+from sklearn.feature_extraction.text import CountVectorizer
 import numpy as np
+import PyPDF2
+import seaborn as sns
+import matplotlib.pyplot as plt
+import pandas as pd
+from difflib import SequenceMatcher
+import streamlit_shadcn_ui as ui
 # Suppress specific FutureWarning from transformers
 warnings.filterwarnings("ignore", category=FutureWarning, message=".*clean_up_tokenization_spaces.*")
 # Initialize model
 model = SentenceTransformer('all-mpnet-base-v2')
+# Initialize session state for results table if not already present
+if 'results_df' not in st.session_state:
+    st.session_state.results_df = pd.DataFrame(columns=["LLM1", "LLM2", "Context Similarity (%)", "Levenshtein Similarity (%)", "Jaccard Similarity (%)"])
 # Function to chunk text into smaller parts
 def chunk_text(text, chunk_size=500):
     return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
 # Function to calculate similarity ratio and find matches
 def calculate_similarity_ratio_and_find_matches(embeddings1, embeddings2):
     try:
         similarities = np.dot(embeddings1, embeddings2.T)  # Dot product
         max_similarities = np.max(similarities, axis=1)  # Max similarity for each chunk in embeddings1
         average_similarity = np.mean(max_similarities)
+        return similarities, average_similarity
     except Exception as e:
         st.error(f"Error calculating similarity ratio: {e}")
+        return np.array([]), 0
 # Function to calculate word similarity ratio
 def calculate_word_similarity_ratio(text1, text2):
         words1 = text1.split()
         words2 = text2.split()
         if not words1 or not words2:
             return 0
         word_embeddings1 = model.encode(words1)
         word_embeddings2 = model.encode(words2)
         similarities = np.array([
             max([1 - cosine(emb1, emb2) for emb2 in word_embeddings2], default=0)
             for emb1 in word_embeddings1
         ])
         average_word_similarity = np.mean(similarities) if similarities.size > 0 else 0
         return average_word_similarity
     except Exception as e:
         st.error(f"Error calculating word similarity ratio: {e}")
         return 0
+# Function to extract text from PDF
+def extract_pdf_text(pdf_file):
+    try:
+        reader = PyPDF2.PdfReader(pdf_file)
+        text = ""
+        for page in reader.pages:
+            text += page.extract_text()
+        return text
+    except Exception as e:
+        st.error(f"Error extracting text from PDF: {e}")
+        return ""
+# Function to calculate Levenshtein distance
+def calculate_levenshtein_ratio(text1, text2):
+    return SequenceMatcher(None, text1, text2).ratio()
+# Function to calculate Jaccard similarity
+def calculate_jaccard_similarity(text1, text2):
+    vectorizer = CountVectorizer(binary=True).fit_transform([text1, text2])
+    vectors = vectorizer.toarray()
+    # Compute the intersection and union for Jaccard Similarity
+    intersection = np.sum(np.minimum(vectors[0], vectors[1]))
+    union = np.sum(np.maximum(vectors[0], vectors[1]))
+    return intersection / union if union != 0 else 0
 # Streamlit UI
+st.sidebar.title("LLM Details")
+llm1_name = st.sidebar.text_input("What is LLM1?", "LLM1")
+llm2_name = st.sidebar.text_input("What is LLM2?", "LLM2")
 st.title("Text-Based Similarity Comparison")
 # Create two columns for text input
 col1, col2 = st.columns(2)
 with col1:
+    st.write(f"**{llm1_name} response**")
+    upload_pdf_1 = st.file_uploader(f"Upload PDF for {llm1_name} response", type="pdf", key="pdf1")
+    if upload_pdf_1:
+        text_input_1 = extract_pdf_text(upload_pdf_1)
+    else:
+        text_input_1 = st.text_area(f" Text for {llm1_name}", height=150, key="text1")
 with col2:
+    st.write(f"**{llm2_name} response**")
+    upload_pdf_2 = st.file_uploader(f"Upload PDF for {llm2_name} response", type="pdf", key="pdf2")
+    if upload_pdf_2:
+        text_input_2 = extract_pdf_text(upload_pdf_2)
+    else:
+        text_input_2 = st.text_area(f" Text for {llm2_name}", height=150, key="text2")
+if (text_input_1 and text_input_2) or (upload_pdf_1 and upload_pdf_2):
     if st.button("Submit"):
         # Process texts
         chunks_1 = chunk_text(text_input_1)
         # Calculate and display similarity ratio
         if embeddings_1.size > 0 and embeddings_2.size > 0:
+            similarities, similarity_ratio = calculate_similarity_ratio_and_find_matches(embeddings_1, embeddings_2)
             word_similarities = []
             # Calculate and display word similarity ratio
                 word_similarity_ratio = calculate_word_similarity_ratio(chunks_1[i], chunks_2[i])
                 word_similarities.append(word_similarity_ratio * 100)
+            # Calculate Levenshtein and Jaccard ratios
+            levenshtein_ratio = calculate_levenshtein_ratio(text_input_1, text_input_2) * 100
+            jaccard_similarity = calculate_jaccard_similarity(text_input_1, text_input_2) * 100
             # Display similarity results
             st.write(f"**Context Similarity:** {similarity_ratio * 100:.2f}%")
+            st.write(f"**Levenshtein Similarity:** {levenshtein_ratio:.2f}%")
+            st.write(f"**Jaccard Similarity:** {jaccard_similarity:.2f}%")
             st.write("### Word Similarity Ratios:")
             for i, word_similarity in enumerate(word_similarities):
                 st.write(f"**Chunk {i+1}:** {word_similarity:.2f}%")
+            # Update session state DataFrame
+            new_result = {
+                "LLM1": llm1_name,
+                "LLM2": llm2_name,
+                "Context Similarity (%)": similarity_ratio * 100,
+                "Levenshtein Similarity (%)": levenshtein_ratio,
+                "Jaccard Similarity (%)": jaccard_similarity
+            }
+            st.session_state.results_df = pd.concat([st.session_state.results_df, pd.DataFrame([new_result])], ignore_index=True)
+            # Display updated table
+            st.write("### Similarity Results")
+            ui.table(data=st.session_state.results_df, maxHeight=300)
+            # Plot similarity results
+            st.write("### Similarity Metrics Visualization")
+            # Plot using matplotlib
+            fig, ax = plt.subplots(figsize=(12, 6))
+            metrics_df = st.session_state.results_df.copy()
+            metrics_df['Index'] = metrics_df.index
+            # Plot each metric
+            ax.plot(metrics_df['Index'], metrics_df['Context Similarity (%)'], label='Context Similarity', marker='o')
+            ax.plot(metrics_df['Index'], metrics_df['Levenshtein Similarity (%)'], label='Levenshtein Similarity', marker='o')
+            ax.plot(metrics_df['Index'], metrics_df['Jaccard Similarity (%)'], label='Jaccard Similarity', marker='o')
+            # Labels and title
+            ax.set_xlabel('Comparison Index')
+            ax.set_ylabel('Percentage')
+            ax.set_title('Similarity Metrics Over Comparisons')
+            ax.legend()
+            ax.grid(True)
+            st.pyplot(fig)
         else:
             st.error("Error in processing the texts.")
 else:
+    st.info("Please enter text in both fields or upload PDFs, and click Submit to check similarity.")
+# Add Clear button
+if st.button("Clear All"):
+    # Reset session state DataFrame
+    st.session_state.results_df = pd.DataFrame(columns=["LLM1", "LLM2", "Context Similarity (%)", "Levenshtein Similarity (%)", "Jaccard Similarity (%)"])
+    st.success("All results have been cleared.")
+    st.experimental_rerun()