Spaces:

vIVANsy
/

Response_Comparator

Sleeping

App Files Files Community

vIVANsy commited on Sep 3, 2024

Commit

fe3e71f

verified ·

1 Parent(s): 1bbcb4b

Update app.py

Browse files

Files changed (1) hide show

app.py +115 -39

app.py CHANGED Viewed

@@ -11,6 +11,13 @@ from sentence_transformers import SentenceTransformer
 from scipy.spatial.distance import cosine
 import PyPDF2
 import spacy
 from difflib import SequenceMatcher
 # Load spaCy model
@@ -32,16 +39,18 @@ model, tfidf_vectorizer, word2vec_model = load_models()
 # Initialize session state for results table if not already present
 if 'results_df' not in st.session_state:
     st.session_state.results_df = pd.DataFrame(columns=[
-        "LLM1", "LLM2", "Paraphrasing Similarity (%)",
-        "Direct Text Comparison (%)", "Summarization Similarity (%)",
         "Combined Similarity (%)"
     ])
-# Initialize session state for radar chart data if not already present
 if 'radar_chart_data' not in st.session_state:
     st.session_state.radar_chart_data = []
-# Functions
 @st.cache_data
 def chunk_text(text, chunk_size=500):
     return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
@@ -71,6 +80,7 @@ def calculate_word_similarity_ratio(text1, text2):
     try:
         doc1 = nlp(text1)
         doc2 = nlp(text2)
         words1 = [token.text for token in doc1 if not token.is_stop and not token.is_punct]
         words2 = [token.text for token in doc2 if not token.is_stop and not token.is_punct]
@@ -81,7 +91,7 @@ def calculate_word_similarity_ratio(text1, text2):
         word_embeddings2 = model.encode(words2)
         similarities = np.array([
-            max([1 - cosine(emb1, emb2) for emb2 in word_embeddings2], default=0)
             for emb1 in word_embeddings1
         ])
@@ -153,7 +163,7 @@ def calculate_paraphrasing_similarity(text1, text2):
         chunks_2 = chunk_text(text2)
         embeddings_1 = create_embeddings(chunks_1)
         embeddings_2 = create_embeddings(chunks_2)
         if embeddings_1.size > 0 and embeddings_2.size > 0:
             similarities, average_similarity = calculate_similarity_ratio_and_find_matches(embeddings_1, embeddings_2)
             return average_similarity * 100
@@ -171,10 +181,12 @@ def calculate_direct_text_comparison_similarity(text1, text2):
         bleu_score = calculate_bleu_score(text1, text2) * 100
         rouge_l_score = calculate_rouge_l_score(text1, text2)
         bertscore = calculate_bertscore(text1, text2)
-        return (levenshtein_ratio * 0.1 + jaccard_similarity * 0.2 +
-                tfidf_cosine_similarity * 0.2 + bleu_score * 0.2 +
-                rouge_l_score * 0.2 + bertscore * 0.2) / 1.1
     except Exception as e:
         st.error(f"Error calculating direct text comparison similarity: {e}")
         return 0
@@ -190,6 +202,7 @@ def calculate_summarization_similarity(text1, text2):
 # Streamlit UI
 st.title("Text-Based Similarity Comparison")
 # Create a two-column layout for input
 col1, col2 = st.columns([2, 1])
@@ -198,12 +211,11 @@ with col1:
     st.sidebar.title("LLM Details")
     llm1_name = st.sidebar.text_input("What is LLM1?", "LLM1")
     llm2_name = st.sidebar.text_input("What is LLM2?", "LLM2")
     st.write("## Input")
     # Create two columns for text input
     input_col1, input_col2 = st.columns(2)
     with input_col1:
         st.write(f"{llm1_name} response")
         upload_pdf_1 = st.file_uploader(f"Upload PDF for {llm1_name} response", type="pdf", key="pdf1")
@@ -211,7 +223,7 @@ with col1:
             text_input_1 = extract_pdf_text(upload_pdf_1)
         else:
             text_input_1 = st.text_area(f"Text for {llm1_name}", height=150, key="text1")
     with input_col2:
         st.write(f"{llm2_name} response")
         upload_pdf_2 = st.file_uploader(f"Upload PDF for {llm2_name} response", type="pdf", key="pdf2")
@@ -228,9 +240,9 @@ with col1:
             summarization_similarity = calculate_summarization_similarity(text_input_1, text_input_2)
             # Combine all metrics into a single similarity score
-            total_similarity = (paraphrasing_similarity * 0.33 +
-                                direct_text_comparison_similarity * 0.33 +
-                                summarization_similarity * 0.33)
             # Update results table in session state
             new_row = pd.Series({
@@ -241,6 +253,7 @@ with col1:
                 "Summarization Similarity (%)": summarization_similarity,
                 "Combined Similarity (%)": total_similarity
             })
             st.session_state.results_df = pd.concat([st.session_state.results_df, new_row.to_frame().T], ignore_index=True)
             # Add new data for radar chart
@@ -252,37 +265,57 @@ with col1:
             })
             # Display metrics with large and bold text
-            st.subheader("Results")
-            st.markdown(f"Paraphrasing Similarity: {paraphrasing_similarity:.2f}%", unsafe_allow_html=True)
-            st.markdown(f"Direct Text Comparison Similarity: {direct_text_comparison_similarity:.2f}%", unsafe_allow_html=True)
-            st.markdown(f"Summarization Similarity: {summarization_similarity:.2f}%", unsafe_allow_html=True)
-            st.markdown(f"Combined Similarity Score: {total_similarity:.2f}%", unsafe_allow_html=True)
 with col2:
-    st.write("## Metrics and Results")
     # Display radar chart
     if st.session_state.radar_chart_data:
         st.subheader("Metrics Comparison")
-        labels = ["Paraphrasing Similarity", "Direct Text Comparison Similarity", "Summarization Similarity"]
         num_vars = len(labels)
         angles = np.linspace(0, 2 * np.pi, num_vars, endpoint=False).tolist()
         angles += angles[:1]
         fig, ax = plt.subplots(figsize=(6, 6), subplot_kw=dict(polar=True))
         # Plot each response with a different color
         color_palette = sns.color_palette("husl", len(st.session_state.radar_chart_data))
         for idx, data in enumerate(st.session_state.radar_chart_data):
             values = [
-                data["paraphrasing_similarity"],
-                data["direct_text_comparison_similarity"],
                 data["summarization_similarity"]
             ]
             values += values[:1]
             ax.fill(angles, values, color=color_palette[idx], alpha=0.25, label=data["name"])
             ax.plot(angles, values, color=color_palette[idx], linewidth=2, linestyle='solid')
         ax.set_yticklabels([])
         ax.set_xticks(angles[:-1])
         ax.set_xticklabels(labels)
@@ -292,14 +325,20 @@ with col2:
     # Display metrics sliders beside the radar chart
     if st.session_state.radar_chart_data:
-        st.subheader("Metrics Position")
         metrics = st.session_state.radar_chart_data[-1]
         for metric_name in ["paraphrasing_similarity", "direct_text_comparison_similarity", "summarization_similarity"]:
             st.slider(
-                metric_name.replace("_", " ").title(),
-                0, 100,
-                int(metrics[metric_name]),
-                key=metric_name,
                 disabled=True,  # Make the slider non-editable
                 format="%.0f"  # Format the slider value to be an integer
             )
@@ -311,7 +350,7 @@ with results_col:
     st.write("## Detailed Results Table")
     if not st.session_state.results_df.empty:
         st.write(st.session_state.results_df)
         # Download the results as a CSV file
         csv_data = st.session_state.results_df.to_csv(index=False).encode('utf-8')
         st.download_button(label="Download Results as CSV", data=csv_data, file_name='similarity_results.csv', mime='text/csv')
@@ -319,9 +358,46 @@ with results_col:
 with actions_col:
     if st.button("Reset Table"):
         st.session_state.results_df = pd.DataFrame(columns=[
-            "LLM1", "LLM2", "Paraphrasing Similarity (%)",
-            "Direct Text Comparison (%)", "Summarization Similarity (%)",
             "Combined Similarity (%)"
         ])
         st.session_state.radar_chart_data = []
-        st.write("Results table has been reset.")

 from scipy.spatial.distance import cosine
 import PyPDF2
 import spacy
+try:
+    nlp = spacy.load("en_core_web_sm")
+except OSError:
+    from spacy.cli import download
+    download("en_core_web_sm")
+    nlp = spacy.load("en_core_web_sm")
 from difflib import SequenceMatcher
 # Load spaCy model
 # Initialize session state for results table if not already present
 if 'results_df' not in st.session_state:
     st.session_state.results_df = pd.DataFrame(columns=[
+        "LLM1", "LLM2",
+        "Paraphrasing Similarity (%)",
+        "Direct Text Comparison (%)",
+        "Summarization Similarity (%)",
         "Combined Similarity (%)"
     ])
+# Initialize session state for radar chart data
 if 'radar_chart_data' not in st.session_state:
     st.session_state.radar_chart_data = []
+# Functions (same as before)
 @st.cache_data
 def chunk_text(text, chunk_size=500):
     return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
     try:
         doc1 = nlp(text1)
         doc2 = nlp(text2)
         words1 = [token.text for token in doc1 if not token.is_stop and not token.is_punct]
         words2 = [token.text for token in doc2 if not token.is_stop and not token.is_punct]
         word_embeddings2 = model.encode(words2)
         similarities = np.array([
+            max([1 - cosine(emb1, emb2) for emb2 in word_embeddings2], default=0)
             for emb1 in word_embeddings1
         ])
         chunks_2 = chunk_text(text2)
         embeddings_1 = create_embeddings(chunks_1)
         embeddings_2 = create_embeddings(chunks_2)
         if embeddings_1.size > 0 and embeddings_2.size > 0:
             similarities, average_similarity = calculate_similarity_ratio_and_find_matches(embeddings_1, embeddings_2)
             return average_similarity * 100
         bleu_score = calculate_bleu_score(text1, text2) * 100
         rouge_l_score = calculate_rouge_l_score(text1, text2)
         bertscore = calculate_bertscore(text1, text2)
+        return (levenshtein_ratio * 0.1 +
+                jaccard_similarity * 0.2 +
+                tfidf_cosine_similarity * 0.2 +
+                bleu_score * 0.2 +
+                rouge_l_score * 0.2 +
+                bertscore * 0.2) / 1.1
     except Exception as e:
         st.error(f"Error calculating direct text comparison similarity: {e}")
         return 0
 # Streamlit UI
 st.title("Text-Based Similarity Comparison")
+st.markdown("*Use in wide mode*")
 # Create a two-column layout for input
 col1, col2 = st.columns([2, 1])
     st.sidebar.title("LLM Details")
     llm1_name = st.sidebar.text_input("What is LLM1?", "LLM1")
     llm2_name = st.sidebar.text_input("What is LLM2?", "LLM2")
     st.write("## Input")
     # Create two columns for text input
     input_col1, input_col2 = st.columns(2)
     with input_col1:
         st.write(f"{llm1_name} response")
         upload_pdf_1 = st.file_uploader(f"Upload PDF for {llm1_name} response", type="pdf", key="pdf1")
             text_input_1 = extract_pdf_text(upload_pdf_1)
         else:
             text_input_1 = st.text_area(f"Text for {llm1_name}", height=150, key="text1")
     with input_col2:
         st.write(f"{llm2_name} response")
         upload_pdf_2 = st.file_uploader(f"Upload PDF for {llm2_name} response", type="pdf", key="pdf2")
             summarization_similarity = calculate_summarization_similarity(text_input_1, text_input_2)
             # Combine all metrics into a single similarity score
+            total_similarity = (paraphrasing_similarity * 0.6 +  # High weight
+                                direct_text_comparison_similarity * 0.3 +  # Moderate weight
+                                summarization_similarity * 0.1)  # Low weight
             # Update results table in session state
             new_row = pd.Series({
                 "Summarization Similarity (%)": summarization_similarity,
                 "Combined Similarity (%)": total_similarity
             })
             st.session_state.results_df = pd.concat([st.session_state.results_df, new_row.to_frame().T], ignore_index=True)
             # Add new data for radar chart
             })
             # Display metrics with large and bold text
+            # Define a style for the combined score
+            combined_score_style = """
+                <style>
+                    .combined-score {
+                        font-size: 48px;
+                        font-weight: bold;
+                        color: #4CAF50; /* Green color for positive emphasis */
+                        background-color: #f0f0f5;
+                        padding: 20px;
+                        border-radius: 15px;
+                        text-align: center;
+                        margin-top: 30px;
+                        box-shadow: 2px 2px 12px rgba(0, 0, 0, 0.1);
+                    }
+                </style>
+            """
+            # Apply the style
+            st.markdown(combined_score_style, unsafe_allow_html=True)
+            # Display the combined similarity score
+            st.markdown(f'<div class="combined-score">Combined Similarity Score: {total_similarity:.2f}%</div>', unsafe_allow_html=True)
 with col2:
     # Display radar chart
     if st.session_state.radar_chart_data:
         st.subheader("Metrics Comparison")
+        st.markdown("*Larger area = More similarity of responses.*")
+        labels = ["Context similarity", "Words Similarity", "Summarization Similarity"]
         num_vars = len(labels)
         angles = np.linspace(0, 2 * np.pi, num_vars, endpoint=False).tolist()
         angles += angles[:1]
         fig, ax = plt.subplots(figsize=(6, 6), subplot_kw=dict(polar=True))
         # Plot each response with a different color
         color_palette = sns.color_palette("husl", len(st.session_state.radar_chart_data))
         for idx, data in enumerate(st.session_state.radar_chart_data):
             values = [
+                data["paraphrasing_similarity"],
+                data["direct_text_comparison_similarity"],
                 data["summarization_similarity"]
             ]
             values += values[:1]
             ax.fill(angles, values, color=color_palette[idx], alpha=0.25, label=data["name"])
             ax.plot(angles, values, color=color_palette[idx], linewidth=2, linestyle='solid')
         ax.set_yticklabels([])
         ax.set_xticks(angles[:-1])
         ax.set_xticklabels(labels)
     # Display metrics sliders beside the radar chart
     if st.session_state.radar_chart_data:
+        st.subheader("Similarity Factors")
+        st.markdown("*100 being the best case*")
+        slider_labels = {
+        "paraphrasing_similarity": "Context",
+        "direct_text_comparison_similarity": "Words",
+        "summarization_similarity": "Summary"
+    }
         metrics = st.session_state.radar_chart_data[-1]
         for metric_name in ["paraphrasing_similarity", "direct_text_comparison_similarity", "summarization_similarity"]:
             st.slider(
+                slider_labels[metric_name],
+                0, 100,
+                int(metrics[metric_name]),
+                key=metric_name,
                 disabled=True,  # Make the slider non-editable
                 format="%.0f"  # Format the slider value to be an integer
             )
     st.write("## Detailed Results Table")
     if not st.session_state.results_df.empty:
         st.write(st.session_state.results_df)
         # Download the results as a CSV file
         csv_data = st.session_state.results_df.to_csv(index=False).encode('utf-8')
         st.download_button(label="Download Results as CSV", data=csv_data, file_name='similarity_results.csv', mime='text/csv')
 with actions_col:
     if st.button("Reset Table"):
         st.session_state.results_df = pd.DataFrame(columns=[
+            "LLM1", "LLM2",
+            "Paraphrasing Similarity (%)",
+            "Direct Text Comparison (%)",
+            "Summarization Similarity (%)",
             "Combined Similarity (%)"
         ])
         st.session_state.radar_chart_data = []
+        st.write("Results table has been reset.")
+# Add an "About" button in the sidebar
+if st.sidebar.button("About"):
+    st.sidebar.markdown("""
+    ### About This App
+    This app compares text similarity between different responses from Language Models (LLMs).
+    It calculates various similarity metrics and provides a comprehensive comparison using a radar chart.
+    **Features:**
+    - Upload or input text for comparison.
+    - Calculate and display multiple similarity metrics.
+    - Visualize the results using a radar chart.
+    - Download the results as a CSV file.
+    **Similarity Metrics:**
+    1. **Paraphrasing Similarity**:
+       - Compares chunks of text from both LLM responses using embeddings generated by a pre-trained model.
+       - Calculates the average cosine similarity between the chunks.
+    2. **Direct Text Comparison**:
+       - Uses a combination of metrics:
+         - **Levenshtein Ratio**: Measures the similarity based on the minimum edit distance.
+         - **Jaccard Similarity**: Compares the overlap of unique words.
+         - **TF-IDF Cosine Similarity**: Compares the text using TF-IDF vectorization.
+         - **BLEU Score**: Evaluates the overlap of n-grams.
+         - **ROUGE-L Score**: Measures the longest matching sequence of words.
+         - **BERTScore**: Uses BERT embeddings to compare sentence similarity.
+    3. **Summarization Similarity**:
+       - Uses the Word Mover's Distance (WMD) to compare the semantic distance between the summaries of the texts.
+    4. **Combined Similarity**:
+       - A weighted average of the above metrics to provide an overall similarity score.
+    **Developed with:**
+    - Streamlit
+    - Sentence Transformers
+    - SpaCy
+    - Scikit-learn
+    - NLTK
+    - Gensim
+    """)