Spaces:

Sebbe33
/

embedding_testq

Sleeping

App Files Files Community

Sebbe33 commited on Mar 5, 2025

Commit

e4f69cf

verified ·

1 Parent(s): d97111e

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -21

app.py CHANGED Viewed

@@ -1,38 +1,72 @@
 import streamlit as st
 import google.generativeai as genai
 # Configure Gemini API
 genai.configure(api_key=st.secrets["GEMINI_API_KEY"])
-st.title("Embedding Test")
-# Text input area
-input_text = st.text_area("Enter your text to generate embedding:",
-                         height=150,
-                         placeholder="Type your text here...")
-# Button to generate embedding
-if st.button("Generate Embedding"):
-    if not input_text.strip():
-        st.warning("Please enter some text to generate embedding.")
     else:
-        with st.spinner("Generating embedding..."):
             try:
-                # Generate embedding
-                result = genai.embed_content(
-                    model="models/text-embedding-004",
-                    content=input_text
-                )
-                embedding = result['embedding']
                 # Display results
-                st.subheader("📌 Generated Embedding")
-                st.write(f"**Embedding Dimension:** {len(embedding)}")
-                st.code(str(embedding))
-                st.success("Embedding generated successfully!")
             except Exception as e:
-                st.error(f"Error generating embedding: {str(e)}")

 import streamlit as st
 import google.generativeai as genai
+import numpy as np
 # Configure Gemini API
 genai.configure(api_key=st.secrets["GEMINI_API_KEY"])
+st.title("Text Embedding Similarity Test")
+def split_into_chunks(text, chunk_size=500):
+    """Split text into chunks of approximately specified character length"""
+    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
+def get_embedding(text):
+    """Get embedding for a single text chunk"""
+    return genai.embed_content(
+        model="models/text-embedding-004",
+        content=text
+    )['embedding']
+def cosine_similarity(vec1, vec2):
+    """Compute cosine similarity between two vectors"""
+    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
+# Text input areas
+col1, col2 = st.columns(2)
+with col1:
+    input_text1 = st.text_area("Enter your first text:",
+                             height=200,
+                             placeholder="Type or paste your first text here...")
+with col2:
+    input_text2 = st.text_area("Enter text to compare:",
+                             height=200,
+                             placeholder="Type or paste text to compare...")
+if st.button("Run Similarity Test"):
+    if not input_text1.strip() or not input_text2.strip():
+        st.warning("Please enter text in both input fields.")
     else:
+        with st.spinner("Analyzing texts..."):
             try:
+                # Process first text into chunks
+                chunks = split_into_chunks(input_text1)
+                if len(chunks) > 1:
+                    st.info(f"Split first text into {len(chunks)} chunks")
+                # Generate embeddings for all chunks
+                embeddings = [get_embedding(chunk) for chunk in chunks]
+                # Generate embedding for comparison text
+                compare_embedding = get_embedding(input_text2)
+                # Calculate similarities
+                similarities = [cosine_similarity(emb, compare_embedding) for emb in embeddings]
+                max_score = max(similarities)
+                max_index = similarities.index(max_score)
                 # Display results
+                st.subheader("📊 Similarity Results")
+                st.write(f"**Highest similarity score:** {max_score:.4f}")
+                st.subheader("🧩 Most Similar Chunk")
+                st.write(chunks[max_index])
+                st.subheader("📈 All Chunk Similarities")
+                for i, (chunk, score) in enumerate(zip(chunks, similarities)):
+                    st.write(f"Chunk {i+1} ({len(chunk)} chars): {score:.4f}")
+                    st.expander(f"View chunk {i+1}").write(chunk)
             except Exception as e:
+                st.error(f"Error processing texts: {str(e)}")