Spaces:

genomenet
/

bert-embedding

Sleeping

genomenet Claude Opus 4.7 (1M context) commited on 22 days ago

Commit

f48b1be

1 Parent(s): 09774a9

Rework embedding UI: per-position plot, wider output column, E. coli example

Three fixes:
- Default example was 1035 bp -> only 1 window, so trajectory and top-varying-
dimension plots silently rendered as None. Replaced with a 3 kb slice of
E. coli K-12 MG1655 around lacZ (NC_000913.3:365529-368600) -> 21 windows
at the default stride, and real biological structure instead of synthetic
repeats.
- Layout was three equal columns with inputs + results squeezed into the left.
Now: narrow input column on the left, wide output column on the right
containing summary, download, and all plots.
- Replaced the bar chart of global embedding stats (L2/entropy/sparsity/kurtosis
on a single pooled vector) with a per-window plot along the sequence:
L2 norm (response strength) and novelty (1 - cos similarity to sequence mean).
This actually answers "which parts of the sequence does the model respond to
differently?" — spikes/dips correspond to position ranges you can read off
the x-axis. Numeric pooled stats stay in the markdown summary.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

Files changed (1) hide show

app.py +110 -53

app.py CHANGED Viewed

@@ -202,32 +202,45 @@ def create_trajectory_plot(window_embeddings, positions):
     )
     return fig
-def create_stats_plot(stats):
-    """Create a bar chart of embedding statistics."""
-    names = ['L2 Norm', 'Mean', 'Std', 'Sparsity', 'Entropy', 'Kurtosis']
-    values = [stats['l2_norm'], stats['mean'], stats['std'],
-              stats['sparsity'], stats['entropy'], stats['kurtosis']]
-    # Normalize for display (different scales)
-    fig = go.Figure()
-    colors = ['#3b82f6', '#10b981', '#f59e0b', '#ef4444', '#8b5cf6', '#ec4899']
-    for i, (name, val) in enumerate(zip(names, values)):
-        fig.add_trace(go.Bar(
-            x=[name], y=[val],
-            name=name,
-            marker_color=colors[i],
-            text=[f'{val:.3f}'],
-            textposition='outside'
-        ))
     fig.update_layout(
-        showlegend=False,
-        height=280,
-        margin=dict(l=40, r=20, t=30, b=40),
-        yaxis=dict(title='Value')
     )
     return fig
 def create_dimension_plot(window_embeddings, positions, top_k=8):
@@ -256,8 +269,55 @@ def create_dimension_plot(window_embeddings, positions, top_k=8):
     )
     return fig
-# Example sequence
-EXAMPLE_SEQUENCE = """ATGCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTACGATCGATCGATCGATCGTAGCTAGCTAGCTAGCTAGCTGATCGATCGATCGTAGCTAGCTAGCTGATCGATCGATCGATCG"""
 def process(sequence: str, mode: str, stride: int, layer: int):
     """Main processing function."""
@@ -314,11 +374,12 @@ def process(sequence: str, mode: str, stride: int, layer: int):
     if mode != "per-window":
         heatmap_fig = create_embedding_heatmap(embedding, f"Layer {layer}")
-    trajectory_fig = create_trajectory_plot(window_embeddings, positions) if len(window_embeddings) > 1 else None
-    stats_fig = create_stats_plot(stats)
-    dims_fig = create_dimension_plot(window_embeddings, positions) if len(window_embeddings) > 1 else None
-    return summary, path, heatmap_fig, trajectory_fig, stats_fig, dims_fig
 # Build interface
 with gr.Blocks(
@@ -329,37 +390,35 @@ with gr.Blocks(
     with gr.Tab("Extract"):
         with gr.Row():
-            with gr.Column(scale=1, min_width=300):
                 seq_input = gr.Textbox(
                     label="sequence",
                     placeholder="Paste DNA (FASTA or raw)...",
-                    lines=5,
                     value=EXAMPLE_SEQUENCE
                 )
-                with gr.Row():
-                    mode_input = gr.Radio(
-                        choices=["mean", "max", "per-window"],
-                        value="mean", label="pooling"
-                    )
-                with gr.Row():
-                    layer_input = gr.Slider(0, 23, value=21, step=1, label="layer")
-                    stride_input = gr.Slider(50, 500, value=100, step=50, label="stride")
                 btn = gr.Button("extract", variant="primary")
                 output = gr.Markdown()
                 download = gr.File(label="download .npy")
-            with gr.Column(scale=1, min_width=300):
-                stats_plot = gr.Plot(label="embedding statistics")
-                heatmap_plot = gr.Plot(label="embedding heatmap")
-            with gr.Column(scale=1, min_width=300):
-                trajectory_plot = gr.Plot(label="window trajectory")
-                dims_plot = gr.Plot(label="top varying dimensions")
     btn.click(
         process,
         inputs=[seq_input, mode_input, stride_input, layer_input],
-        outputs=[output, download, heatmap_plot, trajectory_plot, stats_plot, dims_plot],
         api_name="embed"
     )
@@ -383,14 +442,12 @@ summary, emb_path, *plots = result
 embedding = np.load(emb_path)
 ```
-**Statistics**:
-- **L2 Norm**: Magnitude of embedding. Higher = stronger model response.
-- **Entropy**: Activation distribution spread. Lower = more structured/confident.
-- **Sparsity**: Fraction of near-zero dims. Higher = sparser representation.
-- **Kurtosis**: Peakedness. Higher = more concentrated activations.
-These can serve as proxy "familiarity" scores - sequences similar to training data
-tend to produce more structured embeddings (lower entropy, higher kurtosis).
         """)
     with gr.Tab("About"):

     )
     return fig
+def create_familiarity_plot(window_embeddings, positions):
+    """Per-window L2 norm + novelty (cosine distance to sequence mean) along the sequence.
+    High L2 norm = strong response. High novelty = window looks different from the rest
+    of the sequence (the model's internal 'surprise' relative to the sequence average).
+    """
+    from plotly.subplots import make_subplots
+    emb = np.array(window_embeddings)
+    n_windows = emb.shape[0]
+    l2 = np.linalg.norm(emb, axis=1)
+    mean_vec = emb.mean(axis=0)
+    mean_norm = np.linalg.norm(mean_vec) + 1e-10
+    cos_sim = (emb @ mean_vec) / (l2 * mean_norm + 1e-10)
+    novelty = 1.0 - cos_sim
+    fig = make_subplots(
+        rows=2, cols=1, shared_xaxes=True, vertical_spacing=0.12,
+        subplot_titles=('L2 norm (response strength)', 'Novelty (1 − cosine similarity to mean)')
+    )
+    fig.add_trace(go.Scatter(
+        x=positions, y=l2, mode='lines+markers',
+        line=dict(color='#3b82f6', width=2), marker=dict(size=5),
+        hovertemplate='pos %{x} bp<br>L2=%{y:.2f}<extra></extra>', showlegend=False
+    ), row=1, col=1)
+    fig.add_trace(go.Scatter(
+        x=positions, y=novelty, mode='lines+markers',
+        line=dict(color='#ef4444', width=2), marker=dict(size=5),
+        hovertemplate='pos %{x} bp<br>novelty=%{y:.3f}<extra></extra>', showlegend=False
+    ), row=2, col=1)
+    fig.update_xaxes(title_text='window start (bp)', row=2, col=1)
+    fig.update_yaxes(title_text='L2', row=1, col=1)
+    fig.update_yaxes(title_text='1 − cos', row=2, col=1)
     fig.update_layout(
+        height=360 if n_windows > 1 else 260,
+        margin=dict(l=50, r=20, t=40, b=40),
     )
+    for ann in fig['layout']['annotations']:
+        ann['font'] = dict(size=11)
     return fig
 def create_dimension_plot(window_embeddings, positions, top_k=8):
     )
     return fig
+# Example sequence: ~3 kb slice of E. coli K-12 MG1655 around the lacZ operon
+# (NC_000913.3, positions 365529-368600). Covers the lac repressor binding region,
+# the lacZ gene, and flanking regulatory sequence, so per-window plots show
+# real biological structure transitions.
+EXAMPLE_SEQUENCE = (
+    "AACTGTTACCCGTAGGTAGTCACGCAACTCGCCGCACATCTGAACTTCAGCCTCCAGTACAGCGCGGCTGAA"
+    "ATCATCATTAAAGCGAGTGGCAACATGGAAATCGCTGATTTGTGTAGTCGGTTTATGCAGCAACGAGACGTC"
+    "ACGGAAAATGCCGCTCATCCGCCACATATCCTGATCTTCCAGATAACTGCCGTCACTCCAGCGCAGCACCAT"
+    "CACCGCGAGGCGGTTTTCTCCGGCGCGTAAAAATGCGCTCAGGTCAAATTCAGACGGCAAACGACTGTCCTG"
+    "GCCGTAACCGACCCAGCGCCCGTTGCACCACAGATGAAACGCCGAGTTAACGCCATCAAAAATAATTCGCGT"
+    "CTGGCCTTCCTGTAGCCAGCTTTCATCAACATTAAATGTGAGCGAGTAACAACCCGTCGGATTCTCCGTGGG"
+    "AACAAACGGCGGATTGACCGTAATGGGATAGGTCACGTTGGTGTAGATGGGCGCATCGTAACCGTGCATCTG"
+    "CCAGTTTGAGGGGACGACGACAGTATCGGCCTCAGGAAGATCGCACTCCAGCCAGCTTTCCGGCACCGCTTC"
+    "TGGTGCCGGAAACCAGGCAAAGCGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCG"
+    "GGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATGTGCTGCAAGGCGATTAAGTTGGGTAACGCCAGG"
+    "GTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATCCGTAATCATGGTCATAGCTGTTTCCTGTGT"
+    "GAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCT"
+    "AATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCC"
+    "AGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCCAGGGTGGTTTTTCTT"
+    "TTCACCAGTGAGACGGGCAACAGCTGATTGCCCTTCACCGCCTGGCCCTGAGAGAGTTGCAGCAAGCGGTCC"
+    "ACGCTGGTTTGCCCCAGCAGGCGAAAATCCTGTTTGATGGTGGTTAACGGCGGGATATAACATGAGCTGTCT"
+    "TCGGTATCGTCGTATCCCACTACCGAGATATCCGCACCAACGCGCAGCCCGGACTCGGTAATGGCGCGCATT"
+    "GCGCCCAGCGCCATCTGATCGTTGGCAACCAGCATCGCAGTGGGAACGATGCCCTCATTCAGCATTTGCATG"
+    "GTTTGTTGAAAACCGGACATGGCACTCCAGTCGCCTTCCCGTTCCGCTATCGGCTGAATTTGATTGCGAGTG"
+    "AGATATTTATGCCAGCCAGCCAGACGCAGACGCGCCGAGACAGAACTTAATGGGCCCGCTAACAGCGCGATT"
+    "TGCTGGTGACCCAATGCGACCAGATGCTCCACGCCCAGTCGCGTACCGTCTTCATGGGAGAAAATAATACTG"
+    "TTGATGGGTGTCTGGTCAGAGACATCAAGAAATAACGCCGGAACATTAGTGCAGGCAGCTTCCACAGCAATG"
+    "GCATCCTGGTCATCCAGCGGATAGTTAATGATCAGCCCACTGACGCGTTGCGCGAGAAGATTGTGCACCGCC"
+    "GCTTTACAGGCTTCGACGCCGCTTCGTTCTACCATCGACACCACCACGCTGGCACCCAGTTGATCGGCGCGA"
+    "GATTTAATCGCCGCGACAATTTGCGACGGCGCGTGCAGGGCCAGACTGGAGGTGGCAACGCCAATCAGCAAC"
+    "GACTGTTTGCCCGCCAGTTGTTGTGCCACGCGGTTGGGAATGTAATTCAGCTCCGCCATCGCCGCTTCCACT"
+    "TTTTCCCGCGTTTTCGCAGAAACGTGGCTGGCCTGGTTCACCACGCGGGAAACGGTCTGATAAGAGACACCG"
+    "GCATACTCTGCGACATCGTATAACGTTACTGGTTTCACATTCACCACCCTGAATTGACTCTCTTCCGGGCGC"
+    "TATCATGCCATACCGCGAAAGGTTTTGCGCCATTCGATGGTGTCAACGTAAATGCATGCCGCTTCGCCTTCC"
+    "GGCCACCAGAATAGCCTGCGATTCAACCCCTTCTTCGATCTGTTTTGCTACCCGTTGTAGCGCCGGAAGATG"
+    "CTTTTCCGCTGCCTGTTCAATGGTCATTGCGCTCGCCATATACACCAGATTCAGACAGCCAATCACCCGTTG"
+    "TTCACTGCGCAGCGGTACGGCGATAGAGGCGATCTTCTCCTCCTGATCCCAGCCGCGGTAGTTCTGTCCGTA"
+    "ACCCTCTTTGCGCGCGCGCGCCAGAATGGCTTCCAGCTTTAACGGTTCCCGTGCCAGTTGATAGTCATCACC"
+    "GGGGCGGGAGGCTAACATTTCGATTAATTCCTTGCGGTCTTGTTCCGGGCAAAAGGCCAGCCAGGTCAGGCC"
+    "CGAGGCGGTTTTCAGAAGCGGCAAACGTCGCCCGACCATTGCCCGGTGAAAGGATAAGCGGCTGAAACGGTG"
+    "AGTGGTTTCGCGTACCACCATTGCATCAACATCCAGCGTGGACACATCTGTCGGCCATACCACTTCGCGCAA"
+    "CAGATCGCCCAGCAGTGGGGCCGCCAGTGCAGAAATCCACTGTTCGTCACGAAATCCTTCGCTTAATTGCCG"
+    "CACTTTGATGGTCAGTCGAAAACTATCATCGGAGGGGCTACGGCGGACATATCCCTCTTCCTGCAGCGTCTC"
+    "CAGCAGTCGCCGCACAGTGGTGCGATGCAGGCCGCTGAGTTCCGCCAGCAGCCCGACGCTGGCACCGCCATC"
+    "AAGTTTATTTAACATATTTAATAACATTAGACCGCGGGTTAAGCCGCGCACGGTTTTGTATTCCGTCTGCTC"
+    "ATTGTTCTGCATATTAATTGACATTTCTATAGTTAAAACAACGTGGTGCACCTGGTGCACATTCGGGCATGT"
+    "TTTGATTGTAGCCGAAAACACCCTTCCTATACTGAGCGCACAATAAAAAATCATTTACATGTTTTTAACAAA"
+    "ATAAGTTGCGCTGTACTGTGCGCGCAACGACATTTTGTCCGAGTCGTG"
+)
 def process(sequence: str, mode: str, stride: int, layer: int):
     """Main processing function."""
     if mode != "per-window":
         heatmap_fig = create_embedding_heatmap(embedding, f"Layer {layer}")
+    multi_window = len(window_embeddings) > 1
+    trajectory_fig = create_trajectory_plot(window_embeddings, positions) if multi_window else None
+    familiarity_fig = create_familiarity_plot(window_embeddings, positions) if multi_window else None
+    dims_fig = create_dimension_plot(window_embeddings, positions) if multi_window else None
+    return summary, path, heatmap_fig, trajectory_fig, familiarity_fig, dims_fig
 # Build interface
 with gr.Blocks(
     with gr.Tab("Extract"):
         with gr.Row():
+            with gr.Column(scale=1, min_width=260):
                 seq_input = gr.Textbox(
                     label="sequence",
                     placeholder="Paste DNA (FASTA or raw)...",
+                    lines=8,
                     value=EXAMPLE_SEQUENCE
                 )
+                mode_input = gr.Radio(
+                    choices=["mean", "max", "per-window"],
+                    value="mean", label="pooling"
+                )
+                layer_input = gr.Slider(0, 23, value=21, step=1, label="layer")
+                stride_input = gr.Slider(50, 500, value=100, step=50, label="stride",
+                                         info="lower = finer resolution, more compute")
                 btn = gr.Button("extract", variant="primary")
+            with gr.Column(scale=3, min_width=500):
                 output = gr.Markdown()
                 download = gr.File(label="download .npy")
+                familiarity_plot = gr.Plot(label="per-window response & novelty along sequence")
+                with gr.Row():
+                    trajectory_plot = gr.Plot(label="window trajectory")
+                    dims_plot = gr.Plot(label="top varying dimensions")
+                heatmap_plot = gr.Plot(label="pooled embedding heatmap")
     btn.click(
         process,
         inputs=[seq_input, mode_input, stride_input, layer_input],
+        outputs=[output, download, heatmap_plot, trajectory_plot, familiarity_plot, dims_plot],
         api_name="embed"
     )
 embedding = np.load(emb_path)
 ```
+**Per-window plots** (along sequence position):
+- **L2 norm**: activation magnitude — high = strong, structured response.
+- **Novelty** (1 − cosine similarity to mean embedding): how much the window differs
+  from the rest of the sequence. Spikes = unusual regions relative to context.
+Numeric stats (L2, entropy, sparsity, kurtosis) are in the summary text.
         """)
     with gr.Tab("About"):