Spaces:

kambris
/

V3

Sleeping

App Files Files Community

kambris commited on Feb 15, 2025

Commit

f57ddb1

verified ·

1 Parent(s): f7c8af2

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -48

app.py CHANGED Viewed

@@ -16,6 +16,23 @@ import networkx as nx
 # Set page configuration
 st.set_page_config(layout="wide", page_title="Voynich Manuscript Analyzer", page_icon="📜")
 # Caching expensive computations
 @st.cache_data
 def load_data(uploaded_file):
@@ -228,7 +245,7 @@ if uploaded_file is not None:
     words, chars_list, char_positions, char_connections, word_positions, folio_word_map = analyze_csv(df)
     # Basic Statistics
-    with st.expander("Basic Statistics"):
         st.write(f"Total words: {len(words)}")
         st.write(f"Total unique words: {len(set(words))}")
         unique_chars = set(char for chars in chars_list for char in chars)
@@ -236,7 +253,7 @@ if uploaded_file is not None:
         st.write("Unique symbols:", ", ".join(sorted(unique_chars)))
     # Word Length Analysis
-    with st.expander("Word Length Analysis"):
         word_lengths, length_counter, words_by_length = analyze_word_lengths(words, chars_list)
         st.write("Word Length Distribution")
@@ -254,7 +271,7 @@ if uploaded_file is not None:
             st.dataframe(top_words_df)
     # Symbol Transition Network
-    with st.expander("Symbol Transition Network"):
         G = analyze_symbol_transitions(char_connections)
         pos = nx.spring_layout(G)
@@ -278,22 +295,22 @@ if uploaded_file is not None:
         st.plotly_chart(fig)
     # 12-Slot Character Frequency Table
-    with st.expander("12-Slot Symbol Frequency Table"):
         slot_freq_df = create_12_slot_table(chars_list)
         st.dataframe(slot_freq_df)
         st.markdown(get_download_link_csv(slot_freq_df, "slot_frequencies.csv"), unsafe_allow_html=True)
     # Character Position Heatmap
-    with st.expander("Symbol Position Heatmap"):
         slot_summary, max_slots = analyze_slot_structure(chars_list)
         st.plotly_chart(plot_char_positions(char_positions, max_slots))
     # Folio Similarity Analysis
-    with st.expander("Folio Similarity Analysis"):
         st.plotly_chart(create_folio_word_scatter(folio_word_map))
     # Word Length Visualization
-    with st.expander("Word Length Visualization"):
         # Group words by length
         words_by_length = defaultdict(list)
         for word, chars in zip(words, chars_list):
@@ -337,7 +354,7 @@ if uploaded_file is not None:
                             """, unsafe_allow_html=True)
     # Line Viewer
-    with st.expander("Line Viewer"):
         available_folios = sorted(set(line_data['folio'] for line_data in word_positions))
         selected_folio = st.selectbox("Select Folio:", [''] + available_folios, key="folio_select")
@@ -381,7 +398,7 @@ if uploaded_file is not None:
                                 """, unsafe_allow_html=True)
     # First/Last Symbol Analysis
-    with st.expander("First/Last Symbol Analysis"):
         first_chars = Counter(chars[0] for chars in chars_list)
         last_chars = Counter(chars[-1] for chars in chars_list)
@@ -398,7 +415,7 @@ if uploaded_file is not None:
             st.dataframe(last_df)
     # Symbol Trigram Patterns
-    with st.expander("Symbol Trigram Patterns"):
         char_trigrams = Counter()
         for chars in chars_list:
             if len(chars) >= 3:
@@ -411,7 +428,7 @@ if uploaded_file is not None:
         st.dataframe(trigram_df)
     # Word Length Correlation Matrix
-    with st.expander("Word Length Correlation Matrix"):
         word_lengths_by_line = []
         for line_data in word_positions:
             line_word_lengths = [len(chars) for _, _, chars in line_data['words']]
@@ -429,45 +446,53 @@ if uploaded_file is not None:
             st.plotly_chart(fig)
     # Folio Clustering Section
-    with st.expander("Folio Clustering Based on Word Usage Patterns"):
-        st.write("""
-        This section groups folios into clusters based on their word usage patterns.
-        - **PCA**: Reduces the data to 2D using Principal Component Analysis.
-        - **t-SNE**: Reduces the data to 2D using t-Distributed Stochastic Neighbor Embedding.
-        - **K-Means**: Groups folios into clusters based on their word frequencies.
-        """)
-        # Feature Extraction
-        all_words = set(word for folio in folio_word_map for word in folio_word_map[folio])
-        word_freq_matrix = pd.DataFrame(index=folio_word_map.keys(), columns=list(all_words), data=0)  # Convert set to list
-        for folio, word_counter in folio_word_map.items():
-            for word, count in word_counter.items():
-                word_freq_matrix.loc[folio, word] = count
-        # Dimensionality Reduction Option
-        dim_reduction_method = st.selectbox("Select Dimensionality Reduction Method", ["PCA", "t-SNE"], key="dim_reduction_method")
-        if dim_reduction_method == "PCA":
-            reducer = PCA(n_components=2)
-            folio_coords = reducer.fit_transform(word_freq_matrix)
-        else:
-            reducer = TSNE(n_components=2, random_state=42)
-            folio_coords = reducer.fit_transform(word_freq_matrix)
-        # Clustering (K-Means)
         n_clusters = st.slider("Select Number of Clusters", 2, 10, 3, key="n_clusters")
         kmeans = KMeans(n_clusters=n_clusters, random_state=42)
         clusters = kmeans.fit_predict(word_freq_matrix)
-        # Visualization
-        plot_data = pd.DataFrame({
-            'Folio': word_freq_matrix.index,
-            'Dim1': folio_coords[:, 0],
-            'Dim2': folio_coords[:, 1],
-            'Cluster': clusters
-        })
-        fig = px.scatter(plot_data, x='Dim1', y='Dim2', color='Cluster',
-                         hover_name='Folio', title=f"Folio Clustering ({dim_reduction_method})")
-        st.plotly_chart(fig)

 # Set page configuration
 st.set_page_config(layout="wide", page_title="Voynich Manuscript Analyzer", page_icon="📜")
+# Initialize session state for multiple expanders
+if 'expander_states' not in st.session_state:
+    st.session_state.expander_states = {
+        'basic_statistics': True,  # Expander 1: Basic Statistics
+        'word_length_analysis': True,  # Expander 2: Word Length Analysis
+        'symbol_transition_network': True,  # Expander 3: Symbol Transition Network
+        'slot_frequency_table': True,  # Expander 4: 12-Slot Symbol Frequency Table
+        'symbol_position_heatmap': True,  # Expander 5: Symbol Position Heatmap
+        'folio_similarity_analysis': True,  # Expander 6: Folio Similarity Analysis
+        'word_length_visualization': True,  # Expander 7: Word Length Visualization
+        'line_viewer': True,  # Expander 8: Line Viewer
+        'first_last_symbol_analysis': True,  # Expander 9: First/Last Symbol Analysis
+        'symbol_trigram_patterns': True,  # Expander 10: Symbol Trigram Patterns
+        'word_length_correlation_matrix': True,  # Expander 11: Word Length Correlation Matrix
+        'folio_clustering': True  # Expander 12: Folio Clustering
+    }
 # Caching expensive computations
 @st.cache_data
 def load_data(uploaded_file):
     words, chars_list, char_positions, char_connections, word_positions, folio_word_map = analyze_csv(df)
     # Basic Statistics
+    with st.expander("Basic Statistics", expanded=st.session_state.expander_states['basic_statistics']):
         st.write(f"Total words: {len(words)}")
         st.write(f"Total unique words: {len(set(words))}")
         unique_chars = set(char for chars in chars_list for char in chars)
         st.write("Unique symbols:", ", ".join(sorted(unique_chars)))
     # Word Length Analysis
+    with st.expander("Word Length Analysis", expanded=st.session_state.expander_states['word_length_analysis']):
         word_lengths, length_counter, words_by_length = analyze_word_lengths(words, chars_list)
         st.write("Word Length Distribution")
             st.dataframe(top_words_df)
     # Symbol Transition Network
+    with st.expander("Symbol Transition Network", expanded=st.session_state.expander_states['symbol_transition_network']):
         G = analyze_symbol_transitions(char_connections)
         pos = nx.spring_layout(G)
         st.plotly_chart(fig)
     # 12-Slot Character Frequency Table
+    with st.expander("12-Slot Symbol Frequency Table", expanded=st.session_state.expander_states['slot_frequency_table']):
         slot_freq_df = create_12_slot_table(chars_list)
         st.dataframe(slot_freq_df)
         st.markdown(get_download_link_csv(slot_freq_df, "slot_frequencies.csv"), unsafe_allow_html=True)
     # Character Position Heatmap
+    with st.expander("Symbol Position Heatmap", expanded=st.session_state.expander_states['symbol_position_heatmap']):
         slot_summary, max_slots = analyze_slot_structure(chars_list)
         st.plotly_chart(plot_char_positions(char_positions, max_slots))
     # Folio Similarity Analysis
+    with st.expander("Folio Similarity Analysis", expanded=st.session_state.expander_states['folio_similarity_analysis']):
         st.plotly_chart(create_folio_word_scatter(folio_word_map))
     # Word Length Visualization
+    with st.expander("Word Length Visualization", expanded=st.session_state.expander_states['word_length_visualization']):
         # Group words by length
         words_by_length = defaultdict(list)
         for word, chars in zip(words, chars_list):
                             """, unsafe_allow_html=True)
     # Line Viewer
+    with st.expander("Line Viewer", expanded=st.session_state.expander_states['line_viewer']):
         available_folios = sorted(set(line_data['folio'] for line_data in word_positions))
         selected_folio = st.selectbox("Select Folio:", [''] + available_folios, key="folio_select")
                                 """, unsafe_allow_html=True)
     # First/Last Symbol Analysis
+    with st.expander("First/Last Symbol Analysis", expanded=st.session_state.expander_states['first_last_symbol_analysis']):
         first_chars = Counter(chars[0] for chars in chars_list)
         last_chars = Counter(chars[-1] for chars in chars_list)
             st.dataframe(last_df)
     # Symbol Trigram Patterns
+    with st.expander("Symbol Trigram Patterns", expanded=st.session_state.expander_states['symbol_trigram_patterns']):
         char_trigrams = Counter()
         for chars in chars_list:
             if len(chars) >= 3:
         st.dataframe(trigram_df)
     # Word Length Correlation Matrix
+    with st.expander("Word Length Correlation Matrix", expanded=st.session_state.expander_states['word_length_correlation_matrix']):
         word_lengths_by_line = []
         for line_data in word_positions:
             line_word_lengths = [len(chars) for _, _, chars in line_data['words']]
             st.plotly_chart(fig)
     # Folio Clustering Section
+    with st.expander("Folio Clustering Based on Word Usage Patterns", expanded=st.session_state.expander_states['folio_clustering']):
+    st.write("""
+    This section groups folios into clusters based on their word usage patterns.
+    - **PCA**: Reduces the data to 2D using Principal Component Analysis.
+    - **t-SNE**: Reduces the data to 2D using t-Distributed Stochastic Neighbor Embedding.
+    - **K-Means**: Groups folios into clusters based on their word frequencies.
+    """)
+    # Feature Extraction
+    all_words = set(word for folio in folio_word_map for word in folio_word_map[folio])
+    word_freq_matrix = pd.DataFrame(index=folio_word_map.keys(), columns=list(all_words), data=0)  # Convert set to list
+    for folio, word_counter in folio_word_map.items():
+        for word, count in word_counter.items():
+            word_freq_matrix.loc[folio, word] = count
+    # Dimensionality Reduction Option
+    dim_reduction_method = st.selectbox("Select Dimensionality Reduction Method", ["PCA", "t-SNE"], key="dim_reduction_method")
+    if dim_reduction_method == "PCA":
+        reducer = PCA(n_components=2)
+        folio_coords = reducer.fit_transform(word_freq_matrix)
+    else:
+        reducer = TSNE(n_components=2, random_state=42)
+        folio_coords = reducer.fit_transform(word_freq_matrix)
+    # Clustering Algorithm Option
+    clustering_method = st.selectbox("Select Clustering Algorithm", ["K-Means", "DBSCAN"], key="clustering_method")
+    if clustering_method == "K-Means":
+        # K-Means Clustering
         n_clusters = st.slider("Select Number of Clusters", 2, 10, 3, key="n_clusters")
         kmeans = KMeans(n_clusters=n_clusters, random_state=42)
         clusters = kmeans.fit_predict(word_freq_matrix)
+    else:
+        # DBSCAN Clustering
+        dbscan = DBSCAN(eps=0.5, min_samples=5)  # Adjust parameters as needed
+        clusters = dbscan.fit_predict(word_freq_matrix)
+    # Visualization
+    plot_data = pd.DataFrame({
+        'Folio': word_freq_matrix.index,
+        'Dim1': folio_coords[:, 0],
+        'Dim2': folio_coords[:, 1],
+        'Cluster': clusters
+    })
+    fig = px.scatter(plot_data, x='Dim1', y='Dim2', color='Cluster',
+                     hover_name='Folio', title=f"Folio Clustering ({dim_reduction_method}, {clustering_method})")
+    st.plotly_chart(fig)