Spaces:

yashm
/

OpenGene

Sleeping

App Files Files Community

yashm commited on Mar 9, 2024

Commit

2ed9be8

verified ·

1 Parent(s): 04fd093

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -53

app.py CHANGED Viewed

@@ -1,12 +1,20 @@
 # Import libraries
 import streamlit as st
 import pandas as pd
-from Bio import SeqIO, SeqUtils
 from io import StringIO
 from collections import Counter
 import numpy as np
 import altair as alt
-from Bio.SeqUtils.ProtParam import ProteinAnalysis
 # Function to parse GenBank file
 def parse_genbank(uploaded_file):
@@ -15,55 +23,30 @@ def parse_genbank(uploaded_file):
     organism = record.annotations['organism']
     features = record.features
     feature_types = Counter([feature.type for feature in features])
     genes, cds = [], []
     for feature in features:
         if feature.type == "gene":
             genes.append(feature)
         elif feature.type == "CDS":
             cds.append(feature)
-    gene_info = [{
-        'Gene': gene.qualifiers.get('gene', ['N/A'])[0],
-        'Length': len(gene),
-        'Location': str(gene.location)} for gene in genes]
-    cds_info = [{
-        'Gene': cds.qualifiers.get('gene', ['N/A'])[0],
-        'Protein': cds.qualifiers.get('translation', ['N/A'])[0],
-        'Length': len(cds),
-        'Location': str(cds.location)} for cds in cds]
     gc_content = (str(record.seq).count('G') + str(record.seq).count('C')) / len(record.seq) * 100
     return organism, gene_info, cds_info, gc_content, len(record.seq), feature_types, str(record.seq)
-# Function to calculate GC content over genome
-def calculate_gc_content(sequence, window_size=1000):
-    gc_content = [
-        (sequence[i:i+window_size].count('G') + sequence[i:i+window_size].count('C')) / window_size * 100
-        for i in range(0, len(sequence) - window_size + 1, window_size)
-    ]
-    return gc_content
-# Function to calculate k-mers
-def calculate_kmers(sequence, k):
-    kmers = Counter([sequence[i:i+k] for i in range(len(sequence) - k + 1)])
-    return kmers
-# Function to add molecular weight and isoelectric point to CDS information
-def add_protein_features(cds_info):
-    for cds in cds_info:
-        if cds['Protein'] != 'N/A':
-            prot_analysis = ProteinAnalysis(cds['Protein'])
-            cds['Molecular Weight'] = prot_analysis.molecular_weight()
-            cds['Isoelectric Point'] = prot_analysis.isoelectric_point()
-        else:
-            cds['Molecular Weight'] = 'N/A'
-            cds['Isoelectric Point'] = 'N/A'
-    return cds_info
-# Function to add genome_diagram
 def create_genome_diagram(genbank_content, output_file_path):
     record = SeqIO.read(StringIO(genbank_content), "genbank")
     gd_diagram = GenomeDiagram.Diagram(record.id)
@@ -82,17 +65,16 @@ def create_genome_diagram(genbank_content, output_file_path):
     gd_diagram.draw(format="circular", circular=True, pagesize=(20*cm, 20*cm), start=0, end=len(record), circle_core=0.7)
     gd_diagram.write(output_file_path, "PNG")
-# Streamlit UI
 st.set_page_config(page_title="Genomic Data Dashboard", page_icon="🧬", layout="wide")
 uploaded_file = st.file_uploader("Upload a GenBank file", type=['gb', 'gbk'])
 if uploaded_file is not None:
     organism, gene_info, cds_info, gc_content, sequence_length, feature_types, sequence = parse_genbank(uploaded_file)
-    cds_info = add_protein_features(cds_info)
     gene_df = pd.DataFrame(gene_info)
     cds_df = pd.DataFrame(cds_info)
     # Sidebar
     with st.sidebar:
         st.title('Genomic Data Dashboard')
@@ -115,7 +97,7 @@ if uploaded_file is not None:
     with col2:
         st.markdown('### GC Content Over Genome')
-        gc_content_over_genome = calculate_gc_content(sequence, window_size)
         gc_chart = alt.Chart(pd.DataFrame({'GC Content': gc_content_over_genome, 'Position': np.arange(len(gc_content_over_genome)) * window_size})).mark_line().encode(
             x='Position:Q',
             y='GC Content:Q'
@@ -123,16 +105,14 @@ if uploaded_file is not None:
         st.altair_chart(gc_chart, use_container_width=True)
         st.markdown('### K-mer Analysis')
-        kmers = calculate_kmers(sequence, k)
         st.bar_chart(pd.DataFrame.from_dict(kmers, orient='index', columns=['Frequency']).sort_values('Frequency', ascending=False).head(20))
-        # Generate genome diagram
-        output_file_path = os.path.join(st.session_state.get("temp_dir", "."), "genome_diagram.png")
-        create_genome_diagram(uploaded_file.getvalue().decode("utf-8"), output_file_path)
-        # Display genome diagram
-        st.image(output_file_path, caption='Genome Diagram')
     # Additional Information
     with st.expander("View All Genes"):
         st.dataframe(gene_df)

 # Import libraries
 import streamlit as st
 import pandas as pd
+from Bio import SeqIO
+from Bio.SeqUtils.ProtParam import ProteinAnalysis
+from Bio.Graphics import GenomeDiagram
+from reportlab.lib import colors
+from reportlab.lib.units import cm
 from io import StringIO
 from collections import Counter
 import numpy as np
 import altair as alt
+import os
+# Ensure the 'temp' directory exists for saving temporary files
+temp_dir = "temp"
+os.makedirs(temp_dir, exist_ok=True)
 # Function to parse GenBank file
 def parse_genbank(uploaded_file):
     organism = record.annotations['organism']
     features = record.features
     feature_types = Counter([feature.type for feature in features])
     genes, cds = [], []
     for feature in features:
         if feature.type == "gene":
             genes.append(feature)
         elif feature.type == "CDS":
             cds.append(feature)
+    gene_info = [{'Gene': gene.qualifiers.get('gene', ['N/A'])[0],
+                  'Length': len(gene),
+                  'Location': str(gene.location)} for gene in genes]
+    cds_info = [{'Gene': cds.qualifiers.get('gene', ['N/A'])[0],
+                 'Protein': cds.qualifiers.get('translation', ['N/A'])[0],
+                 'Length': len(cds),
+                 'Location': str(cds.location)} for cds in cds]
     gc_content = (str(record.seq).count('G') + str(record.seq).count('C')) / len(record.seq) * 100
     return organism, gene_info, cds_info, gc_content, len(record.seq), feature_types, str(record.seq)
+# Additional functions (calculate_gc_content, calculate_kmers, add_protein_features) as before
+# Function to generate genome diagram
 def create_genome_diagram(genbank_content, output_file_path):
     record = SeqIO.read(StringIO(genbank_content), "genbank")
     gd_diagram = GenomeDiagram.Diagram(record.id)
     gd_diagram.draw(format="circular", circular=True, pagesize=(20*cm, 20*cm), start=0, end=len(record), circle_core=0.7)
     gd_diagram.write(output_file_path, "PNG")
+# Streamlit UI setup
 st.set_page_config(page_title="Genomic Data Dashboard", page_icon="🧬", layout="wide")
 uploaded_file = st.file_uploader("Upload a GenBank file", type=['gb', 'gbk'])
 if uploaded_file is not None:
     organism, gene_info, cds_info, gc_content, sequence_length, feature_types, sequence = parse_genbank(uploaded_file)
+    cds_info = add_protein_features(cds_info)  # Ensure this function is defined as per previous instructions
     gene_df = pd.DataFrame(gene_info)
     cds_df = pd.DataFrame(cds_info)
     # Sidebar
     with st.sidebar:
         st.title('Genomic Data Dashboard')
     with col2:
         st.markdown('### GC Content Over Genome')
+        gc_content_over_genome = calculate_gc_content(sequence, window_size)  # Ensure this function is defined as per previous instructions
         gc_chart = alt.Chart(pd.DataFrame({'GC Content': gc_content_over_genome, 'Position': np.arange(len(gc_content_over_genome)) * window_size})).mark_line().encode(
             x='Position:Q',
             y='GC Content:Q'
         st.altair_chart(gc_chart, use_container_width=True)
         st.markdown('### K-mer Analysis')
+        kmers = calculate_kmers(sequence, k)  # Ensure this function is defined as per previous instructions
         st.bar_chart(pd.DataFrame.from_dict(kmers, orient='index', columns=['Frequency']).sort_values('Frequency', ascending=False).head(20))
+    # Generate and display genome diagram
+    output_file_path = os.path.join(temp_dir, "genome_diagram.png")
+    create_genome_diagram(uploaded_file.getvalue().decode("utf-8"), output_file_path)
+    st.image(output_file_path, caption='Genome Diagram')
     # Additional Information
     with st.expander("View All Genes"):
         st.dataframe(gene_df)