Spaces:

Bhanushray
/

WebAppPTS

Sleeping

App Files Files Community

Bhanushray commited on Apr 23, 2025

Commit

f22f24a

verified ·

1 Parent(s): a16c4b0

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -1040

app.py CHANGED Viewed

@@ -6,15 +6,15 @@ from flask import Flask, render_template, request, send_file
 from rdkit import Chem
 from transformers import AutoModelForMaskedLM, AutoTokenizer
 from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
 from transformers import AutoModel, AutoTokenizer
 import torch
-import numpy as np
 import re
-# 🚀 Define Directories for Railway
-bio_model_dir = "/app/modelsBioembedSmall"  # Persistent model storage
 cvn_model_dir = "/app/models_folder"
 UPLOAD_FOLDER = "/app/Samples"
 UF="/tmp/"
@@ -23,7 +23,7 @@ os.makedirs(bio_model_dir, exist_ok=True)
 os.makedirs(cvn_model_dir, exist_ok=True)
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
-# ✅ Environment Variables for Temp Directory
 os.environ["TMPDIR"] = bio_model_dir
 os.environ["TEMP"] = bio_model_dir
 os.environ["TMP"] = bio_model_dir
@@ -31,81 +31,10 @@ os.environ['NUMBA_CACHE_DIR'] = '/app/numba_cache'
 os.environ['TRANSFORMERS_CACHE'] = '/app/hf_cache'
-# 🔗 Dropbox Links for Model Files
-DROPBOX_LINKS = {
-    "pytorch_model.bin": "https://www.dropbox.com/scl/fi/b41t8c6ji7j6uk5y2jj8g/pytorch_model.bin?rlkey=kuuwkid36ugml560c4a465ilr&st=t60bfemx&dl=1",
-    "config.json": "https://www.dropbox.com/scl/fi/js6czj3kfc4a5kshfkzie/config.json?rlkey=5oysq4ecilnan5tviuqe86v93&st=75zpce8h&dl=1",
-    "tokenizer_config.json": "https://www.dropbox.com/scl/fi/x11poym6mueoxod7xb6f1/tokenizer_config.json?rlkey=s51pik2rkmqp1fu99qj9qaria&st=z9kkcxp7&dl=1",
-    "vocab.txt": "https://www.dropbox.com/scl/fi/v6e2gn10ck4lpx4iv9kpe/vocab.txt?rlkey=dcu29g5ns4wtqdv0pkks0ehx1&st=qt187rhq&dl=1",
-    "special_tokens_map.json": "https://www.dropbox.com/scl/fi/t3lvmp5x28d1zjac3j7ec/special_tokens_map.json?rlkey=z2xbompa54iu4y9qgb5bvmfc9&st=zrxlpjdt&dl=1"
-}
-# # 📥 Function to Download Model Files
-# def download_model_files():
-#     for filename, url in DROPBOX_LINKS.items():
-#         file_path = os.path.join(bio_model_dir, filename)
-#         if not os.path.exists(file_path):  # Avoid re-downloading
-#             print(f"Downloading {filename}...")
-#             response = requests.get(url, stream=True)
-#             if response.status_code == 200:
-#                 with open(file_path, "wb") as f:
-#                     for chunk in response.iter_content(chunk_size=1024):
-#                         f.write(chunk)
-#                 print(f"Downloaded: {filename}")
-#             else:
-#                 print(f"Failed to download {filename}")
-def download_model_files():
-    for filename, url in DROPBOX_LINKS.items():
-        file_path = os.path.join(bio_model_dir, filename)
-        print(f"Downloading {filename} (forcing overwrite)...")
-        response = requests.get(url, stream=True)
-        if response.status_code == 200:
-            with open(file_path, "wb") as f:
-                for chunk in response.iter_content(chunk_size=1024):
-                    f.write(chunk)
-            print(f"Downloaded: {filename}")
-        else:
-            print(f"Failed to download {filename}")
-# # 📥 Download models before starting
-# download_model_files()
-# # ✅ Load ProtTrans-BERT-BFD Model
-# print("Loading ProtTrans-BERT-BFD model...")
-# model = AutoModelForMaskedLM.from_pretrained(bio_model_dir)
-# tokenizer = AutoTokenizer.from_pretrained(bio_model_dir)
-##
-### ✅ Load Bio-Embedding Model
-##try:
-##    print("Loading ProtTrans-BERT-BFD model...")
-##    embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-##except Exception as e:
-##    print(f"Error loading ProtTrans-BERT-BFD model: {e}")
-##    embedder = None
-##
-### 🧬 Generate Bio-Embeddings
-##def generate_bio_embeddings(sequence):
-##    if embedder is None:
-##        return None
-##    try:
-##        embedding_protein = embedder.embed(sequence)
-##        embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-##        return np.array(embedding_per_protein).reshape(1, -1)
-##    except Exception as e:
-##        print(f"Embedding Error: {e}")
-##        return None
-import torch
-from transformers import AutoTokenizer, AutoModel
-import re
-import numpy as np
-import torch.nn as nn
-# Load ESM2 model and tokenizer
 try:
     print("Loading ESM2 model...")
-    # Using a smaller model that is only ~200 MB
-    model_name = "facebook/esm2_t6_8M_UR50D"  # Smaller model with 320-dim embeddings
     tokenizer = AutoTokenizer.from_pretrained(bio_model_dir)
     model = AutoModel.from_pretrained(bio_model_dir)
@@ -116,7 +45,7 @@ except Exception as e:
     model = None
     tokenizer = None
-# Define a linear transformation to map 320D embeddings to 1024D
 class EmbeddingTransformer(nn.Module):
     def __init__(self, input_dim, output_dim):
         super(EmbeddingTransformer, self).__init__()
@@ -125,17 +54,9 @@ class EmbeddingTransformer(nn.Module):
     def forward(self, x):
         return self.linear(x)
-# Initialize the transformation layer
 transformer = EmbeddingTransformer(input_dim=320, output_dim=1024)
-# Function to clean protein sequence
-def clean_sequence(seq):
-    """
-    Clean the protein sequence by removing non-standard characters
-    and converting to uppercase.
-    """
-    return re.sub(r'[^ACDEFGHIKLMNPQRSTVWY]', '', seq.upper())
-# Function to generate embeddings from a protein sequence
 def generate_bio_embeddings(sequence):
     """
     Generate protein sequence embeddings using ESM2 model.
@@ -145,30 +66,27 @@ def generate_bio_embeddings(sequence):
         print("Model or tokenizer not loaded.")
         return None
-    #sequence = clean_sequence(sequence)
     if not sequence:
         print("Sequence is empty after cleaning.")
         return None
     try:
-        # Tokenize the sequence for ESM2 model
         inputs = tokenizer(sequence, return_tensors="pt", add_special_tokens=True)
-        # Pass the tokenized input through the ESM2 model to get embeddings
         with torch.no_grad():
             outputs = model(**inputs)
-        # Extract the last hidden state (embeddings) and average across the sequence length
-        embeddings = outputs.last_hidden_state  # shape: (batch_size, seq_len, 320)
-        mean_embedding = embeddings.mean(dim=1).squeeze()  # shape: (320,)
-        # Map the 320-dimensional embedding to a 1024-dimensional space using the transformer
         transformed_embedding = transformer(mean_embedding)
-        # Detach the tensor from the computation graph and convert to numpy
         transformed_embedding = transformed_embedding.detach().numpy()
-        # Return the transformed embedding as a 2D numpy array (1, 1024)
         return transformed_embedding.reshape(1, -1)
     except Exception as e:
@@ -176,7 +94,7 @@ def generate_bio_embeddings(sequence):
         return None
-# 🔬 Generate SMILES from Protein Sequence
 def generate_smiles(sequence, n_samples=100):
     start_time = time.time()
@@ -202,7 +120,7 @@ def generate_smiles(sequence, n_samples=100):
     elapsed_time = time.time() - start_time
     return filename, elapsed_time
-# 🌐 Flask Web App
 app = Flask(__name__)
 @app.route("/", methods=["GET", "POST"])
@@ -225,949 +143,9 @@ def download_file():
     file_path = os.path.join(UF, "SMILES_GENERATED.txt")
     return send_file(file_path, as_attachment=True)
-# 🚀 Run the Flask App on Railway
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)
-# import os
-# import time
-# import requests
-# import numpy as np
-# import subprocess
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from transformers import AutoModel
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# # DROPBOX LINKS FOR MODEL FILES
-# DROPBOX_LINKS = {
-#     "pytorch_model.bin": "https://www.dropbox.com/scl/fi/b41t8c6ji7j6uk5y2jj8g/pytorch_model.bin?rlkey=kuuwkid36ugml560c4a465ilr&st=t60bfemx&dl=1",
-#     "config.json": "https://www.dropbox.com/scl/fi/js6czj3kfc4a5kshfkzie/config.json?rlkey=5oysq4ecilnan5tviuqe86v93&st=75zpce8h&dl=1",
-#     "tokenizer_config.json": "https://www.dropbox.com/scl/fi/x11poym6mueoxod7xb6f1/tokenizer_config.json?rlkey=s51pik2rkmqp1fu99qj9qaria&st=z9kkcxp7&dl=1",
-#     "vocab.txt": "https://www.dropbox.com/scl/fi/v6e2gn10ck4lpx4iv9kpe/vocab.txt?rlkey=dcu29g5ns4wtqdv0pkks0ehx1&st=qt187rhq&dl=1",
-#     "special_tokens_map.json": "https://www.dropbox.com/scl/fi/t3lvmp5x28d1zjac3j7ec/special_tokens_map.json?rlkey=z2xbompa54iu4y9qgb5bvmfc9&st=zrxlpjdt&dl=1"
-# }
-# # LOCAL DIRECTORIES
-# bio_model_dir = os.path.join(os.getcwd(), "modelsBioembed")
-# cvn_model_dir = os.path.join(os.getcwd(), "models_folder")
-# UPLOAD_FOLDER = "Samples"
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# os.makedirs(UPLOAD_FOLDER, exist_ok=True)
-# os.environ["TMPDIR"] = bio_model_dir
-# os.environ["TEMP"] = bio_model_dir
-# os.environ["TMP"] = bio_model_dir
-# # FUNCTION TO DOWNLOAD FILES FROM DROPBOX
-# for file_name, url in DROPBOX_LINKS.items():
-#     file_path = os.path.join(bio_model_dir, file_name)
-#     if not os.path.exists(file_path):
-#         print(f"Downloading {file_name} from Dropbox...")
-#         subprocess.run(["wget", "-O", file_path, url], check=True)
-#         print(f"{file_name} downloaded!")
-# # BIO-EMBEDDING MODEL LOADING
-# try:
-#     embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-# except Exception as e:
-#     print(f"Error loading ProtTrans-BERT-BFD model: {e}")
-#     embedder = None
-# def generate_bio_embeddings(sequence):
-#     if embedder is None:
-#         return None
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# def generate_smiles(sequence, n_samples=100):
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     filename = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# app = Flask(__name__)
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000, debug=True)
-# import os
-# import time
-# import numpy as np
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from transformers import AutoModel
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# # # DIRECTORIES
-# # bio_model_dir = os.path.join(os.getcwd(), "modelsBioembed")  # For bio-embeddings
-# # cvn_model_dir = os.path.join(os.getcwd(), "models_folder")  # For CVanilla_RNN_Builder
-# #bio_model_dir = os.getenv("BIO_MODEL_DIR", "modelsBioembed")
-# bio_model_dir = "/app/modelsBioembed"
-# cvn_model_dir = os.getenv("CVN_MODEL_DIR", "models_folder")
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# os.environ["TMPDIR"] = bio_model_dir
-# os.environ["TEMP"] = bio_model_dir
-# os.environ["TMP"] = bio_model_dir
-# UPLOAD_FOLDER = "Samples"
-# os.makedirs(UPLOAD_FOLDER, exist_ok=True)
-# app = Flask(__name__)
-# # model_path = os.path.join(bio_model_dir, "pytorch_model.bin")
-# # if not os.path.exists(model_path):
-# #     print("Downloading ProtTrans-BERT-BFD model...")
-# #     AutoModel.from_pretrained("Rostlab/prot_bert_bfd", low_cpu_mem_usage=True).save_pretrained(bio_model_dir)
-# # BIO-EMBEDDING MODEL LOADING
-# try:
-#     print("Loading Model")
-#     embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-# except Exception as e:
-#     print(f"Error loading ProtTrans-BERT-BFD model: {e}")
-#     embedder = None
-# def generate_bio_embeddings(sequence):
-#     """Generate bio-embeddings for a given protein sequence."""
-#     if embedder is None:
-#         return None
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)  # Reshape for model compatibility
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# def generate_smiles(sequence, n_samples=100):
-#     """Generate SMILES from a protein sequence."""
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     # TRAINED CVanilla_RNN_Builder MODEL LOADING
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     # MOLECULAR GRAPH GENERATION
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     # CONVERSION TO SMILES
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     # SAVING TO FILE
-#     filename = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000)
-#MAIN
-# import os
-# import time
-# import requests
-# import numpy as np
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from transformers import AutoModel
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# # HUGGING FACE MODEL REPO (Replace with your actual Hugging Face username)
-# MODEL_BASE_URL = "https://huggingface.co/Bhanushray/protein-smiles-model/tree/main"
-# # REQUIRED MODEL FILES
-# MODEL_FILES = [
-#     "pytorch_model.bin",
-#     "config.json",
-#     "tokenizer_config.json",
-#     "vocab.txt",
-#     "special_tokens_map.json"
-# ]
-# #  DIRECTORIES
-# bio_model_dir = os.getenv("BIO_MODEL_DIR", "modelsBioembed")
-# cvn_model_dir = os.getenv("CVN_MODEL_DIR", "models_folder")
-# # bio_model_dir = os.path.join(os.getcwd(), "modelsBioembed")  # For bio-embeddings
-# # cvn_model_dir = os.path.join(os.getcwd(), "models_folder")  # For CVanilla_RNN_Builder
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# os.environ["TMPDIR"] = bio_model_dir
-# os.environ["TEMP"] = bio_model_dir
-# os.environ["TMP"] = bio_model_dir
-# UPLOAD_FOLDER = "Samples"
-# os.makedirs(UPLOAD_FOLDER, exist_ok=True)
-# app = Flask(__name__)
-# #  DOWNLOAD MODEL FILES IF MISSING
-# for file_name in MODEL_FILES:
-#     file_path = os.path.join(bio_model_dir, file_name)
-#     if not os.path.exists(file_path):
-#         print(f"Downloading {file_name} ...")
-#         response = requests.get(MODEL_BASE_URL + file_name, stream=True)
-#         with open(file_path, "wb") as f:
-#             for chunk in response.iter_content(chunk_size=1024):
-#                 f.write(chunk)
-#         print(f"{file_name} downloaded!")
-# # BIO-EMBEDDING MODEL LOADING
-# try:
-#     embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-# except Exception as e:
-#     print(f"Error loading ProtTrans-BERT-BFD model: {e}")
-#     embedder = None
-# def generate_bio_embeddings(sequence):
-#     """Generate bio-embeddings for a given protein sequence."""
-#     if embedder is None:
-#         return None
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)  # Reshape for model compatibility
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# def generate_smiles(sequence, n_samples=100):
-#     """Generate SMILES from a protein sequence."""
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     # LOAD TRAINED CVanilla_RNN_Builder MODEL
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     # MOLECULAR GRAPH GENERATION
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     #  CONVERT TO SMILES
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     # SAVE TO FILE
-#     filename = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000, debug=True)
-# import os
-# import time
-# import numpy as np
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from transformers import AutoModel
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# # DIRECTORIES
-# bio_model_dir = os.path.join(os.getcwd(), "modelsBioembed")  # For bio-embeddings
-# cvn_model_dir = os.path.join(os.getcwd(), "models_folder")  # For CVanilla_RNN_Builder
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# os.environ["TMPDIR"] = bio_model_dir
-# os.environ["TEMP"] = bio_model_dir
-# os.environ["TMP"] = bio_model_dir
-# UPLOAD_FOLDER = "Samples"
-# os.makedirs(UPLOAD_FOLDER, exist_ok=True)
-# app = Flask(__name__)
-# model_path = os.path.join(bio_model_dir, "pytorch_model.bin")
-# if not os.path.exists(model_path):
-#     print("Downloading ProtTrans-BERT-BFD model...")
-#     AutoModel.from_pretrained("Rostlab/prot_bert_bfd", low_cpu_mem_usage=True).save_pretrained(bio_model_dir)
-# # BIO-EMBEDDING MODEL LOADING
-# try:
-#     embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-# except Exception as e:
-#     print(f"Error loading ProtTrans-BERT-BFD model: {e}")
-#     embedder = None
-# def generate_bio_embeddings(sequence):
-#     """Generate bio-embeddings for a given protein sequence."""
-#     if embedder is None:
-#         return None
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)  # Reshape for model compatibility
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# def generate_smiles(sequence, n_samples=100):
-#     """Generate SMILES from a protein sequence."""
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     # TRAINED CVanilla_RNN_Builder MODEL LOADING
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     # MOLECULAR GRAPH GENERATION
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     # CONVERSION TO SMILES
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     # SAVING TO FILE
-#     filename = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000,debug=True)
-# import os
-# import time
-# import numpy as np
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from transformers import AutoModel
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# from huggingface_hub import hf_hub_download  # Import for direct file download
-# # Define directories for different models
-# bio_model_dir = os.path.join(os.getcwd(), "modelsBioembed")  # For bio-embeddings
-# cvn_model_dir = os.path.join(os.getcwd(), "models_folder")  # For CVanilla_RNN_Builder
-# # Ensure directories exist
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# UPLOAD_FOLDER = "Samples"
-# os.makedirs(UPLOAD_FOLDER, exist_ok=True)
-# app = Flask(__name__)
-# # Download only the required pytorch_model.bin file
-# model_filename = "pytorch_model.bin"
-# model_path = os.path.join(bio_model_dir, model_filename)
-# if not os.path.exists(model_path):
-#     print("Downloading pytorch_model.bin from Hugging Face...")
-#     hf_hub_download(repo_id="Rostlab/prot_bert_bfd", filename=model_filename, local_dir=bio_model_dir)
-# # Load bio-embedding model once
-# embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-# def generate_bio_embeddings(sequence):
-#     """Generate bio-embeddings for a given protein sequence."""
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# def generate_smiles(sequence, n_samples=100):
-#     """Generate SMILES from a protein sequence."""
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     filename = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000, debug=True)
-# import os
-# import time
-# import requests
-# import numpy as np
-# import gdown  # NEW: For Google Drive downloads
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from transformers import AutoModel
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# # REPLACE WITH YOUR GOOGLE DRIVE FILE IDs
-# GDRIVE_FILE_IDS = {
-#     "pytorch_model.bin": "11g7bAXYNxlPsnwC8_qsUIZITAjG85JXb",  # Replace with actual ID
-#     "config.json": "1ZfuhTnEuKAI1Z92m1QnDTOEQYNe9y24E",
-#     "tokenizer_config.json": "1r4ncUsWBNQZVKp4zw97DLTf0AgRUiuFc",
-#     "vocab.txt": "1G1UQIGMHvCC3OokCG1tl-cTxjIVqw04w",
-#     "special_tokens_map.json": "1pINnV2P1eBmaC7X0A52UhjrmlJgzxqbl"
-# }
-# # LOCAL DIRECTORIES
-# bio_model_dir = os.path.join(os.getcwd(), "modelsBioembed")  # For bio-embeddings
-# cvn_model_dir = os.path.join(os.getcwd(), "models_folder")  # For CVanilla_RNN_Builder
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# os.environ["TMPDIR"] = bio_model_dir
-# os.environ["TEMP"] = bio_model_dir
-# os.environ["TMP"] = bio_model_dir
-# UPLOAD_FOLDER = "Samples"
-# os.makedirs(UPLOAD_FOLDER, exist_ok=True)
-# app = Flask(__name__)
-# # DOWNLOAD MODEL FILES IF MISSING
-# for file_name, file_id in GDRIVE_FILE_IDS.items():
-#     file_path = os.path.join(bio_model_dir, file_name)
-#     if not os.path.exists(file_path):
-#         print(f"Downloading {file_name} from Google Drive...")
-#         gdown.download(f"https://drive.google.com/uc?id={file_id}", file_path, quiet=False)
-#         print(f"{file_name} downloaded!")
-# # BIO-EMBEDDING MODEL LOADING
-# try:
-#     embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-# except Exception as e:
-#     print(f"Error loading ProtTrans-BERT-BFD model: {e}")
-#     embedder = None
-# def generate_bio_embeddings(sequence):
-#     """Generate bio-embeddings for a given protein sequence."""
-#     if embedder is None:
-#         return None
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)  # Reshape for model compatibility
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# def generate_smiles(sequence, n_samples=100):
-#     """Generate SMILES from a protein sequence."""
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     # LOAD TRAINED CVanilla_RNN_Builder MODEL
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     # MOLECULAR GRAPH GENERATION
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     # CONVERT TO SMILES
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     # SAVE TO FILE
-#     filename = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(UPLOAD_FOLDER, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000, debug=True)
-# import os
-# import time
-# import gdown
-# import numpy as np
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# # DIRECTORIES
-# bio_model_dir = "/app/modelsBioembed"
-# cvn_model_dir = os.getenv("CVN_MODEL_DIR", "models_folder")
-# upload_folder = "Samples"
-# # Create directories if they don't exist
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# os.makedirs(upload_folder, exist_ok=True)
-# # Google Drive file IDs for the model files
-# MODEL_FILES = {
-#     "pytorch_model.bin": "1Z9XWk-kP5yrBRdBF_mQPQsM8drqQXafJ",
-#     "config.json": "1adE428T5ZWeosoLsBeX7sVnn6m4VvVgL",
-#     "tokenizer_config.json": "1USvLAZ3dM4TzVSRLjINk2_W989k1HDQ0",
-#     "vocab.txt": "1tsdesfbr61UyLShV0ojvsXOp6VJ9Exrt",
-#     "special_tokens_map.json": "1ChCwdz0NH8ODasqscGwCS9mY7urhQte2",
-# }
-# # Function to download missing files from Google Drive
-# def download_model_files():
-#     for filename, file_id in MODEL_FILES.items():
-#         file_path = os.path.join(bio_model_dir, filename)
-#         if not os.path.exists(file_path):
-#             print(f"Downloading {filename} from Google Drive...")
-#             gdown.download(f"https://drive.google.com/uc?id={file_id}", file_path, quiet=False)
-# # Download required model files
-# download_model_files()
-# print("All model files are ready!")
-# # Load the ProtTrans-BERT-BFD Model
-# try:
-#     embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-#     print("ProtTrans-BERT-BFD model loaded successfully!")
-# except Exception as e:
-#     print(f"Error loading model: {e}")
-#     embedder = None
-# # Function to generate protein embeddings
-# def generate_bio_embeddings(sequence):
-#     if embedder is None:
-#         return None
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# # Function to generate SMILES from a protein sequence
-# def generate_smiles(sequence, n_samples=100):
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     # Load the trained CVanilla_RNN_Builder model
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     # Generate molecular graphs
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     # Convert to SMILES format
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     # Save SMILES to a file
-#     filename = os.path.join(upload_folder, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# # Initialize Flask App
-# app = Flask(__name__)
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(upload_folder, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000)
-# import os
-# import time
-# import requests
-# from flask import Flask, render_template, request, send_file
-# from rdkit import Chem
-# from bio_embeddings.embed import ProtTransBertBFDEmbedder
-# from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
-# # DIRECTORIES
-# bio_model_dir = "/app/modelsBioembed"
-# cvn_model_dir = os.getenv("CVN_MODEL_DIR", "models_folder")
-# upload_folder = "Samples"
-# # Create directories if they don't exist
-# os.makedirs(bio_model_dir, exist_ok=True)
-# os.makedirs(cvn_model_dir, exist_ok=True)
-# os.makedirs(upload_folder, exist_ok=True)
-# # Google Drive file IDs for the model files
-# MODEL_FILES = {
-#     "pytorch_model.bin": "1Z9XWk-kP5yrBRdBF_mQPQsM8drqQXafJ",
-#     "config.json": "1adE428T5ZWeosoLsBeX7sVnn6m4VvVgL",
-#     "tokenizer_config.json": "1USvLAZ3dM4TzVSRLjINk2_W989k1HDQ0",
-#     "vocab.txt": "1tsdesfbr61UyLShV0ojvsXOp6VJ9Exrt",
-#     "special_tokens_map.json": "1ChCwdz0NH8ODasqscGwCS9mY7urhQte2",
-# }
-# # Function to download a file from Google Drive
-# def download_file_from_google_drive(file_id, destination):
-#     URL = f"https://drive.google.com/uc?export=download&id={file_id}"
-#     session = requests.Session()
-#     response = session.get(URL, stream=True)
-#     # Check if the request was successful
-#     if response.status_code == 200:
-#         with open(destination, "wb") as f:
-#             for chunk in response.iter_content(chunk_size=128):
-#                 f.write(chunk)
-#         print(f"Downloaded {destination}")
-#     else:
-#         print(f"Failed to download {destination}")
-# # Function to download missing files from Google Drive
-# def download_model_files():
-#     for filename, file_id in MODEL_FILES.items():
-#         file_path = os.path.join(bio_model_dir, filename)
-#         if not os.path.exists(file_path):
-#             print(f"Downloading {filename} from Google Drive...")
-#             download_file_from_google_drive(file_id, file_path)
-# # Download required model files
-# download_model_files()
-# print("All model files are ready!")
-# # Load the ProtTrans-BERT-BFD Model
-# try:
-#     embedder = ProtTransBertBFDEmbedder(model_directory=bio_model_dir)
-#     print("ProtTrans-BERT-BFD model loaded successfully!")
-# except Exception as e:
-#     print(f"Error loading model: {e}")
-#     embedder = None
-# # Function to generate protein embeddings
-# def generate_bio_embeddings(sequence):
-#     if embedder is None:
-#         return None
-#     try:
-#         embedding_protein = embedder.embed(sequence)
-#         embedding_per_protein = embedder.reduce_per_protein(embedding_protein)
-#         return np.array(embedding_per_protein).reshape(1, -1)
-#     except Exception as e:
-#         print(f"Embedding Error: {e}")
-#         return None
-# # Function to generate SMILES from a protein sequence
-# def generate_smiles(sequence, n_samples=100):
-#     start_time = time.time()
-#     protein_embedding = generate_bio_embeddings(sequence)
-#     if protein_embedding is None:
-#         return None, "Embedding generation failed!"
-#     # Load the trained CVanilla_RNN_Builder model
-#     model = CVanilla_RNN_Builder(cvn_model_dir, gpu_id=None)
-#     # Generate molecular graphs
-#     samples = model.sample(n_samples, c=protein_embedding[0], output_type='graph')
-#     valid_samples = [sample for sample in samples if sample is not None]
-#     # Convert to SMILES format
-#     smiles_list = [
-#         Chem.MolToSmiles(mol) for mol in get_mol_from_graph_list(valid_samples, sanitize=True) if mol is not None
-#     ]
-#     if not smiles_list:
-#         return None, "No valid SMILES generated!"
-#     # Save SMILES to a file
-#     filename = os.path.join(upload_folder, "SMILES_GENERATED.txt")
-#     with open(filename, "w") as file:
-#         file.write("\n".join(smiles_list))
-#     elapsed_time = time.time() - start_time
-#     return filename, elapsed_time
-# # Initialize Flask App
-# app = Flask(__name__)
-# @app.route("/", methods=["GET", "POST"])
-# def index():
-#     if request.method == "POST":
-#         sequence = request.form["sequence"].strip()
-#         if not sequence:
-#             return render_template("index.html", message="Please enter a valid sequence.")
-#         file_path, result = generate_smiles(sequence)
-#         if file_path is None:
-#             return render_template("index.html", message=f"Error: {result}")
-#         return render_template("index.html", message="SMILES generated successfully!", file_path=file_path, time_taken=result)
-#     return render_template("index.html")
-# @app.route("/download")
-# def download_file():
-#     file_path = os.path.join(upload_folder, "SMILES_GENERATED.txt")
-#     return send_file(file_path, as_attachment=True)
-# if __name__ == "__main__":
-#     app.run(host="0.0.0.0", port=8000)

 from rdkit import Chem
 from transformers import AutoModelForMaskedLM, AutoTokenizer
 from modelstrc import CVanilla_RNN_Builder, get_mol_from_graph_list
 from transformers import AutoModel, AutoTokenizer
 import torch
 import re
+import torch.nn as nn
+# DIRECTORIES
+bio_model_dir = "/app/modelsBioembedSmall"
 cvn_model_dir = "/app/models_folder"
 UPLOAD_FOLDER = "/app/Samples"
 UF="/tmp/"
 os.makedirs(cvn_model_dir, exist_ok=True)
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
+# ENV VARIABLES
 os.environ["TMPDIR"] = bio_model_dir
 os.environ["TEMP"] = bio_model_dir
 os.environ["TMP"] = bio_model_dir
 os.environ['TRANSFORMERS_CACHE'] = '/app/hf_cache'
+# ESM2 MODEL AND TOKENIZER
 try:
     print("Loading ESM2 model...")
+    model_name = "facebook/esm2_t6_8M_UR50D"  # Smaller model with 320-dim embedding
     tokenizer = AutoTokenizer.from_pretrained(bio_model_dir)
     model = AutoModel.from_pretrained(bio_model_dir)
     model = None
     tokenizer = None
+# linear transformation to map 320D embeddings to 1024D
 class EmbeddingTransformer(nn.Module):
     def __init__(self, input_dim, output_dim):
         super(EmbeddingTransformer, self).__init__()
     def forward(self, x):
         return self.linear(x)
 transformer = EmbeddingTransformer(input_dim=320, output_dim=1024)
+# UDF TO GENERATE EMBEDDINGS
 def generate_bio_embeddings(sequence):
     """
     Generate protein sequence embeddings using ESM2 model.
         print("Model or tokenizer not loaded.")
         return None
     if not sequence:
         print("Sequence is empty after cleaning.")
         return None
     try:
         inputs = tokenizer(sequence, return_tensors="pt", add_special_tokens=True)
         with torch.no_grad():
             outputs = model(**inputs)
+        embeddings = outputs.last_hidden_state
+        mean_embedding = embeddings.mean(dim=1).squeeze()
         transformed_embedding = transformer(mean_embedding)
         transformed_embedding = transformed_embedding.detach().numpy()
         return transformed_embedding.reshape(1, -1)
     except Exception as e:
         return None
+# UDF FOR SMILES GENERATION
 def generate_smiles(sequence, n_samples=100):
     start_time = time.time()
     elapsed_time = time.time() - start_time
     return filename, elapsed_time
 app = Flask(__name__)
 @app.route("/", methods=["GET", "POST"])
     file_path = os.path.join(UF, "SMILES_GENERATED.txt")
     return send_file(file_path, as_attachment=True)
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)