Spaces:

rasayan-labs
/

rasayan-tox21

Sleeping

root commited on Jan 31

Commit

0024d0e

0 Parent(s):

Initial commit: Rasayan Tox21 SNN Ensemble

- 10-fold SNN ensemble for Tox21 toxicity prediction
- 11,369 molecular features (ECFP6, MACCS, RDKit, toxicophores, similarity)
- FastAPI with /metadata and /predict endpoints
- 40-fold CV AUC: 0.882

Files changed (12) hide show

.gitattributes +2 -0
Dockerfile +23 -0
README.md +165 -0
app.py +118 -0
checkpoints/ensemble.pt +3 -0
data/target_ligands_validated.json +1228 -0
data/toxicophores_validated.json +0 -0
requirements.txt +7 -0
src/__init__.py +7 -0
src/ensemble.py +78 -0
src/features.py +457 -0
src/model.py +33 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ *.pt filter=lfs diff=lfs merge=lfs -text
2	+ checkpoints/ensemble.pt filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,23 @@

+FROM python:3.11-slim
+WORKDIR /app
+RUN apt-get update && apt-get install -y \
+    libxrender1 \
+    libxext6 \
+    && rm -rf /var/lib/apt/lists/*
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+EXPOSE 7860
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

README.md ADDED Viewed

	@@ -0,0 +1,165 @@

+---
+title: Rasayan Tox21 Classifier
+emoji: ☠️
+colorFrom: red
+colorTo: purple
+sdk: docker
+app_port: 7860
+pinned: false
+license: apache-2.0
+short_description: SNN ensemble for Tox21 toxicity prediction
+tags:
+  - toxicity
+  - tox21
+  - drug-discovery
+  - chemistry
+  - snn
+  - molecular-property-prediction
+---
+# Rasayan Tox21 Classifier
+<p align="center">
+  <img src="https://img.shields.io/badge/Tox21-Challenge-red" alt="Tox21">
+  <img src="https://img.shields.io/badge/Architecture-SNN-blue" alt="SNN">
+  <img src="https://img.shields.io/badge/Endpoints-12-green" alt="12 Endpoints">
+  <img src="https://img.shields.io/badge/License-Apache_2.0-yellow" alt="License">
+</p>
+A production-ready **Self-Normalizing Neural Network (SNN) ensemble** for predicting molecular toxicity across the 12 Tox21 Challenge endpoints. Built for the [ml-jku Tox21 Leaderboard](https://huggingface.co/spaces/ml-jku/tox21_leaderboard).
+## Model Overview
+| Property | Value |
+|----------|-------|
+| **Architecture** | 10-fold ensemble of SNNs |
+| **Parameters** | ~19M total |
+| **Hidden Layers** | 8 layers × 768 units |
+| **Activation** | SELU + AlphaDropout |
+| **Training** | 300 epochs, 40-fold CV |
+| **CV AUC** | 0.882 ± 0.021 |
+## Molecular Features (11,369 total)
+| Feature Type | Dimensions | Description |
+|--------------|------------|-------------|
+| **ECFP6** | 8,192 | Extended-connectivity fingerprints (radius 3) |
+| **MACCS Keys** | 167 | Structural keys for substructure screening |
+| **RDKit Descriptors** | 208 | Physicochemical properties (LogP, TPSA, MW, etc.) |
+| **Toxicophores** | 1,868 | SMARTS-based toxicity structural alerts |
+| **Target Similarity** | 934 | Tanimoto similarity to known receptor ligands |
+## Training Details
+- **Loss Function**: Focal Loss (γ=2.5, α=0.25) for class imbalance
+- **Regularization**: Label smoothing (0.1), Mixup augmentation (α=0.2)
+- **Feature Selection**: Variance-based selection per fold (ECFP, toxicophores)
+- **Normalization**: SquashScaler (StandardScaler → tanh → StandardScaler)
+- **Ensemble Selection**: Top-10 folds from 40-fold stratified CV
+## Tox21 Endpoints
+### Nuclear Receptor Panel
+| Endpoint | Target | Biological Significance |
+|----------|--------|------------------------|
+| **NR-AR** | Androgen Receptor | Male reproductive toxicity |
+| **NR-AR-LBD** | AR Ligand Binding Domain | Direct AR modulation |
+| **NR-AhR** | Aryl Hydrocarbon Receptor | Dioxin-like toxicity, carcinogenesis |
+| **NR-Aromatase** | CYP19A1 Enzyme | Estrogen synthesis disruption |
+| **NR-ER** | Estrogen Receptor | Endocrine disruption |
+| **NR-ER-LBD** | ER Ligand Binding Domain | Direct ER modulation |
+| **NR-PPAR-gamma** | PPARγ | Metabolic disruption |
+### Stress Response Panel
+| Endpoint | Target | Biological Significance |
+|----------|--------|------------------------|
+| **SR-ARE** | Antioxidant Response Element | Oxidative stress |
+| **SR-ATAD5** | ATAD5 | DNA damage response |
+| **SR-HSE** | Heat Shock Element | Protein folding stress |
+| **SR-MMP** | Mitochondrial Membrane Potential | Mitochondrial toxicity |
+| **SR-p53** | Tumor Protein p53 | Genotoxicity |
+## API Endpoints
+| Endpoint | Method | Description |
+|----------|--------|-------------|
+| `/metadata` | GET | Model configuration and capabilities |
+| `/predict` | POST | Toxicity predictions for SMILES |
+| `/health` | GET | Health check |
+## Usage
+### Python
+```python
+import requests
+response = requests.post(
+    "https://aarshit-mittal-rasayan-tox21.hf.space/predict",
+    json={"smiles": ["CC(=O)Nc1ccc(O)cc1", "c1ccccc1"]}
+)
+predictions = response.json()["predictions"]
+for smiles, scores in predictions.items():
+    print(f"{smiles}:")
+    for target, prob in sorted(scores.items(), key=lambda x: -x[1])[:3]:
+        print(f"  {target}: {prob:.1%}")
+```
+### cURL
+```bash
+curl -X POST "https://aarshit-mittal-rasayan-tox21.hf.space/predict" \
+  -H "Content-Type: application/json" \
+  -d '{"smiles": ["CCO", "c1ccccc1"]}'
+```
+## Response Format
+```json
+{
+  "predictions": {
+    "CCO": {
+      "NR-AR": 0.041,
+      "NR-AR-LBD": 0.040,
+      "NR-AhR": 0.049,
+      "NR-Aromatase": 0.078,
+      "NR-ER": 0.133,
+      "NR-ER-LBD": 0.076,
+      "NR-PPAR-gamma": 0.058,
+      "SR-ARE": 0.100,
+      "SR-ATAD5": 0.038,
+      "SR-HSE": 0.066,
+      "SR-MMP": 0.082,
+      "SR-p53": 0.052
+    }
+  },
+  "model_info": {
+    "name": "Rasayan Tox21 SNN Ensemble",
+    "version": "1.0.0"
+  }
+}
+```
+## Interpretation Guide
+| Probability | Risk Level | Recommendation |
+|-------------|------------|----------------|
+| < 0.2 | Minimal | Unlikely to be active |
+| 0.2 - 0.4 | Low | Monitor for chronic exposure |
+| 0.4 - 0.7 | Moderate | Further investigation warranted |
+| ≥ 0.7 | High | Strong toxicity signal |
+## References
+- **Tox21 Challenge**: [NIH Tox21 Data Challenge](https://tripod.nih.gov/tox21/challenge/)
+- **SNN Architecture**: [Klambauer et al., 2017](https://arxiv.org/abs/1706.02515)
+- **Leaderboard**: [ml-jku Tox21 Leaderboard](https://huggingface.co/spaces/ml-jku/tox21_leaderboard)
+## License
+Apache 2.0
+---
+<p align="center">
+  Built by <a href="https://rasayan.ai">Rasayan Labs</a>
+</p>

app.py ADDED Viewed

	@@ -0,0 +1,118 @@

+import sys
+from pathlib import Path
+from typing import List, Dict, Any
+ROOT = Path(__file__).parent
+sys.path.insert(0, str(ROOT))
+from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel, Field
+import numpy as np
+from src import EnhancedFeatureExtractor, Tox21Ensemble
+app = FastAPI(
+    title="Rasayan Tox21 Classifier",
+    description="Self-Normalizing Neural Network ensemble for Tox21 toxicity prediction",
+    version="1.0.0"
+)
+TASKS = [
+    "NR-AR", "NR-AR-LBD", "NR-AhR", "NR-Aromatase", "NR-ER", "NR-ER-LBD",
+    "NR-PPAR-gamma", "SR-ARE", "SR-ATAD5", "SR-HSE", "SR-MMP", "SR-p53"
+]
+FEATURE_KEYS = [
+    "ecfps", "maccs", "rdkit_descrs", "tox", "rdkit_filters",
+    "similarity", "max_similarity", "db_similarity"
+]
+MAX_BATCH_SIZE = 256
+print("Loading model...")
+extractor = EnhancedFeatureExtractor(
+    toxicophores_path=ROOT / "data" / "toxicophores_validated.json",
+    db_ligands_path=ROOT / "data" / "target_ligands_validated.json",
+)
+ensemble = Tox21Ensemble(ROOT / "checkpoints" / "ensemble.pt")
+print("Model loaded successfully!")
+class PredictRequest(BaseModel):
+    smiles: List[str] = Field(..., min_length=1, max_length=1000)
+class PredictResponse(BaseModel):
+    predictions: Dict[str, Dict[str, float]]
+    model_info: Dict[str, Any]
+class MetadataResponse(BaseModel):
+    model_name: str
+    version: str
+    max_batch_size: int
+    tox_endpoints: List[str]
+    description: str
+@app.get("/metadata", response_model=MetadataResponse)
+def get_metadata():
+    return {
+        "model_name": "Rasayan Tox21 SNN Ensemble",
+        "version": "1.0.0",
+        "max_batch_size": MAX_BATCH_SIZE,
+        "tox_endpoints": TASKS,
+        "description": "10-fold ensemble of Self-Normalizing Neural Networks trained on Tox21 Challenge data. Features: ECFP6, MACCS, RDKit descriptors, toxicophores, and target similarity."
+    }
+@app.post("/predict", response_model=PredictResponse)
+def predict(request: PredictRequest):
+    smiles_list = request.smiles
+    if len(smiles_list) > 1000:
+        raise HTTPException(status_code=400, detail="Maximum 1000 SMILES per request")
+    if len(smiles_list) == 0:
+        raise HTTPException(status_code=400, detail="At least 1 SMILES required")
+    try:
+        features_dict, valid = extractor.extract_features(smiles_list)
+        features = np.concatenate(
+            [features_dict[k] for k in FEATURE_KEYS if k in features_dict],
+            axis=1
+        )
+        features = np.nan_to_num(features, nan=0.0, posinf=0.0, neginf=0.0)
+        probs = ensemble.predict(features)
+        predictions = {}
+        for i, smi in enumerate(smiles_list):
+            if valid[i]:
+                predictions[smi] = {
+                    task: float(probs[i, j]) for j, task in enumerate(TASKS)
+                }
+            else:
+                predictions[smi] = {task: 0.5 for task in TASKS}
+        return {
+            "predictions": predictions,
+            "model_info": {
+                "name": "Rasayan Tox21 SNN Ensemble",
+                "version": "1.0.0"
+            }
+        }
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+@app.get("/health")
+def health():
+    return {"status": "ok"}
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)

checkpoints/ensemble.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9fb42a747fea42436c174c211983782987b706f44b75d6f7cfd02e3f5ebfa4a
+size 191696311

data/target_ligands_validated.json ADDED Viewed

	@@ -0,0 +1,1228 @@

+{
+  "NR-AR": [
+    {
+      "name": "TESTOSTERONE ENANTHATE",
+      "smiles": "CCCCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1200335",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "NANDROLONE PHENPROPIONATE",
+      "smiles": "C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@H]43)[C@@H]1CC[C@@H]2OC(=O)CCc1ccccc1",
+      "chembl_id": "CHEMBL1200412",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "OXYMETHOLONE",
+      "smiles": "C[C@]12C/C(=C/O)C(=O)C[C@@H]1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1200585",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "ETHYLESTRENOL",
+      "smiles": "CC[C@]1(O)CC[C@H]2[C@@H]3CCC4=CCCC[C@@H]4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1200623",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "NANDROLONE DECANOATE",
+      "smiles": "CCCCCCCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@@H]4[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1200946",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "ENOBOSARM",
+      "smiles": "C[C@](O)(COc1ccc(C#N)cc1)C(=O)Nc1ccc(C#N)c(C(F)(F)F)c1",
+      "chembl_id": "CHEMBL1738889",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "PRUXELUTAMIDE",
+      "smiles": "CC1(C)C(=O)N(c2ccc(C#N)c(C(F)(F)F)c2F)C(=S)N1c1ccc(CCCc2ncco2)nc1",
+      "chembl_id": "CHEMBL4594417",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE PROPIONATE",
+      "smiles": "CCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1170",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "FLUOXYMESTERONE",
+      "smiles": "C[C@]1(O)CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@@]3(F)[C@@H](O)C[C@@]21C",
+      "chembl_id": "CHEMBL1445",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "ENZALUTAMIDE",
+      "smiles": "CNC(=O)c1ccc(N2C(=S)N(c3ccc(C#N)c(C(F)(F)F)c3)C(=O)C2(C)C)cc1F",
+      "chembl_id": "CHEMBL1082407",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "STANOZOLOL",
+      "smiles": "C[C@]12Cc3c[nH]nc3C[C@@H]1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL2079587",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE UNDECANOATE",
+      "smiles": "CCCCCCCCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL2107067",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "DAROLUTAMIDE",
+      "smiles": "CC(O)c1cc(C(=O)N[C@@H](C)Cn2ccc(-c3ccc(C#N)c(Cl)c3)n2)n[nH]1",
+      "chembl_id": "CHEMBL4297185",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "BICALUTAMIDE",
+      "smiles": "CC(O)(CS(=O)(=O)c1ccc(F)cc1)C(=O)Nc1ccc(C#N)c(C(F)(F)F)c1",
+      "chembl_id": "CHEMBL409",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "FLUTAMIDE",
+      "smiles": "CC(C)C(=O)Nc1ccc([N+](=O)[O-])c(C(F)(F)F)c1",
+      "chembl_id": "CHEMBL806",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "NILUTAMIDE",
+      "smiles": "CC1(C)NC(=O)N(c2ccc([N+](=O)[O-])c(C(F)(F)F)c2)C1=O",
+      "chembl_id": "CHEMBL1274",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "METHYLTESTOSTERONE",
+      "smiles": "C[C@]12CCC(=O)C=C1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1395",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE",
+      "smiles": "C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C@@H]1CC[C@@H]2O",
+      "chembl_id": "CHEMBL386630",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "OXANDROLONE",
+      "smiles": "C[C@]12COC(=O)C[C@@H]1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1200436",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "DROMOSTANOLONE PROPIONATE",
+      "smiles": "CCC(=O)O[C@H]1CC[C@H]2[C@@H]3CC[C@H]4CC(=O)[C@H](C)C[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1201048",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE CYPIONATE",
+      "smiles": "C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C@@H]1CC[C@@H]2OC(=O)CCC1CCCC1",
+      "chembl_id": "CHEMBL1201101",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "METHANDROSTENOLONE",
+      "smiles": "C[C@]12C=CC(=O)C=C1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1418176",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "APALUTAMIDE",
+      "smiles": "CNC(=O)c1ccc(N2C(=S)N(c3cnc(C#N)c(C(F)(F)F)c3)C(=O)C23CCC3)cc1F",
+      "chembl_id": "CHEMBL3183409",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "CLASCOTERONE",
+      "smiles": "CCC(=O)O[C@]1(C(=O)CO)CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL3590187",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "SHR3680",
+      "smiles": "CC1(C)C(=O)N(c2ccc(C#N)c(C(F)(F)F)c2)C(=S)N1c1ccc(OC[C@@H](O)CO)cc1",
+      "chembl_id": "CHEMBL4650276",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "DANAZOL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCC4=Cc5oncc5C[C@]4(C)[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1479",
+      "targets": "Androgen Receptor,Progesterone receptor"
+    },
+    {
+      "name": "CYPROTERONE ACETATE",
+      "smiles": "CC(=O)O[C@]1(C(C)=O)CC[C@H]2[C@@H]3C=C(Cl)C4=CC(=O)[C@@H]5C[C@@H]5[C@]4(C)[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL139835",
+      "targets": "Androgen Receptor,Glucocorticoid receptor,Progesterone receptor"
+    },
+    {
+      "name": "GALETERONE",
+      "smiles": "C[C@]12CC[C@H](O)CC1=CC[C@@H]1[C@@H]2CC[C@]2(C)C(n3cnc4ccccc43)=CC[C@@H]12",
+      "chembl_id": "CHEMBL2105738",
+      "targets": "Androgen Receptor,Cytochrome P450 17A1"
+    }
+  ],
+  "NR-AR-LBD": [
+    {
+      "name": "TESTOSTERONE ENANTHATE",
+      "smiles": "CCCCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1200335",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "NANDROLONE PHENPROPIONATE",
+      "smiles": "C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@H]43)[C@@H]1CC[C@@H]2OC(=O)CCc1ccccc1",
+      "chembl_id": "CHEMBL1200412",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "OXYMETHOLONE",
+      "smiles": "C[C@]12C/C(=C/O)C(=O)C[C@@H]1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1200585",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "ETHYLESTRENOL",
+      "smiles": "CC[C@]1(O)CC[C@H]2[C@@H]3CCC4=CCCC[C@@H]4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1200623",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "NANDROLONE DECANOATE",
+      "smiles": "CCCCCCCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@@H]4[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1200946",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "ENOBOSARM",
+      "smiles": "C[C@](O)(COc1ccc(C#N)cc1)C(=O)Nc1ccc(C#N)c(C(F)(F)F)c1",
+      "chembl_id": "CHEMBL1738889",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "PRUXELUTAMIDE",
+      "smiles": "CC1(C)C(=O)N(c2ccc(C#N)c(C(F)(F)F)c2F)C(=S)N1c1ccc(CCCc2ncco2)nc1",
+      "chembl_id": "CHEMBL4594417",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE PROPIONATE",
+      "smiles": "CCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1170",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "FLUOXYMESTERONE",
+      "smiles": "C[C@]1(O)CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@@]3(F)[C@@H](O)C[C@@]21C",
+      "chembl_id": "CHEMBL1445",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "ENZALUTAMIDE",
+      "smiles": "CNC(=O)c1ccc(N2C(=S)N(c3ccc(C#N)c(C(F)(F)F)c3)C(=O)C2(C)C)cc1F",
+      "chembl_id": "CHEMBL1082407",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "STANOZOLOL",
+      "smiles": "C[C@]12Cc3c[nH]nc3C[C@@H]1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL2079587",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE UNDECANOATE",
+      "smiles": "CCCCCCCCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL2107067",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "DAROLUTAMIDE",
+      "smiles": "CC(O)c1cc(C(=O)N[C@@H](C)Cn2ccc(-c3ccc(C#N)c(Cl)c3)n2)n[nH]1",
+      "chembl_id": "CHEMBL4297185",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "BICALUTAMIDE",
+      "smiles": "CC(O)(CS(=O)(=O)c1ccc(F)cc1)C(=O)Nc1ccc(C#N)c(C(F)(F)F)c1",
+      "chembl_id": "CHEMBL409",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "FLUTAMIDE",
+      "smiles": "CC(C)C(=O)Nc1ccc([N+](=O)[O-])c(C(F)(F)F)c1",
+      "chembl_id": "CHEMBL806",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "NILUTAMIDE",
+      "smiles": "CC1(C)NC(=O)N(c2ccc([N+](=O)[O-])c(C(F)(F)F)c2)C1=O",
+      "chembl_id": "CHEMBL1274",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "METHYLTESTOSTERONE",
+      "smiles": "C[C@]12CCC(=O)C=C1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1395",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE",
+      "smiles": "C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C@@H]1CC[C@@H]2O",
+      "chembl_id": "CHEMBL386630",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "OXANDROLONE",
+      "smiles": "C[C@]12COC(=O)C[C@@H]1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1200436",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "DROMOSTANOLONE PROPIONATE",
+      "smiles": "CCC(=O)O[C@H]1CC[C@H]2[C@@H]3CC[C@H]4CC(=O)[C@H](C)C[C@]4(C)[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1201048",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "TESTOSTERONE CYPIONATE",
+      "smiles": "C[C@]12CC[C@H]3[C@@H](CCC4=CC(=O)CC[C@@]43C)[C@@H]1CC[C@@H]2OC(=O)CCC1CCCC1",
+      "chembl_id": "CHEMBL1201101",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "METHANDROSTENOLONE",
+      "smiles": "C[C@]12C=CC(=O)C=C1CC[C@@H]1[C@@H]2CC[C@@]2(C)[C@H]1CC[C@]2(C)O",
+      "chembl_id": "CHEMBL1418176",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "APALUTAMIDE",
+      "smiles": "CNC(=O)c1ccc(N2C(=S)N(c3cnc(C#N)c(C(F)(F)F)c3)C(=O)C23CCC3)cc1F",
+      "chembl_id": "CHEMBL3183409",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "CLASCOTERONE",
+      "smiles": "CCC(=O)O[C@]1(C(=O)CO)CC[C@H]2[C@@H]3CCC4=CC(=O)CC[C@]4(C)[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL3590187",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "SHR3680",
+      "smiles": "CC1(C)C(=O)N(c2ccc(C#N)c(C(F)(F)F)c2)C(=S)N1c1ccc(OC[C@@H](O)CO)cc1",
+      "chembl_id": "CHEMBL4650276",
+      "targets": "Androgen Receptor"
+    },
+    {
+      "name": "DANAZOL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCC4=Cc5oncc5C[C@]4(C)[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1479",
+      "targets": "Androgen Receptor,Progesterone receptor"
+    },
+    {
+      "name": "CYPROTERONE ACETATE",
+      "smiles": "CC(=O)O[C@]1(C(C)=O)CC[C@H]2[C@@H]3C=C(Cl)C4=CC(=O)[C@@H]5C[C@@H]5[C@]4(C)[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL139835",
+      "targets": "Androgen Receptor,Glucocorticoid receptor,Progesterone receptor"
+    },
+    {
+      "name": "GALETERONE",
+      "smiles": "C[C@]12CC[C@H](O)CC1=CC[C@@H]1[C@@H]2CC[C@]2(C)C(n3cnc4ccccc43)=CC[C@@H]12",
+      "chembl_id": "CHEMBL2105738",
+      "targets": "Androgen Receptor,Cytochrome P450 17A1"
+    }
+  ],
+  "NR-ER": [
+    {
+      "name": "ACOLBIFENE",
+      "smiles": "CC1=C(c2ccc(O)cc2)[C@H](c2ccc(OCCN3CCCCC3)cc2)Oc2cc(O)ccc21",
+      "chembl_id": "CHEMBL68055",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "ARZOXIFENE",
+      "smiles": "COc1ccc(-c2sc3cc(O)ccc3c2Oc2ccc(OCCN3CCCCC3)cc2)cc1",
+      "chembl_id": "CHEMBL226267",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "TOREMIFENE CITRATE",
+      "smiles": "CN(C)CCOc1ccc(/C(=C(/CCCl)c2ccccc2)c2ccccc2)cc1.O=C(O)CC(O)(CC(=O)O)C(=O)O",
+      "chembl_id": "CHEMBL1200675",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "ESTETROL",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1[C@@H](O)[C@@H](O)[C@@H]2O",
+      "chembl_id": "CHEMBL1230314",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "DROLOXIFENE",
+      "smiles": "CC/C(=C(/c1ccc(OCCN(C)C)cc1)c1cccc(O)c1)c1ccccc1",
+      "chembl_id": "CHEMBL487",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "LASOFOXIFENE",
+      "smiles": "Oc1ccc2c(c1)CC[C@H](c1ccccc1)[C@@H]2c1ccc(OCCN2CCCC2)cc1",
+      "chembl_id": "CHEMBL328190",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "CYCLOFENIL",
+      "smiles": "CC(=O)Oc1ccc(C(=C2CCCCC2)c2ccc(OC(C)=O)cc2)cc1",
+      "chembl_id": "CHEMBL141305",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "FULVESTRANT",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4C[C@@H](CCCCCCCCC[S+]([O-])CCCC(F)(F)C(F)(F)F)[C@H]3[C@@H]1CC[C@@H]2O",
+      "chembl_id": "CHEMBL1358",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "ESTRIOL",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1C[C@@H](O)[C@@H]2O",
+      "chembl_id": "CHEMBL193482",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "DIETHYLSTILBESTROL DIPHOSPHATE",
+      "smiles": "CC/C(=C(/CC)c1ccc(OP(=O)(O)O)cc1)c1ccc(OP(=O)(O)O)cc1",
+      "chembl_id": "CHEMBL1200598",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "OSPEMIFENE",
+      "smiles": "OCCOc1ccc(/C(=C(/CCCl)c2ccccc2)c2ccccc2)cc1",
+      "chembl_id": "CHEMBL2105395",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "AFIMOXIFENE",
+      "smiles": "CC/C(=C(\\c1ccc(O)cc1)c1ccc(OCCN(C)C)cc1)c1ccccc1",
+      "chembl_id": "CHEMBL489",
+      "targets": "Estrogen receptor,Estrogen-related receptor gamma"
+    },
+    {
+      "name": "QUINESTROL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCc4cc(OC5CCCC5)ccc4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1201165",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "BAZEDOXIFENE ACETATE",
+      "smiles": "CC(=O)O.Cc1c(-c2ccc(O)cc2)n(Cc2ccc(OCCN3CCCCCC3)cc2)c2ccc(O)cc12",
+      "chembl_id": "CHEMBL2106615",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "DIETHYLSTILBESTROL",
+      "smiles": "CC/C(=C(/CC)c1ccc(O)cc1)c1ccc(O)cc1",
+      "chembl_id": "CHEMBL411",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ETHINYL ESTRADIOL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCc4cc(O)ccc4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL691",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "TAMOXIFEN CITRATE",
+      "smiles": "CC/C(=C(\\c1ccccc1)c1ccc(OCCN(C)C)cc1)c1ccccc1.O=C(O)CC(O)(CC(=O)O)C(=O)O",
+      "chembl_id": "CHEMBL786",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "DIENESTROL",
+      "smiles": "C/C=C(C(=C/C)/c1ccc(O)cc1)\\c1ccc(O)cc1",
+      "chembl_id": "CHEMBL1018",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "AMCENESTRANT",
+      "smiles": "O=C(O)c1ccc2c(c1)CCCC(c1ccc(Cl)cc1Cl)=C2c1ccc(O[C@H]2CCN(CCCF)C2)cc1",
+      "chembl_id": "CHEMBL4475463",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRADIOL",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C@@H]2O",
+      "chembl_id": "CHEMBL135",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ENCLOMIPHENE",
+      "smiles": "CCN(CC)CCOc1ccc(/C(=C(/Cl)c2ccccc2)c2ccccc2)cc1",
+      "chembl_id": "CHEMBL954",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ELACESTRANT HYDROCHLORIDE",
+      "smiles": "CCNCCc1ccc(CN(CC)c2cc(OC)ccc2[C@@H]2CCc3cc(O)ccc3C2)cc1.Cl.Cl",
+      "chembl_id": "CHEMBL4594273",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ALLYLESTRENOL",
+      "smiles": "C=CC[C@]1(O)CC[C@H]2[C@@H]3CCC4=CCCCC4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL2105618",
+      "targets": "Estrogen receptor,Progesterone receptor"
+    },
+    {
+      "name": "RALOXIFENE HYDROCHLORIDE",
+      "smiles": "Cl.O=C(c1ccc(OCCN2CCCCC2)cc1)c1c(-c2ccc(O)cc2)sc2cc(O)ccc12",
+      "chembl_id": "CHEMBL1116",
+      "targets": "Estrogen receptor beta"
+    },
+    {
+      "name": "ESTRONE",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CCC2=O",
+      "chembl_id": "CHEMBL1405",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRADIOL VALERATE",
+      "smiles": "CCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCc4cc(O)ccc4[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1511",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRADIOL ACETATE",
+      "smiles": "CC(=O)Oc1ccc2c(c1)CC[C@@H]1[C@@H]2CC[C@]2(C)[C@@H](O)CC[C@@H]12",
+      "chembl_id": "CHEMBL1200430",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "CHLOROTRIANISENE",
+      "smiles": "COc1ccc(C(Cl)=C(c2ccc(OC)cc2)c2ccc(OC)cc2)cc1",
+      "chembl_id": "CHEMBL1200761",
+      "targets": "Estrogen receptor beta"
+    },
+    {
+      "name": "ESTRADIOL CYPIONATE",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C@@H]2OC(=O)CCC1CCCC1",
+      "chembl_id": "CHEMBL1200973",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTROPIPATE",
+      "smiles": "C1CNCCN1.C[C@]12CC[C@@H]3c4ccc(OS(=O)(=O)O)cc4CC[C@H]3[C@@H]1CCC2=O",
+      "chembl_id": "CHEMBL1200980",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "MESTRANOL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCc4cc(OC)ccc4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1201151",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "CLOMIPHENE CITRATE",
+      "smiles": "CCN(CC)CCOc1ccc(C(=C(Cl)c2ccccc2)c2ccccc2)cc1.O=C(O)CC(O)(CC(=O)O)C(=O)O",
+      "chembl_id": "CHEMBL3185958",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ELACESTRANT",
+      "smiles": "CCNCCc1ccc(CN(CC)c2cc(OC)ccc2[C@@H]2CCc3cc(O)ccc3C2)cc1",
+      "chembl_id": "CHEMBL4297509",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "GIREDESTRANT",
+      "smiles": "C[C@@H]1Cc2c([nH]c3ccccc23)[C@@H](c2c(F)cc(NC3CN(CCCF)C3)cc2F)N1CC(F)(F)CO",
+      "chembl_id": "CHEMBL4650316",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "CAMIZESTRANT",
+      "smiles": "C[C@@H]1Cc2c(ccc3[nH]ncc23)[C@@H](c2ccc(NC3CN(CCCF)C3)cn2)N1CC(F)(F)F",
+      "chembl_id": "CHEMBL4650365",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRAMUSTINE PHOSPHATE SODIUM",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(OC(=O)N(CCCl)CCCl)cc4CC[C@H]3[C@@H]1CC[C@@H]2OP(=O)([O-])[O-].[Na+].[Na+]",
+      "chembl_id": "CHEMBL1200721",
+      "targets": "DNA,Estrogen receptor beta"
+    }
+  ],
+  "NR-ER-LBD": [
+    {
+      "name": "ACOLBIFENE",
+      "smiles": "CC1=C(c2ccc(O)cc2)[C@H](c2ccc(OCCN3CCCCC3)cc2)Oc2cc(O)ccc21",
+      "chembl_id": "CHEMBL68055",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "ARZOXIFENE",
+      "smiles": "COc1ccc(-c2sc3cc(O)ccc3c2Oc2ccc(OCCN3CCCCC3)cc2)cc1",
+      "chembl_id": "CHEMBL226267",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "TOREMIFENE CITRATE",
+      "smiles": "CN(C)CCOc1ccc(/C(=C(/CCCl)c2ccccc2)c2ccccc2)cc1.O=C(O)CC(O)(CC(=O)O)C(=O)O",
+      "chembl_id": "CHEMBL1200675",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "ESTETROL",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1[C@@H](O)[C@@H](O)[C@@H]2O",
+      "chembl_id": "CHEMBL1230314",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "DROLOXIFENE",
+      "smiles": "CC/C(=C(/c1ccc(OCCN(C)C)cc1)c1cccc(O)c1)c1ccccc1",
+      "chembl_id": "CHEMBL487",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "LASOFOXIFENE",
+      "smiles": "Oc1ccc2c(c1)CC[C@H](c1ccccc1)[C@@H]2c1ccc(OCCN2CCCC2)cc1",
+      "chembl_id": "CHEMBL328190",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "CYCLOFENIL",
+      "smiles": "CC(=O)Oc1ccc(C(=C2CCCCC2)c2ccc(OC(C)=O)cc2)cc1",
+      "chembl_id": "CHEMBL141305",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "FULVESTRANT",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4C[C@@H](CCCCCCCCC[S+]([O-])CCCC(F)(F)C(F)(F)F)[C@H]3[C@@H]1CC[C@@H]2O",
+      "chembl_id": "CHEMBL1358",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "ESTRIOL",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1C[C@@H](O)[C@@H]2O",
+      "chembl_id": "CHEMBL193482",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "DIETHYLSTILBESTROL DIPHOSPHATE",
+      "smiles": "CC/C(=C(/CC)c1ccc(OP(=O)(O)O)cc1)c1ccc(OP(=O)(O)O)cc1",
+      "chembl_id": "CHEMBL1200598",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "OSPEMIFENE",
+      "smiles": "OCCOc1ccc(/C(=C(/CCCl)c2ccccc2)c2ccccc2)cc1",
+      "chembl_id": "CHEMBL2105395",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "AFIMOXIFENE",
+      "smiles": "CC/C(=C(\\c1ccc(O)cc1)c1ccc(OCCN(C)C)cc1)c1ccccc1",
+      "chembl_id": "CHEMBL489",
+      "targets": "Estrogen receptor,Estrogen-related receptor gamma"
+    },
+    {
+      "name": "QUINESTROL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCc4cc(OC5CCCC5)ccc4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1201165",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "BAZEDOXIFENE ACETATE",
+      "smiles": "CC(=O)O.Cc1c(-c2ccc(O)cc2)n(Cc2ccc(OCCN3CCCCCC3)cc2)c2ccc(O)cc12",
+      "chembl_id": "CHEMBL2106615",
+      "targets": "Estrogen receptor"
+    },
+    {
+      "name": "DIETHYLSTILBESTROL",
+      "smiles": "CC/C(=C(/CC)c1ccc(O)cc1)c1ccc(O)cc1",
+      "chembl_id": "CHEMBL411",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ETHINYL ESTRADIOL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCc4cc(O)ccc4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL691",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "TAMOXIFEN CITRATE",
+      "smiles": "CC/C(=C(\\c1ccccc1)c1ccc(OCCN(C)C)cc1)c1ccccc1.O=C(O)CC(O)(CC(=O)O)C(=O)O",
+      "chembl_id": "CHEMBL786",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "DIENESTROL",
+      "smiles": "C/C=C(C(=C/C)/c1ccc(O)cc1)\\c1ccc(O)cc1",
+      "chembl_id": "CHEMBL1018",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "AMCENESTRANT",
+      "smiles": "O=C(O)c1ccc2c(c1)CCCC(c1ccc(Cl)cc1Cl)=C2c1ccc(O[C@H]2CCN(CCCF)C2)cc1",
+      "chembl_id": "CHEMBL4475463",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRADIOL",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C@@H]2O",
+      "chembl_id": "CHEMBL135",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ENCLOMIPHENE",
+      "smiles": "CCN(CC)CCOc1ccc(/C(=C(/Cl)c2ccccc2)c2ccccc2)cc1",
+      "chembl_id": "CHEMBL954",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ELACESTRANT HYDROCHLORIDE",
+      "smiles": "CCNCCc1ccc(CN(CC)c2cc(OC)ccc2[C@@H]2CCc3cc(O)ccc3C2)cc1.Cl.Cl",
+      "chembl_id": "CHEMBL4594273",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ALLYLESTRENOL",
+      "smiles": "C=CC[C@]1(O)CC[C@H]2[C@@H]3CCC4=CCCCC4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL2105618",
+      "targets": "Estrogen receptor,Progesterone receptor"
+    },
+    {
+      "name": "RALOXIFENE HYDROCHLORIDE",
+      "smiles": "Cl.O=C(c1ccc(OCCN2CCCCC2)cc1)c1c(-c2ccc(O)cc2)sc2cc(O)ccc12",
+      "chembl_id": "CHEMBL1116",
+      "targets": "Estrogen receptor beta"
+    },
+    {
+      "name": "ESTRONE",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CCC2=O",
+      "chembl_id": "CHEMBL1405",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRADIOL VALERATE",
+      "smiles": "CCCCC(=O)O[C@H]1CC[C@H]2[C@@H]3CCc4cc(O)ccc4[C@H]3CC[C@]12C",
+      "chembl_id": "CHEMBL1511",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRADIOL ACETATE",
+      "smiles": "CC(=O)Oc1ccc2c(c1)CC[C@@H]1[C@@H]2CC[C@]2(C)[C@@H](O)CC[C@@H]12",
+      "chembl_id": "CHEMBL1200430",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "CHLOROTRIANISENE",
+      "smiles": "COc1ccc(C(Cl)=C(c2ccc(OC)cc2)c2ccc(OC)cc2)cc1",
+      "chembl_id": "CHEMBL1200761",
+      "targets": "Estrogen receptor beta"
+    },
+    {
+      "name": "ESTRADIOL CYPIONATE",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(O)cc4CC[C@H]3[C@@H]1CC[C@@H]2OC(=O)CCC1CCCC1",
+      "chembl_id": "CHEMBL1200973",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTROPIPATE",
+      "smiles": "C1CNCCN1.C[C@]12CC[C@@H]3c4ccc(OS(=O)(=O)O)cc4CC[C@H]3[C@@H]1CCC2=O",
+      "chembl_id": "CHEMBL1200980",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "MESTRANOL",
+      "smiles": "C#C[C@]1(O)CC[C@H]2[C@@H]3CCc4cc(OC)ccc4[C@H]3CC[C@@]21C",
+      "chembl_id": "CHEMBL1201151",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "CLOMIPHENE CITRATE",
+      "smiles": "CCN(CC)CCOc1ccc(C(=C(Cl)c2ccccc2)c2ccccc2)cc1.O=C(O)CC(O)(CC(=O)O)C(=O)O",
+      "chembl_id": "CHEMBL3185958",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ELACESTRANT",
+      "smiles": "CCNCCc1ccc(CN(CC)c2cc(OC)ccc2[C@@H]2CCc3cc(O)ccc3C2)cc1",
+      "chembl_id": "CHEMBL4297509",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "GIREDESTRANT",
+      "smiles": "C[C@@H]1Cc2c([nH]c3ccccc23)[C@@H](c2c(F)cc(NC3CN(CCCF)C3)cc2F)N1CC(F)(F)CO",
+      "chembl_id": "CHEMBL4650316",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "CAMIZESTRANT",
+      "smiles": "C[C@@H]1Cc2c(ccc3[nH]ncc23)[C@@H](c2ccc(NC3CN(CCCF)C3)cn2)N1CC(F)(F)F",
+      "chembl_id": "CHEMBL4650365",
+      "targets": "Estrogen receptor alpha"
+    },
+    {
+      "name": "ESTRAMUSTINE PHOSPHATE SODIUM",
+      "smiles": "C[C@]12CC[C@@H]3c4ccc(OC(=O)N(CCCl)CCCl)cc4CC[C@H]3[C@@H]1CC[C@@H]2OP(=O)([O-])[O-].[Na+].[Na+]",
+      "chembl_id": "CHEMBL1200721",
+      "targets": "DNA,Estrogen receptor beta"
+    }
+  ],
+  "NR-AhR": [
+    {
+      "name": "TAPINAROF",
+      "smiles": "CC(C)c1c(O)cc(/C=C/c2ccccc2)cc1O",
+      "chembl_id": "CHEMBL259571",
+      "targets": "Aryl hydrocarbon receptor"
+    }
+  ],
+  "NR-PPAR-gamma": [
+    {
+      "name": "SEMAGACESTAT",
+      "smiles": "CC(C)[C@H](O)C(=O)N[C@@H](C)C(=O)N[C@@H]1C(=O)N(C)CCc2ccccc21",
+      "chembl_id": "CHEMBL520733",
+      "targets": "Gamma-secretase"
+    },
+    {
+      "name": "TARENFLURBIL",
+      "smiles": "C[C@@H](C(=O)O)c1ccc(-c2ccccc2)c(F)c1",
+      "chembl_id": "CHEMBL190083",
+      "targets": "Gamma-secretase"
+    },
+    {
+      "name": "NIROGACESTAT",
+      "smiles": "CCC[C@H](N[C@H]1CCc2cc(F)cc(F)c2C1)C(=O)Nc1cn(C(C)(C)CNCC(C)(C)C)cn1",
+      "chembl_id": "CHEMBL1770916",
+      "targets": "Gamma-secretase"
+    },
+    {
+      "name": "PALOVAROTENE",
+      "smiles": "CC1(C)CCC(C)(C)c2cc(Cn3cccn3)c(/C=C/c3ccc(C(=O)O)cc3)cc21",
+      "chembl_id": "CHEMBL2105648",
+      "targets": "Retinoic acid receptor gamma"
+    },
+    {
+      "name": "TROGLITAZONE",
+      "smiles": "Cc1c(C)c2c(c(C)c1O)CCC(C)(COc1ccc(CC3SC(=O)NC3=O)cc1)O2",
+      "chembl_id": "CHEMBL408",
+      "targets": "Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "PIOGLITAZONE HYDROCHLORIDE",
+      "smiles": "CCc1ccc(CCOc2ccc(CC3SC(=O)NC3=O)cc2)nc1.Cl",
+      "chembl_id": "CHEMBL1715",
+      "targets": "Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "RIVOGLITAZONE",
+      "smiles": "COc1ccc2nc(COc3ccc(CC4SC(=O)NC4=O)cc3)n(C)c2c1",
+      "chembl_id": "CHEMBL2104753",
+      "targets": "Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "TRIFAROTENE",
+      "smiles": "CC(C)(C)c1cc(-c2cc(-c3ccc(C(=O)O)cc3)ccc2OCCO)ccc1N1CCCC1",
+      "chembl_id": "CHEMBL3707313",
+      "targets": "Retinoic acid receptor gamma"
+    },
+    {
+      "name": "BEZAFIBRATE",
+      "smiles": "CC(C)(Oc1ccc(CCNC(=O)c2ccc(Cl)cc2)cc1)C(=O)O",
+      "chembl_id": "CHEMBL264374",
+      "targets": "Peroxisome proliferator-activated receptor"
+    },
+    {
+      "name": "MURAGLITAZAR",
+      "smiles": "COc1ccc(OC(=O)N(CC(=O)O)Cc2ccc(OCCc3nc(-c4ccccc4)oc3C)cc2)cc1",
+      "chembl_id": "CHEMBL186179",
+      "targets": "Peroxisome proliferator-activated receptor alpha,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "LANIFIBRANOR",
+      "smiles": "O=C(O)CCCc1cc2cc(Cl)ccc2n1S(=O)(=O)c1ccc2ncsc2c1",
+      "chembl_id": "CHEMBL4091374",
+      "targets": "Peroxisome proliferator-activated receptor"
+    },
+    {
+      "name": "CHIGLITAZAR",
+      "smiles": "O=C(c1ccc(F)cc1)c1ccccc1N[C@@H](Cc1ccc(OCCn2c3ccccc3c3ccccc32)cc1)C(=O)O",
+      "chembl_id": "CHEMBL4650349",
+      "targets": "Peroxisome proliferator-activated receptor"
+    },
+    {
+      "name": "ALEGLITAZAR",
+      "smiles": "CO[C@@H](Cc1ccc(OCCc2nc(-c3ccccc3)oc2C)c2ccsc12)C(=O)O",
+      "chembl_id": "CHEMBL519504",
+      "targets": "Peroxisome proliferator-activated receptor alpha,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "IMIGLITAZAR",
+      "smiles": "Cc1oc(-c2ccccc2)nc1COc1ccc(CO/N=C(\\CCC(=O)O)c2ccccc2)cc1",
+      "chembl_id": "CHEMBL592054",
+      "targets": "Peroxisome proliferator-activated receptor alpha,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "ELAFIBRANOR",
+      "smiles": "CSc1ccc(C(=O)/C=C/c2cc(C)c(OC(C)(C)C(=O)O)c(C)c2)cc1",
+      "chembl_id": "CHEMBL3707395",
+      "targets": "Peroxisome proliferator-activated receptor alpha,Peroxisome proliferator-activated receptor delta"
+    },
+    {
+      "name": "MK-0767",
+      "smiles": "COc1ccc(CC2OC(=O)NC2=O)cc1C(=O)NCc1ccc(C(F)(F)F)cc1",
+      "chembl_id": "CHEMBL4297404",
+      "targets": "Peroxisome proliferator-activated receptor alpha,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "FENOFIBRIC ACID",
+      "smiles": "CC(C)(Oc1ccc(C(=O)c2ccc(Cl)cc2)cc1)C(=O)O",
+      "chembl_id": "CHEMBL981",
+      "targets": "Peroxisome proliferator-activated receptor alpha"
+    },
+    {
+      "name": "PEMAFIBRATE",
+      "smiles": "CC[C@@H](Oc1cccc(CN(CCCOc2ccc(OC)cc2)c2nc3ccccc3o2)c1)C(=O)O",
+      "chembl_id": "CHEMBL247951",
+      "targets": "Peroxisome proliferator-activated receptor alpha"
+    },
+    {
+      "name": "TESAGLITAZAR",
+      "smiles": "CCO[C@@H](Cc1ccc(OCCc2ccc(OS(C)(=O)=O)cc2)cc1)C(=O)O",
+      "chembl_id": "CHEMBL282686",
+      "targets": "Peroxisome proliferator-activated receptor alpha,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "SAROGLITAZAR",
+      "smiles": "CCO[C@@H](Cc1ccc(OCCn2c(C)ccc2-c2ccc(SC)cc2)cc1)C(=O)O",
+      "chembl_id": "CHEMBL4297530",
+      "targets": "Peroxisome proliferator-activated receptor alpha,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "CIPROFIBRATE",
+      "smiles": "CC(C)(Oc1ccc(C2CC2(Cl)Cl)cc1)C(=O)O",
+      "chembl_id": "CHEMBL557555",
+      "targets": "Peroxisome proliferator-activated receptor alpha"
+    },
+    {
+      "name": "FONADELPAR",
+      "smiles": "Cc1cc2c(CCc3sc(-c4ccc(C(F)(F)F)cc4)nc3C(C)C)noc2cc1OCC(=O)O",
+      "chembl_id": "CHEMBL3545186",
+      "targets": "Peroxisome proliferator-activated receptor delta"
+    },
+    {
+      "name": "GEMFIBROZIL",
+      "smiles": "Cc1ccc(C)c(OCCCC(C)(C)C(=O)O)c1",
+      "chembl_id": "CHEMBL457",
+      "targets": "Peroxisome proliferator-activated receptor alpha"
+    },
+    {
+      "name": "CLOFIBRATE",
+      "smiles": "CCOC(=O)C(C)(C)Oc1ccc(Cl)cc1",
+      "chembl_id": "CHEMBL565",
+      "targets": "Peroxisome proliferator-activated receptor alpha"
+    },
+    {
+      "name": "FENOFIBRATE",
+      "smiles": "CC(C)OC(=O)C(C)(C)Oc1ccc(C(=O)c2ccc(Cl)cc2)cc1",
+      "chembl_id": "CHEMBL672",
+      "targets": "Peroxisome proliferator-activated receptor alpha"
+    },
+    {
+      "name": "ROSIGLITAZONE MALEATE",
+      "smiles": "CN(CCOc1ccc(CC2SC(=O)NC2=O)cc1)c1ccccn1.O=C(O)/C=C\\C(=O)O",
+      "chembl_id": "CHEMBL843",
+      "targets": "Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "LERIGLITAZONE",
+      "smiles": "CC(O)c1ccc(CCOc2ccc(CC3SC(=O)NC3=O)cc2)nc1",
+      "chembl_id": "CHEMBL1267",
+      "targets": "Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "SELADELPAR",
+      "smiles": "CCO[C@H](COc1ccc(C(F)(F)F)cc1)CSc1ccc(OCC(=O)O)c(C)c1",
+      "chembl_id": "CHEMBL230158",
+      "targets": "Peroxisome proliferator-activated receptor delta"
+    },
+    {
+      "name": "CHOLINE FENOFIBRATE",
+      "smiles": "CC(C)(Oc1ccc(C(=O)c2ccc(Cl)cc2)cc1)C(=O)[O-].C[N+](C)(C)CCO",
+      "chembl_id": "CHEMBL1201745",
+      "targets": "Peroxisome proliferator-activated receptor alpha"
+    },
+    {
+      "name": "BALAGLITAZONE",
+      "smiles": "Cn1c(COc2ccc(CC3SC(=O)NC3=O)cc2)nc2ccccc2c1=O",
+      "chembl_id": "CHEMBL2103991",
+      "targets": "Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "BALSALAZIDE DISODIUM",
+      "smiles": "O=C([O-])CCNC(=O)c1ccc(/N=N/c2ccc(O)c(C(=O)[O-])c2)cc1.[Na+].[Na+]",
+      "chembl_id": "CHEMBL1200760",
+      "targets": "Arachidonate 5-lipoxygenase,Cyclooxygenase,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "MESALAMINE",
+      "smiles": "Nc1ccc(O)c(C(=O)O)c1",
+      "chembl_id": "CHEMBL704",
+      "targets": "Arachidonate 5-lipoxygenase,Cyclooxygenase,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "OLSALAZINE SODIUM",
+      "smiles": "O=C([O-])c1cc(/N=N/c2ccc(O)c(C(=O)[O-])c2)ccc1O.[Na+].[Na+]",
+      "chembl_id": "CHEMBL1201013",
+      "targets": "Arachidonate 5-lipoxygenase,Cyclooxygenase,Peroxisome proliferator-activated receptor gamma"
+    },
+    {
+      "name": "BARDOXOLONE METHYL",
+      "smiles": "COC(=O)[C@]12CCC(C)(C)C[C@H]1[C@H]1C(=O)C=C3[C@@]4(C)C=C(C#N)C(=O)C(C)(C)[C@@H]4CC[C@@]3(C)[C@]1(C)CC2",
+      "chembl_id": "CHEMBL1762621",
+      "targets": "Inhibitor of nuclear factor kappa B kinase beta subunit,Keap1/Nrf2,Peroxisome proliferator-activated receptor gamma"
+    }
+  ],
+  "SR-p53": [
+    {
+      "name": "EPRENETAPOPT",
+      "smiles": "COCC1(CO)C(=O)C2CCN1CC2",
+      "chembl_id": "CHEMBL3186011",
+      "targets": "Cellular tumor antigen p53"
+    },
+    {
+      "name": "IDASANUTLIN",
+      "smiles": "COc1cc(C(=O)O)ccc1NC(=O)[C@@H]1N[C@@H](CC(C)(C)C)[C@](C#N)(c2ccc(Cl)cc2F)[C@H]1c1cccc(Cl)c1F",
+      "chembl_id": "CHEMBL2402737",
+      "targets": "Tumour suppressor p53/oncoprotein Mdm2"
+    }
+  ],
+  "SR-MMP": [
+    {
+      "name": "TOPOTECAN HYDROCHLORIDE",
+      "smiles": "CC[C@@]1(O)C(=O)OCc2c1cc1n(c2=O)Cc2cc3c(CN(C)C)c(O)ccc3nc2-1.Cl",
+      "chembl_id": "CHEMBL1607",
+      "targets": "DNA topoisomerase I, mitochondrial"
+    },
+    {
+      "name": "CARGLUMIC ACID",
+      "smiles": "NC(=O)N[C@@H](CCC(=O)O)C(=O)O",
+      "chembl_id": "CHEMBL1201780",
+      "targets": "Carbamoyl-phosphate synthase [ammonia], mitochondrial"
+    },
+    {
+      "name": "ENASIDENIB MESYLATE",
+      "smiles": "CC(C)(O)CNc1nc(Nc2ccnc(C(F)(F)F)c2)nc(-c2cccc(C(F)(F)F)n2)n1.CS(=O)(=O)O",
+      "chembl_id": "CHEMBL3989931",
+      "targets": "Isocitrate dehydrogenase [NADP], mitochondrial"
+    },
+    {
+      "name": "OLOROFIM",
+      "smiles": "Cc1cc(-c2ccccc2)c(C(=O)C(=O)Nc2ccc(N3CCN(c4ncc(F)cn4)CC3)cc2)n1C",
+      "chembl_id": "CHEMBL4297609",
+      "targets": "Dihydroorotate dehydrogenase (quinone), mitochondrial"
+    },
+    {
+      "name": "METFORMIN HYDROCHLORIDE",
+      "smiles": "CN(C)C(=N)NC(=N)N.Cl",
+      "chembl_id": "CHEMBL1703",
+      "targets": "Mitochondrial complex I (NADH dehydrogenase),Mitochondrial glycerol-3-phosphate dehydrogenase"
+    }
+  ],
+  "SR-HSE": [
+    {
+      "name": "RETASPIMYCIN HYDROCHLORIDE",
+      "smiles": "C=CCNc1c(O)cc2c(O)c1C[C@@H](C)C[C@H](OC)[C@H](O)[C@@H](C)/C=C(\\C)[C@H](OC(N)=O)[C@@H](OC)/C=C\\C=C(/C)C(=O)N2.Cl",
+      "chembl_id": "CHEMBL377559",
+      "targets": "Heat shock protein HSP90"
+    },
+    {
+      "name": "TANESPIMYCIN",
+      "smiles": "C=CCNC1=C2C[C@@H](C)C[C@H](OC)[C@H](O)[C@@H](C)/C=C(\\C)[C@H](OC(N)=O)[C@@H](OC)/C=C\\C=C(/C)C(=O)NC(=CC1=O)C2=O",
+      "chembl_id": "CHEMBL109480",
+      "targets": "Heat shock protein HSP90"
+    },
+    {
+      "name": "GANETESPIB",
+      "smiles": "CC(C)c1cc(-c2n[nH]c(=O)n2-c2ccc3c(ccn3C)c2)c(O)cc1O",
+      "chembl_id": "CHEMBL2103879",
+      "targets": "Heat shock protein HSP90"
+    },
+    {
+      "name": "FORIGERIMOD ACETATE",
+      "smiles": "CC(=O)O.CC[C@H](C)[C@H](NC(=O)[C@H](Cc1ccccc1)NC(=O)[C@H](C)NC(=O)[C@H](Cc1ccc(O)cc1)NC(=O)CNC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@@H]1CCCN1C(=O)[C@H](CCCCN)NC(=O)CNC(=O)[C@H](COP(=O)(O)O)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CO)NC(=O)[C@H](Cc1ccc(O)cc1)NC(=O)[C@@H](NC(=O)[C@H](CCSC)NC(=O)[C@H](Cc1c[nH]cn1)NC(=O)[C@@H](NC(=O)[C@@H](N)CCCN=C(N)N)[C@@H](C)CC)C(C)C)C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](Cc1ccc(O)cc1)C(=O)O",
+      "chembl_id": "CHEMBL3989801",
+      "targets": "Heat shock cognate 71 kDa protein"
+    },
+    {
+      "name": "PLECANATIDE",
+      "smiles": "CC(C)C[C@H](NC(=O)[C@@H]1CSSC[C@@H]2NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CCC(=O)O)NC(=O)[C@@H](NC(=O)[C@H](CCC(=O)O)NC(=O)[C@H](CC(=O)O)NC(=O)[C@@H](N)CC(N)=O)CSSC[C@H](NC(=O)[C@H](C)NC(=O)[C@H](C(C)C)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](C(C)C)NC2=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N1)C(=O)O",
+      "chembl_id": "CHEMBL2103867",
+      "targets": "Heat-stable enterotoxin receptor"
+    },
+    {
+      "name": "LINACLOTIDE",
+      "smiles": "C[C@@H]1NC(=O)[C@@H]2CCCN2C(=O)[C@H](CC(N)=O)NC(=O)[C@@H]2CSSC[C@H](N)C(=O)N[C@H]3CSSC[C@H](NC1=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N[C@H](C(=O)N[C@@H](Cc1ccc(O)cc1)C(=O)O)CSSC[C@H](NC(=O)[C@H](Cc1ccc(O)cc1)NC(=O)[C@H](CCC(=O)O)NC3=O)C(=O)N2",
+      "chembl_id": "CHEMBL3301675",
+      "targets": "Heat-stable enterotoxin receptor"
+    }
+  ],
+  "SR-ATAD5": [
+    {
+      "name": "PENTAMIDINE ISETHIONATE",
+      "smiles": "N=C(N)c1ccc(OCCCCCOc2ccc(C(=N)N)cc2)cc1.O=S(=O)(O)CCO.O=S(=O)(O)CCO",
+      "chembl_id": "CHEMBL361506",
+      "targets": "DNA,Kinetoplast DNA"
+    },
+    {
+      "name": "DACARBAZINE",
+      "smiles": "CN(C)/N=N/c1[nH]cnc1C(N)=O",
+      "chembl_id": "CHEMBL476",
+      "targets": "DNA"
+    },
+    {
+      "name": "LOMUSTINE",
+      "smiles": "O=NN(CCCl)C(=O)NC1CCCCC1",
+      "chembl_id": "CHEMBL514",
+      "targets": "DNA"
+    },
+    {
+      "name": "NITROFURANTOIN",
+      "smiles": "O=C1CN(/N=C/c2ccc([N+](=O)[O-])o2)C(=O)N1",
+      "chembl_id": "CHEMBL572",
+      "targets": "DNA"
+    },
+    {
+      "name": "IDOXURIDINE",
+      "smiles": "O=c1[nH]c(=O)n([C@H]2C[C@H](O)[C@@H](CO)O2)cc1I",
+      "chembl_id": "CHEMBL788",
+      "targets": "DNA"
+    },
+    {
+      "name": "BUSULFAN",
+      "smiles": "CS(=O)(=O)OCCCCOS(C)(=O)=O",
+      "chembl_id": "CHEMBL820",
+      "targets": "DNA"
+    },
+    {
+      "name": "PALIFOSFAMIDE",
+      "smiles": "O=P(O)(NCCCl)NCCCl",
+      "chembl_id": "CHEMBL889",
+      "targets": "DNA"
+    },
+    {
+      "name": "TIRAPAZAMINE",
+      "smiles": "Nc1n[n+]([O-])c2ccccc2[n+]1[O-]",
+      "chembl_id": "CHEMBL50882",
+      "targets": "DNA"
+    },
+    {
+      "name": "IFOSFAMIDE",
+      "smiles": "O=P1(NCCCl)OCCCN1CCCl",
+      "chembl_id": "CHEMBL1024",
+      "targets": "DNA"
+    },
+    {
+      "name": "FURAZOLIDONE",
+      "smiles": "O=C1OCCN1/N=C/c1ccc([N+](=O)[O-])o1",
+      "chembl_id": "CHEMBL1103",
+      "targets": "DNA"
+    },
+    {
+      "name": "CLOFAZIMINE",
+      "smiles": "CC(C)/N=c1\\cc2n(-c3ccc(Cl)cc3)c3ccccc3nc-2cc1Nc1ccc(Cl)cc1",
+      "chembl_id": "CHEMBL1292",
+      "targets": "DNA"
+    },
+    {
+      "name": "ALTRETAMINE",
+      "smiles": "CN(C)c1nc(N(C)C)nc(N(C)C)n1",
+      "chembl_id": "CHEMBL1455",
+      "targets": "DNA"
+    },
+    {
+      "name": "TRIOXSALEN",
+      "smiles": "Cc1cc2cc3c(C)cc(=O)oc3c(C)c2o1",
+      "chembl_id": "CHEMBL1475",
+      "targets": "DNA"
+    },
+    {
+      "name": "URACIL MUSTARD",
+      "smiles": "Oc1ncc(N(CCCl)CCCl)c(O)n1",
+      "chembl_id": "CHEMBL1488",
+      "targets": "DNA"
+    },
+    {
+      "name": "DACTINOMYCIN",
+      "smiles": "Cc1c2oc3c(C)ccc(C(=O)N[C@@H]4C(=O)N[C@H](C(C)C)C(=O)N5CCC[C@H]5C(=O)N(C)CC(=O)N(C)[C@@H](C(C)C)C(=O)O[C@@H]4C)c3nc-2c(C(=O)N[C@@H]2C(=O)N[C@H](C(C)C)C(=O)N3CCC[C@H]3C(=O)N(C)CC(=O)N(C)[C@@H](C(C)C)C(=O)O[C@@H]2C)c(N)c1=O",
+      "chembl_id": "CHEMBL1554",
+      "targets": "DNA"
+    },
+    {
+      "name": "CLADRIBINE",
+      "smiles": "Nc1nc(Cl)nc2c1ncn2[C@H]1C[C@H](O)[C@@H](CO)O1",
+      "chembl_id": "CHEMBL1619",
+      "targets": "DNA"
+    },
+    {
+      "name": "FOTEMUSTINE",
+      "smiles": "CCOP(=O)(OCC)C(C)NC(=O)N(CCCl)N=O",
+      "chembl_id": "CHEMBL549386",
+      "targets": "DNA"
+    },
+    {
+      "name": "CHLOROXINE",
+      "smiles": "Oc1c(Cl)cc(Cl)c2cccnc12",
+      "chembl_id": "CHEMBL1200596",
+      "targets": "DNA"
+    },
+    {
+      "name": "METRONIDAZOLE HYDROCHLORIDE",
+      "smiles": "Cc1ncc([N+](=O)[O-])n1CCO.Cl",
+      "chembl_id": "CHEMBL1200869",
+      "targets": "DNA"
+    },
+    {
+      "name": "METHYL AMINOLEVULINATE HYDROCHLORIDE",
+      "smiles": "COC(=O)CCC(=O)CN.Cl",
+      "chembl_id": "CHEMBL1201093",
+      "targets": "DNA"
+    },
+    {
+      "name": "NELARABINE",
+      "smiles": "COc1nc(N)nc2c1ncn2[C@@H]1O[C@H](CO)[C@@H](O)[C@@H]1O",
+      "chembl_id": "CHEMBL1201112",
+      "targets": "DNA"
+    },
+    {
+      "name": "PIXANTRONE DIMALEATE",
+      "smiles": "NCCNc1ccc(NCCN)c2c1C(=O)c1ccncc1C2=O.O=C(O)/C=C\\C(=O)O.O=C(O)/C=C\\C(=O)O",
+      "chembl_id": "CHEMBL2103844",
+      "targets": "DNA"
+    },
+    {
+      "name": "SAPACITABINE",
+      "smiles": "CCCCCCCCCCCCCCCC(=O)Nc1ccn([C@@H]2O[C@H](CO)[C@@H](O)[C@@H]2C#N)c(=O)n1",
+      "chembl_id": "CHEMBL2105681",
+      "targets": "DNA"
+    },
+    {
+      "name": "MELPHALAN FLUFENAMIDE HYDROCHLORIDE",
+      "smiles": "CCOC(=O)[C@H](Cc1ccc(F)cc1)NC(=O)[C@@H](N)Cc1ccc(N(CCCl)CCCl)cc1.Cl",
+      "chembl_id": "CHEMBL4297403",
+      "targets": "DNA"
+    },
+    {
+      "name": "VOSAROXIN",
+      "smiles": "CN[C@H]1CN(c2ccc3c(=O)c(C(=O)O)cn(-c4nccs4)c3n2)C[C@@H]1OC",
+      "chembl_id": "CHEMBL68117",
+      "targets": "DNA,DNA topoisomerase II"
+    }
+  ]
+}

data/toxicophores_validated.json ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+fastapi>=0.100.0
+uvicorn>=0.22.0
+pydantic>=2.0.0
+numpy>=1.24.0
+torch>=2.0.0
+rdkit>=2023.3.1
+scikit-learn>=1.3.0

src/__init__.py ADDED Viewed

	@@ -0,0 +1,7 @@

+from .model import Tox21SNN
+from .features import EnhancedFeatureExtractor, TOX21_TARGETS
+from .ensemble import Tox21Ensemble
+TASKS = TOX21_TARGETS
+__all__ = ["Tox21SNN", "EnhancedFeatureExtractor", "Tox21Ensemble", "TASKS"]

src/ensemble.py ADDED Viewed

	@@ -0,0 +1,78 @@

+import numpy as np
+import torch
+from pathlib import Path
+from .model import Tox21SNN
+ECFP_END = 8192
+MACCS_END = ECFP_END + 167
+RDKIT_END = MACCS_END + 208
+TOX_END = RDKIT_END + 1868
+class FoldPredictor:
+    def __init__(self, fold_data, device):
+        self.device = device
+        self.ecfp_indices = fold_data["ecfp_indices"]
+        self.tox_indices = fold_data["tox_indices"]
+        self.in_features = fold_data["in_features"]
+        scaler = fold_data["scaler_state"]
+        self.s1_mean = np.array(scaler["scaler1_mean"], dtype=np.float32)
+        self.s1_scale = np.array(scaler["scaler1_scale"], dtype=np.float32)
+        self.s2_mean = np.array(scaler["scaler2_mean"], dtype=np.float32)
+        self.s2_scale = np.array(scaler["scaler2_scale"], dtype=np.float32)
+        self.model = Tox21SNN(in_features=self.in_features, dropout=0.0)
+        self.model.load_state_dict(fold_data["model_state"])
+        self.model.to(device)
+        self.model.eval()
+    def _select_features(self, X):
+        return np.concatenate([
+            X[:, :ECFP_END][:, self.ecfp_indices],
+            X[:, ECFP_END:MACCS_END],
+            X[:, MACCS_END:RDKIT_END],
+            X[:, RDKIT_END:TOX_END][:, self.tox_indices],
+            X[:, TOX_END:]
+        ], axis=1)
+    def _scale(self, X):
+        X = np.nan_to_num(X, nan=0.0, posinf=0.0, neginf=0.0)
+        X = (X - self.s1_mean) / np.clip(self.s1_scale, 1e-10, None)
+        X = np.nan_to_num(X, nan=0.0, posinf=0.0, neginf=0.0)
+        X = np.tanh(X)
+        X = (X - self.s2_mean) / np.clip(self.s2_scale, 1e-10, None)
+        return X
+    @torch.no_grad()
+    def predict(self, X_raw):
+        X = self._select_features(X_raw)
+        X = self._scale(X)
+        X = np.nan_to_num(X, nan=0.0, posinf=0.0, neginf=0.0)
+        tensor = torch.tensor(X, dtype=torch.float32, device=self.device)
+        logits = self.model(tensor)
+        return torch.sigmoid(logits).cpu().numpy()
+class Tox21Ensemble:
+    def __init__(self, checkpoint_path, device=None):
+        self.device = device or torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        self.predictors = []
+        checkpoint = torch.load(checkpoint_path, map_location="cpu", weights_only=False)
+        self.n_folds = checkpoint["n_folds"]
+        self.mean_auc = checkpoint["mean_auc"]
+        for fold_data in checkpoint["folds"]:
+            predictor = FoldPredictor(fold_data, self.device)
+            self.predictors.append(predictor)
+    @torch.no_grad()
+    def predict(self, X_raw):
+        predictions = []
+        for predictor in self.predictors:
+            pred = predictor.predict(X_raw)
+            predictions.append(pred)
+        return np.mean(predictions, axis=0)

src/features.py ADDED Viewed

	@@ -0,0 +1,457 @@

+import json
+import numpy as np
+from rdkit import Chem, DataStructs
+from rdkit.Chem import AllChem, Descriptors, MACCSkeys
+from rdkit.Chem import rdFingerprintGenerator
+from rdkit.Chem.FilterCatalog import FilterCatalog, FilterCatalogParams
+from rdkit.Chem.MolStandardize import rdMolStandardize
+TOX21_TARGETS = [
+    "NR-AR", "NR-AR-LBD", "NR-AhR", "NR-Aromatase", "NR-ER", "NR-ER-LBD",
+    "NR-PPAR-gamma", "SR-ARE", "SR-ATAD5", "SR-HSE", "SR-MMP", "SR-p53",
+]
+USED_200_DESCR = [
+    0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 25, 26, 27,
+    28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45,
+    46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63,
+    64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81,
+    82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99,
+    100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113,
+    114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127,
+    128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141,
+    142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
+    156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169,
+    170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183,
+    184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197,
+    198, 199, 200, 201, 202, 203, 204, 205, 206, 207,
+]
+REFERENCE_LIGANDS = {
+    "NR-AR": [
+        ("testosterone", "CC12CCC3C(C1CCC2O)CCC4=CC(=O)CCC34C"),
+        ("dihydrotestosterone", "CC12CCC3C(C1CCC2O)CCC4CC(=O)CCC34C"),
+        ("methyltrienolone", "CC12CCC3C(C1CCC2O)CCC4=CC(=O)C=CC34C"),
+        ("flutamide", "CC(C)C(=O)Nc1ccc(c(c1)C(F)(F)F)[N+](=O)[O-]"),
+        ("bicalutamide", "CC(CS(=O)(=O)c1ccc(F)cc1)(O)C(=O)Nc1ccc(C#N)c(c1)C(F)(F)F"),
+        ("enzalutamide", "CNC(=O)c1ccc(N2C(=S)N(c3ccc(C#N)c(C(F)(F)F)c3)C(=O)C2(C)C)cc1F"),
+    ],
+    "NR-AR-LBD": [
+        ("testosterone", "CC12CCC3C(C1CCC2O)CCC4=CC(=O)CCC34C"),
+        ("dihydrotestosterone", "CC12CCC3C(C1CCC2O)CCC4CC(=O)CCC34C"),
+        ("bicalutamide", "CC(CS(=O)(=O)c1ccc(F)cc1)(O)C(=O)Nc1ccc(C#N)c(c1)C(F)(F)F"),
+    ],
+    "NR-AhR": [
+        ("tcdd", "Clc1cc2Oc3cc(Cl)c(Cl)cc3Oc2cc1Cl"),
+        ("benzo_a_pyrene", "c1ccc2c(c1)cc3ccc4cccc5ccc2c3c45"),
+        ("beta_naphthoflavone", "O=c1cc(-c2ccc3ccccc3c2)oc2ccc3ccccc3c12"),
+        ("indirubin", "O=C1Nc2ccccc2C1=C1C(=O)Nc2ccccc21"),
+    ],
+    "NR-Aromatase": [
+        ("exemestane", "CC12CCC3C(C1CC(=C)C2=O)CCC4=CC(=O)C=CC34C"),
+        ("letrozole", "N#Cc1ccc(Cn2cncn2)c(c1)c1ccc(C#N)cc1"),
+        ("anastrozole", "CC(C)(C#N)c1cc(Cn2cncn2)cc(c1)C(C)(C)C#N"),
+        ("androstenedione", "CC12CCC3C(C1CCC2=O)CCC4=CC(=O)CCC34C"),
+    ],
+    "NR-ER": [
+        ("estradiol", "CC12CCC3c4ccc(O)cc4CCC3C1CCC2O"),
+        ("diethylstilbestrol", "CCC(=C(CC)c1ccc(O)cc1)c1ccc(O)cc1"),
+        ("tamoxifen", "CCC(=C(c1ccccc1)c1ccc(OCCN(C)C)cc1)c1ccccc1"),
+        ("genistein", "Oc1ccc(cc1)C1=COc2cc(O)cc(O)c2C1=O"),
+        ("raloxifene", "Oc1ccc(cc1)c1sc2cc(O)ccc2c1C(=O)c1ccc(OCCN2CCCCC2)cc1"),
+    ],
+    "NR-ER-LBD": [
+        ("estradiol", "CC12CCC3c4ccc(O)cc4CCC3C1CCC2O"),
+        ("diethylstilbestrol", "CCC(=C(CC)c1ccc(O)cc1)c1ccc(O)cc1"),
+        ("raloxifene", "Oc1ccc(cc1)c1sc2cc(O)ccc2c1C(=O)c1ccc(OCCN2CCCCC2)cc1"),
+    ],
+    "NR-PPAR-gamma": [
+        ("rosiglitazone", "CN(CCOc1ccc(CC2SC(=O)NC2=O)cc1)c1ccccn1"),
+        ("pioglitazone", "CCc1ccc(CCOc2ccc(CC3SC(=O)NC3=O)cc2)nc1"),
+        ("troglitazone", "Cc1c(C)c2OC(C)(C)CCc2c(C)c1Oc1ccc(CC2SC(=O)NC2=O)cc1"),
+    ],
+    "SR-ARE": [
+        ("sulforaphane", "CS(=O)CCCCN=C=S"),
+        ("tert_butylhydroquinone", "CC(C)(C)c1cc(O)ccc1O"),
+        ("curcumin", "COc1cc(C=CC(=O)CC(=O)C=Cc2ccc(O)c(OC)c2)ccc1O"),
+    ],
+    "SR-ATAD5": [
+        ("camptothecin", "CCC1(O)C(=O)OCc2c1cc3n(c2=O)c1ccccc1nc3"),
+        ("etoposide", "COc1cc(cc(OC)c1O)C1C2C(COC2=O)C(OC2OC3COC(C)OC3C(O)C2O)c2cc3OCOc3cc12"),
+    ],
+    "SR-HSE": [
+        ("geldanamycin", "COC1CC(C)CC2=C(NCC=C(C)C(OC)C(C)C(OC(N)=O)C(C)C=C(C)C=C(C)C(=O)N1)C(=O)C=C(N)C2=O"),
+        ("ganetespib", "CC(C)c1cc(-c2n[nH]c(=O)n2-c2ccc3c(ccn3C)c2)c(O)cc1O"),
+    ],
+    "SR-MMP": [
+        ("cccp", "N#CC(=Cc1ccc([N+](=O)[O-])cc1)C#N"),
+        ("fccp", "N#CC(=Cc1ccc(cc1)C(F)(F)F)C#N"),
+        ("rotenone", "COc1cc2C3CC(C)OC3c3ccc4OC5OCCC5c4c3c2cc1OC"),
+        ("antimycin_a", "CCCCCC(C)C(OC(=O)c1ccccc1N)C(NC(=O)c1cccc(NC=O)c1O)C(C)O"),
+    ],
+    "SR-p53": [
+        ("nutlin_3", "COc1ccc(c(OC)c1)C1N(C(=O)C(N1c1ccc(Cl)cc1)c1ccc(Cl)cc1)C1CCNCC1"),
+        ("doxorubicin", "COc1cccc2c1C(=O)c1c(O)c3CC(O)(CC(OC4CC(N)C(O)C(C)O4)c3c(O)c1C2=O)C(=O)CO"),
+    ],
+}
+class EnhancedFeatureExtractor:
+    def __init__(
+        self,
+        toxicophores_path=None,
+        db_ligands_path=None,
+        use_rdkit_filters=True,
+        use_similarity=True,
+        use_db_ligands=True,
+        ecfp_radius=3,
+        ecfp_bits=8192,
+        sim_radius=2,
+        sim_bits=2048,
+    ):
+        self.toxicophores_path = toxicophores_path
+        self.db_ligands_path = db_ligands_path
+        self.use_rdkit_filters = use_rdkit_filters
+        self.use_similarity = use_similarity
+        self.use_db_ligands = use_db_ligands
+        self.ecfp_radius = ecfp_radius
+        self.ecfp_bits = ecfp_bits
+        self.sim_radius = sim_radius
+        self.sim_bits = sim_bits
+        self._toxicophore_patterns = None
+        self._filter_catalogs = None
+        self._ref_fps = None
+        self._db_ligand_fps = None
+        self._standardizer = None
+    def _get_standardizer(self):
+        if self._standardizer is None:
+            self._standardizer = _Standardizer()
+        return self._standardizer
+    def _load_toxicophores(self):
+        if self._toxicophore_patterns is None:
+            if self.toxicophores_path:
+                with open(self.toxicophores_path) as f:
+                    data = json.load(f)
+                self._toxicophore_patterns = []
+                for name, smarts in data:
+                    pat = Chem.MolFromSmarts(smarts)
+                    if pat:
+                        self._toxicophore_patterns.append((name, pat))
+        return self._toxicophore_patterns
+    def _load_filter_catalogs(self):
+        if self._filter_catalogs is None:
+            self._filter_catalogs = {}
+            for name, cat_type in [
+                ("PAINS", FilterCatalogParams.FilterCatalogs.PAINS),
+                ("BRENK", FilterCatalogParams.FilterCatalogs.BRENK),
+                ("NIH", FilterCatalogParams.FilterCatalogs.NIH),
+                ("ZINC", FilterCatalogParams.FilterCatalogs.ZINC),
+            ]:
+                params = FilterCatalogParams()
+                params.AddCatalog(cat_type)
+                self._filter_catalogs[name] = FilterCatalog(params)
+        return self._filter_catalogs
+    def _load_ref_fps(self):
+        if self._ref_fps is None:
+            self._ref_fps = {}
+            gen = rdFingerprintGenerator.GetMorganGenerator(
+                radius=self.sim_radius, fpSize=self.sim_bits
+            )
+            for target, ligands in REFERENCE_LIGANDS.items():
+                self._ref_fps[target] = []
+                for name, smi in ligands:
+                    mol = Chem.MolFromSmiles(smi)
+                    if mol:
+                        fp = gen.GetFingerprint(mol)
+                        self._ref_fps[target].append((name, fp))
+        return self._ref_fps
+    def _load_db_ligand_fps(self):
+        if self._db_ligand_fps is None and self.db_ligands_path:
+            with open(self.db_ligands_path) as f:
+                db_ligands = json.load(f)
+            gen = rdFingerprintGenerator.GetMorganGenerator(
+                radius=self.sim_radius, fpSize=self.sim_bits
+            )
+            self._db_ligand_fps = {}
+            for target in TOX21_TARGETS:
+                if target not in db_ligands:
+                    continue
+                self._db_ligand_fps[target] = []
+                for lig in db_ligands[target][:10]:
+                    smi = lig.get("smiles", "")
+                    name = lig.get("name", "unknown")[:20]
+                    mol = Chem.MolFromSmiles(smi)
+                    if mol:
+                        fp = gen.GetFingerprint(mol)
+                        self._db_ligand_fps[target].append((name, fp))
+        return self._db_ligand_fps
+    def extract_features(self, smiles_list):
+        standardizer = self._get_standardizer()
+        mols = []
+        valid_mask = []
+        for smi in smiles_list:
+            mol = Chem.MolFromSmiles(smi)
+            if mol is None:
+                valid_mask.append(False)
+                continue
+            std_mol, _ = standardizer.standardize_mol(mol)
+            if std_mol is None:
+                valid_mask.append(False)
+                continue
+            mols.append(std_mol)
+            valid_mask.append(True)
+        valid_mask = np.array(valid_mask)
+        n_total = len(smiles_list)
+        n_valid = len(mols)
+        features = {}
+        ecfps = self._compute_ecfp(mols)
+        features["ecfps"] = self._fill(ecfps, valid_mask, n_total)
+        maccs = self._compute_maccs(mols)
+        features["maccs"] = self._fill(maccs, valid_mask, n_total)
+        rdkit_descrs = self._compute_rdkit_descriptors(mols)
+        features["rdkit_descrs"] = self._fill(rdkit_descrs, valid_mask, n_total)
+        if self.toxicophores_path:
+            tox = self._compute_toxicophore_features(mols)
+            features["tox"] = self._fill(tox, valid_mask, n_total)
+        if self.use_rdkit_filters:
+            filters = self._compute_rdkit_filter_features(mols)
+            features["rdkit_filters"] = self._fill(filters, valid_mask, n_total)
+        if self.use_similarity:
+            sim = self._compute_similarity_features(mols)
+            features["similarity"] = self._fill(sim, valid_mask, n_total)
+            max_sim = self._compute_max_similarity_features(mols)
+            features["max_similarity"] = self._fill(max_sim, valid_mask, n_total)
+        if self.use_db_ligands and self.db_ligands_path:
+            db_sim = self._compute_db_ligand_similarity(mols)
+            features["db_similarity"] = self._fill(db_sim, valid_mask, n_total)
+        return features, valid_mask
+    def _fill(self, features, mask, n_total):
+        n_features = features.shape[1] if len(features.shape) > 1 else 1
+        filled = np.full((n_total, n_features), np.nan, dtype=np.float32)
+        filled[mask] = features
+        return filled
+    def _compute_ecfp(self, mols):
+        ecfps = []
+        gen = rdFingerprintGenerator.GetMorganGenerator(
+            countSimulation=True, fpSize=self.ecfp_bits, radius=self.ecfp_radius
+        )
+        for mol in mols:
+            fp = gen.GetCountFingerprint(mol)
+            arr = np.zeros((self.ecfp_bits,), dtype=np.float32)
+            DataStructs.ConvertToNumpyArray(fp, arr)
+            ecfps.append(arr)
+        return np.array(ecfps)
+    def _compute_maccs(self, mols):
+        maccs = []
+        for mol in mols:
+            fp = MACCSkeys.GenMACCSKeys(mol)
+            arr = np.zeros((167,), dtype=np.float32)
+            DataStructs.ConvertToNumpyArray(fp, arr)
+            maccs.append(arr)
+        return np.array(maccs)
+    def _compute_rdkit_descriptors(self, mols):
+        descrs_list = []
+        for mol in mols:
+            descrs = []
+            for _, fn in Descriptors._descList:
+                try:
+                    val = fn(mol)
+                    if val is None or np.isnan(val) or np.isinf(val):
+                        val = 0.0
+                except Exception:
+                    val = 0.0
+                descrs.append(val)
+            descrs = np.array(descrs)[USED_200_DESCR]
+            descrs_list.append(descrs)
+        return np.array(descrs_list, dtype=np.float32)
+    def _compute_toxicophore_features(self, mols):
+        patterns = self._load_toxicophores()
+        features = np.zeros((len(mols), len(patterns)), dtype=np.float32)
+        for i, mol in enumerate(mols):
+            for j, (name, pat) in enumerate(patterns):
+                if mol.HasSubstructMatch(pat):
+                    features[i, j] = 1.0
+        return features
+    def _compute_rdkit_filter_features(self, mols):
+        catalogs = self._load_filter_catalogs()
+        n_features = sum(cat.GetNumEntries() for cat in catalogs.values())
+        features = np.zeros((len(mols), n_features), dtype=np.float32)
+        for mol_idx, mol in enumerate(mols):
+            feat_idx = 0
+            for cat_name, catalog in catalogs.items():
+                for i in range(catalog.GetNumEntries()):
+                    entry = catalog.GetEntryWithIdx(i)
+                    if entry.HasFilterMatch(mol):
+                        features[mol_idx, feat_idx] = 1.0
+                    feat_idx += 1
+        return features
+    def _compute_similarity_features(self, mols):
+        ref_fps = self._load_ref_fps()
+        n_features = sum(len(fps) for fps in ref_fps.values())
+        features = np.zeros((len(mols), n_features), dtype=np.float32)
+        gen = rdFingerprintGenerator.GetMorganGenerator(
+            radius=self.sim_radius, fpSize=self.sim_bits
+        )
+        for mol_idx, mol in enumerate(mols):
+            mol_fp = gen.GetFingerprint(mol)
+            feat_idx = 0
+            for target in REFERENCE_LIGANDS.keys():
+                for name, ref_fp in ref_fps[target]:
+                    features[mol_idx, feat_idx] = DataStructs.TanimotoSimilarity(
+                        mol_fp, ref_fp
+                    )
+                    feat_idx += 1
+        return features
+    def _compute_max_similarity_features(self, mols):
+        ref_fps = self._load_ref_fps()
+        features = np.zeros((len(mols), len(TOX21_TARGETS)), dtype=np.float32)
+        gen = rdFingerprintGenerator.GetMorganGenerator(
+            radius=self.sim_radius, fpSize=self.sim_bits
+        )
+        for mol_idx, mol in enumerate(mols):
+            mol_fp = gen.GetFingerprint(mol)
+            for target_idx, target in enumerate(TOX21_TARGETS):
+                if target in ref_fps and ref_fps[target]:
+                    sims = [
+                        DataStructs.TanimotoSimilarity(mol_fp, fp)
+                        for _, fp in ref_fps[target]
+                    ]
+                    features[mol_idx, target_idx] = max(sims)
+        return features
+    def _compute_db_ligand_similarity(self, mols):
+        db_fps = self._load_db_ligand_fps()
+        if not db_fps:
+            return np.zeros((len(mols), 0), dtype=np.float32)
+        n_features = sum(len(fps) for fps in db_fps.values())
+        features = np.zeros((len(mols), n_features), dtype=np.float32)
+        gen = rdFingerprintGenerator.GetMorganGenerator(
+            radius=self.sim_radius, fpSize=self.sim_bits
+        )
+        for mol_idx, mol in enumerate(mols):
+            mol_fp = gen.GetFingerprint(mol)
+            feat_idx = 0
+            for target in TOX21_TARGETS:
+                if target not in db_fps:
+                    continue
+                for name, ref_fp in db_fps[target]:
+                    features[mol_idx, feat_idx] = DataStructs.TanimotoSimilarity(
+                        mol_fp, ref_fp
+                    )
+                    feat_idx += 1
+        return features
+class _Standardizer:
+    def __init__(self):
+        self._taut_enumerator = None
+        self._uncharger = None
+        self._lfrag_chooser = None
+    @property
+    def taut_enumerator(self):
+        if self._taut_enumerator is None:
+            self._taut_enumerator = rdMolStandardize.TautomerEnumerator()
+        return self._taut_enumerator
+    @property
+    def uncharger(self):
+        if self._uncharger is None:
+            self._uncharger = rdMolStandardize.Uncharger()
+        return self._uncharger
+    @property
+    def lfrag_chooser(self):
+        if self._lfrag_chooser is None:
+            self._lfrag_chooser = rdMolStandardize.LargestFragmentChooser()
+        return self._lfrag_chooser
+    def standardize_mol(self, mol_in):
+        try:
+            params = Chem.RemoveHsParameters()
+            params.removeAndTrackIsotopes = True
+            mol = Chem.RemoveHs(mol_in, params, sanitize=False)
+            mol = rdMolStandardize.Cleanup(mol)
+            Chem.SanitizeMol(mol)
+            Chem.AssignStereochemistry(mol)
+            mol = self.lfrag_chooser.choose(mol)
+            mol = self.uncharger.uncharge(mol)
+            Chem.SanitizeMol(mol)
+            mol = Chem.RemoveHs(Chem.AddHs(mol))
+            can_smiles = Chem.MolToSmiles(mol)
+            return mol, can_smiles
+        except Exception:
+            return None, None
+def get_feature_counts(toxicophores_path=None, db_ligands_path=None):
+    counts = {
+        "ecfps": 8192,
+        "maccs": 167,
+        "rdkit_descrs": 208,
+    }
+    if toxicophores_path:
+        with open(toxicophores_path) as f:
+            tox_data = json.load(f)
+        counts["tox"] = len(tox_data)
+    rdkit_count = 0
+    for cat_type in [
+        FilterCatalogParams.FilterCatalogs.PAINS,
+        FilterCatalogParams.FilterCatalogs.BRENK,
+        FilterCatalogParams.FilterCatalogs.NIH,
+        FilterCatalogParams.FilterCatalogs.ZINC,
+    ]:
+        params = FilterCatalogParams()
+        params.AddCatalog(cat_type)
+        rdkit_count += FilterCatalog(params).GetNumEntries()
+    counts["rdkit_filters"] = rdkit_count
+    counts["similarity"] = sum(len(ligs) for ligs in REFERENCE_LIGANDS.values())
+    counts["max_similarity"] = len(TOX21_TARGETS)
+    if db_ligands_path:
+        with open(db_ligands_path) as f:
+            db_ligands = json.load(f)
+        counts["db_similarity"] = sum(min(len(v), 10) for v in db_ligands.values())
+    return counts

src/model.py ADDED Viewed

	@@ -0,0 +1,33 @@

+import torch
+import torch.nn as nn
+class Tox21SNN(nn.Module):
+    def __init__(self, in_features, hidden_dim=768, n_layers=8, dropout=0.05):
+        super().__init__()
+        self.in_features = in_features
+        self.hidden_dim = hidden_dim
+        self.n_layers = n_layers
+        activation = nn.SELU()
+        drop = nn.AlphaDropout(p=dropout)
+        dims = [hidden_dim] * (n_layers + 1)
+        dims[0] = in_features
+        dims[-1] = 12
+        layers = []
+        for i in range(n_layers + 1):
+            in_dim = dims[i]
+            out_dim = dims[-1] if i == n_layers else dims[i + 1]
+            fc = nn.Linear(in_dim, out_dim)
+            if i < n_layers:
+                layers.extend([fc, activation, drop])
+            else:
+                layers.append(fc)
+        self.model = nn.Sequential(*layers)
+    def forward(self, x):
+        return self.model(x)