khanfs
/

ChemSolubilityBERTa

Text Classification

cheminformatics

materials science

Model card Files Files and versions

khanfs commited on Sep 25, 2024

Commit

c389fa0

·

verified ·

1 Parent(s): 1622e5a

Update README.md

Files changed (1) hide show

README.md +10 -5

README.md CHANGED Viewed

@@ -16,11 +16,10 @@ base_model:
 ---
 # ChemSolubilityBERTa
-**ChemSolubilityBERTa** is a fine-tuned version of the ChemBERTa model, a prototype designed to predict the aqueous solubility of chemical compounds based on their SMILES representations. Based on ChemBERTa, a BERT-like transformer-based architecture, ChemBERTa pre-trained on 77M SMILES strings for molecular property prediction. We adapted ChemBERTa to predict solubility values by fine-tuning ChemBERTa with the ESOL (Estimated SOLubility) dataset, a water solubility prediction dataset of 1,128 samples. A user inputs a SMILES string, and the model outputs a log solubility value (log mol/L).
-You can read the full paper [here](./01_ChemSolubilityBERTa.pdf).
 ## Model Description
-This model was fine-tuned using the ESOL dataset, which contains experimental solubility data for various chemical compounds. ChemBERTa, based on BERT architecture, was adapted to perform regression tasks, outputting a predicted log solubility value for any given SMILES string.
 ## Fine-Tuning Details
 - Pretrained model: `seyonec/ChemBERTa-zinc-base-v1`
@@ -42,4 +41,10 @@ smiles_string = "CCO"  # Example for ethanol
 inputs = tokenizer(smiles_string, return_tensors='pt')
 outputs = model(**inputs)
 solubility = outputs.logits.item()
-print(f"Predicted solubility: {solubility}")

 ---
 # ChemSolubilityBERTa
 ## Model Description
+ChemSolubilityBERTa is a prototype designed to predict the aqueous solubility of chemical compounds from their SMILES representations. Based on ChemBERTa, a BERT-like transformer-based architecture, ChemBERTa pre-trained on 77M SMILES strings for molecular property prediction. We adapted ChemBERTa to predict solubility values by fine-tuning ChemBERTa with the ESOL (Estimated SOLubility) dataset, a water solubility prediction dataset of 1,128 samples. A user inputs a SMILES string, and the model outputs a log solubility value (log mol/L).
+You can read the full paper [here](./01_ChemSolubilityBERTa.pdf).
 ## Fine-Tuning Details
 - Pretrained model: `seyonec/ChemBERTa-zinc-base-v1`
 inputs = tokenizer(smiles_string, return_tensors='pt')
 outputs = model(**inputs)
 solubility = outputs.logits.item()
+print(f"Predicted solubility: {solubility}")
+##How to Use
+This model is licensed under the [MIT License](https://opensource.org/licenses/MIT).