kojima-lab
/

molcrawl-compounds-bert-medium

molecule-compound

Model card Files Files and versions

deskull commited on Apr 24

Commit

dcaa2f5

·

verified ·

1 Parent(s): 43af36a

Add model card

Files changed (1) hide show

README.md +29 -8

README.md CHANGED Viewed

@@ -11,24 +11,45 @@ pipeline_tag: fill-mask
 ## Model Description
-This model was trained using the RIKEN Foundation Model training pipeline.
 - **Model Type**: bert
 - **Data Type**: Molecule/Compound
-- **Training Date**: 2026-04-22
 ## Usage
 ```python
-from transformers import AutoModel, AutoTokenizer
-# Load model and tokenizer
-model = AutoModel.from_pretrained("kojima-lab/molcrawl-compounds-bert-medium")
 tokenizer = AutoTokenizer.from_pretrained("kojima-lab/molcrawl-compounds-bert-medium")
-# Example usage
-inputs = tokenizer("your input sequence", return_tensors="pt")
-outputs = model(**inputs)
 ```
 ## Training

 ## Model Description
+GPT-2 medium (345M parameters) foundation model pre-trained on compound SMILES strings from the MolCrawl dataset.
+The tokenizer is a character-level BPE tokenizer (vocab_size=612) that encodes each SMILES character as a separate token. Input SMILES strings should be passed **without** spaces (e.g. `CC(=O)O`). The `[SEP]` token (id=13) is used as the end-of-sequence marker.
+## Datasets
+- **MolCrawl compounds corpus (chembl + zinc + opv + reddb + pubchemqc)**: [https://github.com/mmai-framework-lab/MolCrawl-HFuploader/blob/main/workflows/hugging_face/run_upload_hf.sh](https://github.com/mmai-framework-lab/MolCrawl-HFuploader/blob/main/workflows/hugging_face/run_upload_hf.sh) (Pre-training corpus)
 - **Model Type**: bert
 - **Data Type**: Molecule/Compound
+- **Training Date**: 2026-04-24
 ## Usage
 ```python
+from transformers import AutoModelForMaskedLM, AutoTokenizer
+import torch
+model = AutoModelForMaskedLM.from_pretrained("kojima-lab/molcrawl-compounds-bert-medium")
 tokenizer = AutoTokenizer.from_pretrained("kojima-lab/molcrawl-compounds-bert-medium")
+# Predict masked SMILES token
+# Use tokenizer.mask_token instead of hardcoded "[MASK]":
+# BERT-style tokenizers vary ("[MASK]", "<mask>", etc.)
+if tokenizer.mask_token is None:
+    raise ValueError("This tokenizer has no mask_token; masked LM inference is not supported.")
+prompt = "CC(=O){MASK}".replace("{MASK}", tokenizer.mask_token)
+inputs = tokenizer(prompt, return_tensors="pt")
+mask_index = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero(as_tuple=True)[1]
+with torch.no_grad():
+    outputs = model(**inputs)
+logits = outputs.logits
+predicted_token_id = logits[0, mask_index].argmax(dim=-1)
+predicted_token = tokenizer.decode(predicted_token_id)
+result = prompt.replace(tokenizer.mask_token, predicted_token)
+print(f"Predicted: {result}")
 ```
 ## Training