Dingyun-Huang
/

oe-sbert-embedding

@@ -6,15 +6,44 @@ tags:
 - feature-extraction
 - sentence-similarity
 - transformers
 ---
-# Dingyun-Huang/oe-sbert-raw-mean
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search.
 <!--- Describe your model here -->
 ## Usage (Sentence-Transformers)
 Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
@@ -29,7 +58,7 @@ Then you can use the model like this:
 from sentence_transformers import SentenceTransformer
 sentences = ["This is an example sentence", "Each sentence is converted"]
-model = SentenceTransformer('Dingyun-Huang/oe-sbert-raw-mean')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
@@ -55,8 +84,8 @@ def mean_pooling(model_output, attention_mask):
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
-tokenizer = AutoTokenizer.from_pretrained('Dingyun-Huang/oe-sbert-raw-mean')
-model = AutoModel.from_pretrained('Dingyun-Huang/oe-sbert-raw-mean')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
@@ -78,18 +107,38 @@ print(sentence_embeddings)
 <!--- Describe how your model was evaluated -->
-For an automated evaluation of this model, see the *Sentence Embeddings Benchmark*: [https://seb.sbert.net](https://seb.sbert.net?model_name=Dingyun-Huang/oe-sbert-raw-mean)
 ## Full Model Architecture
 ```
 SentenceTransformer(
-  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
   (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
 )
 ```
 ## Citing & Authors
-<!--- Describe where people can find more information -->

 - feature-extraction
 - sentence-similarity
 - transformers
+- optoelectronics
+license: mit
+datasets:
+- CambridgeMolecularEngineering/oe-ttl-abs-303k
+language:
+- en
+base_model:
+- bert-base-uncased
 ---
+# Dingyun-Huang/oe-sroberta-embedding
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search.
 <!--- Describe your model here -->
+**The OE-BERT model is domain adapted from bert-base-uncased over research literature in optoelectronics. The adapted model is then fine-tuned on abstracts and titles of optoelectronics research articles for embedding capabilities.**
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Language(s) (NLP):** English
+- **Adapted from model:** bert-base-uncased
+### Model Sources
+<!-- Provide the basic links for the model. -->
+- **Repository:** [OptoelectronicsLM-codebase (GitHub)](https://github.com/Dingyun-Huang/OptoelectronicsLM-codebase)
+- **Paper:** [
+Cost-Efficient Domain-Adaptive Pretraining of Language Models for Optoelectronics Applications](https://pubs.acs.org/doi/10.1021/acs.jcim.4c02029)
 ## Usage (Sentence-Transformers)
 Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
 from sentence_transformers import SentenceTransformer
 sentences = ["This is an example sentence", "Each sentence is converted"]
+model = SentenceTransformer('Dingyun-Huang/oe-sroberta-embedding')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
+tokenizer = AutoTokenizer.from_pretrained('Dingyun-Huang/oe-sroberta-embedding')
+model = AutoModel.from_pretrained('Dingyun-Huang/oe-sroberta-embedding')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
 <!--- Describe how your model was evaluated -->
+For an automated evaluation of this model, see the *Sentence Embeddings Benchmark*: [https://seb.sbert.net](https://seb.sbert.net?model_name=Dingyun-Huang/oe-sroberta-embedding)
 ## Full Model Architecture
 ```
 SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
   (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
 )
 ```
 ## Citing & Authors
+<!--- Describe where people can find more information -->
+**BibTeX:**
+```bibtex
+@article{doi:10.1021/acs.jcim.4c02029,
+  author = {Huang, Dingyun and Cole, Jacqueline M.},
+  title = {Cost-Efficient Domain-Adaptive Pretraining of Language Models for Optoelectronics Applications},
+  journal = {Journal of Chemical Information and Modeling},
+  volume = {65},
+  number = {5},
+  pages = {2476-2486},
+  year = {2025},
+  doi = {10.1021/acs.jcim.4c02029},
+      note ={PMID: 39933074},
+  URL = {
+          https://doi.org/10.1021/acs.jcim.4c02029
+  },
+  eprint = {
+          https://doi.org/10.1021/acs.jcim.4c02029
+  }
+}
+```