arazd
/

MIReAD

Text Classification

representations

scientific documents

Model card Files Files and versions

arazd commited on May 6, 2023

Commit

0a08038

·

1 Parent(s): add5bb0

Update README.md

Files changed (1) hide show

README.md +22 -0

README.md CHANGED Viewed

@@ -17,4 +17,26 @@ from transformers import BertForSequenceClassification, AutoTokenizer
 mpath = 'arazd/miread'
 model_hub = BertForSequenceClassification.from_pretrained(mpath)
 tokenizer = AutoTokenizer.from_pretrained(mpath)
 ```

 mpath = 'arazd/miread'
 model_hub = BertForSequenceClassification.from_pretrained(mpath)
 tokenizer = AutoTokenizer.from_pretrained(mpath)
+```
+To use MIReAD for feature extraction and classification:
+```python
+# sample abstract text
+abstr = 'Learning semantically meaningful representations from scientific documents can ...'
+source_len = 512
+inputs = tokenizer(abstr,
+                   max_length = source_len,
+                   pad_to_max_length=True,
+                   truncation=True,
+                   return_tensors="pt")
+# classification (getting logits over 2,734 journal classes)
+out = model(**inputs)
+logits = out.logits
+# feature extraction (getting 768-dimensional feature profiles)
+out = model.bert(**inputs)
+# IMPORTANT: use [CLS] token representation as document-level representation (hence, 0th idx)
+feature = out.last_hidden_state[:, 0, :]
 ```