Get the gene keys and gene list keys from the token dictionary instead of medians

#304

by hchen725 - opened Feb 27, 2024

←

Files changed (1) hide show

geneformer/tokenizer.py CHANGED Viewed

@@ -132,7 +132,7 @@ class TranscriptomeTokenizer:
             self.gene_token_dict = pickle.load(f)
         # gene keys for full vocabulary
-        self.gene_keys = list(self.gene_median_dict.keys())
         # protein-coding and miRNA gene list dictionary for selecting .loom rows for tokenization
         self.genelist_dict = dict(zip(self.gene_keys, [True] * len(self.gene_keys)))

             self.gene_token_dict = pickle.load(f)
         # gene keys for full vocabulary
+        self.gene_keys = list(self.gene_token_dict.keys())
         # protein-coding and miRNA gene list dictionary for selecting .loom rows for tokenization
         self.genelist_dict = dict(zip(self.gene_keys, [True] * len(self.gene_keys)))