Taykhoom
/

RNA-FM

@@ -65,6 +65,9 @@ sequences = [
     "GGGUGCGAUCAUACCAGCACUAAUGCCCUCCUGGGAAGUCCUCGUGUUGCACCCCU",
     "AUCGGGCUUAGCAUAGCUU",
 ]
 enc = tokenizer(sequences, return_tensors="pt", padding=True)
 with torch.no_grad():

     "GGGUGCGAUCAUACCAGCACUAAUGCCCUCCUGGGAAGUCCUCGUGUUGCACCCCU",
     "AUCGGGCUUAGCAUAGCUU",
 ]
+# RNA-FM was trained on RNA sequences (U not T). T is not in the vocabulary.
+# If your sequences use DNA notation, convert first:
+#   sequences = [s.replace("T", "U") for s in sequences]
 enc = tokenizer(sequences, return_tensors="pt", padding=True)
 with torch.no_grad():