Spaces:

rkingery
/

dumb-language-model

Build error

rkingery commited on Aug 7, 2022

Commit

435428f

1 Parent(s): ac144e1

fixed bug

Files changed (2) hide show

.gitignore ADDED Viewed

+*.log
+*.aux
+*.tex
+*.synctex.gz
+.ipynb_checkpoints
+**/*.ipynb_checkpoints
+__pycache__
+**/__pycache__
+hidden

utils.py CHANGED Viewed

@@ -5,7 +5,7 @@ from pathlib import Path
 from model import EncoderLM
 MAX_LEN = 50
-TEMPERATURE = 5.0
 device = 'cpu'
 model_dir = Path().cwd() / 'models'
@@ -48,7 +48,7 @@ def clean_text(tokens):
     detokenizer = TreebankWordDetokenizer()
     return detokenizer.detokenize(text)
-def generate_text(seed, model, vocab, max_len=20, temperature=0.5, device=device, skip_tokens=['<unk>'], top_k=100):
     stoi, itos = vocab.get_stoi(), vocab.get_itos()
     stoi_map = lambda word: stoi[word] if word in stoi.keys() else stoi['<unk>']
     tokenizer = torchtext.data.utils.get_tokenizer('basic_english')
@@ -81,6 +81,6 @@ def generate_text(seed, model, vocab, max_len=20, temperature=0.5, device=device
 if __name__ == '__main__':
     vocab = get_vocab()
     model = get_model()
-    seed = 'The entropy of the universe is'
-    generated = generate_text(seed, model, vocab, max_len=20, temperature=0.1, device=device, skip_tokens=['<unk>'], top_k=100)
     print(generated)

 from model import EncoderLM
 MAX_LEN = 50
+TEMPERATURE = 1.0
 device = 'cpu'
 model_dir = Path().cwd() / 'models'
     detokenizer = TreebankWordDetokenizer()
     return detokenizer.detokenize(text)
+def generate_text(seed, model, vocab, max_len=20, temperature=0.5, device=device, skip_tokens=['<unk>'], top_k=50):
     stoi, itos = vocab.get_stoi(), vocab.get_itos()
     stoi_map = lambda word: stoi[word] if word in stoi.keys() else stoi['<unk>']
     tokenizer = torchtext.data.utils.get_tokenizer('basic_english')
 if __name__ == '__main__':
     vocab = get_vocab()
     model = get_model()
+    seed = 'Tell me a story about'
+    generated = generate_text(seed, model, vocab, max_len=20, temperature=1.0, device=device, skip_tokens=['<unk>'], top_k=50)
     print(generated)