Spaces:

AYYasaswini
/

TransformerLearning

Runtime error

App Files Files Community

AYYasaswini commited on Jun 12, 2024

Commit

2d9ca46

verified ·

1 Parent(s): 3c9d553

Update gpt_dev.py

Browse files

Files changed (1) hide show

gpt_dev.py +2 -17

gpt_dev.py CHANGED Viewed

@@ -317,7 +317,7 @@ from torch.nn import functional as F
 # hyperparameters
 batch_size = 16 # how many independent sequences will we process in parallel?
 block_size = 32 # what is the maximum context length for predictions?
-max_iters = 5000
 #00
 eval_interval = 100
 learning_rate = 1e-3
@@ -450,8 +450,7 @@ class Block(nn.Module):
 class BigramLanguageModel(nn.Module):
     def __init__(self):
-        #super().__init__()
-        super(BigramLanguageModel, self).__init__()
         # each token directly reads off the logits for the next token from a lookup table
         self.token_embedding_table = nn.Embedding(vocab_size, n_embd)
         self.position_embedding_table = nn.Embedding(block_size, n_embd)
@@ -498,11 +497,9 @@ class BigramLanguageModel(nn.Module):
         return idx
 model = BigramLanguageModel()
-torch.save(model.state_dict(), 'transformer_weights.pth')
 m = model.to(device)
 # print the number of parameters in the model
 print(sum(p.numel() for p in m.parameters())/1e6, 'M parameters')
-torch.save(model, 'transformer_model.pth')
 # create a PyTorch optimizer
 optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)
@@ -527,15 +524,3 @@ for iter in range(max_iters):
 context = torch.zeros((1, 1), dtype=torch.long, device=device)
 print(decode(m.generate(context, max_new_tokens=2000)[0].tolist()))
-# Load the saved weights into the model
-model.load_state_dict(torch.load('transformer_weights.pth'))
-print("Model weights loaded successfully.")
-import torch
-# Load the entire model
-model = torch.load('transformer_model.pth')
-model.eval()  # Set the model to evaluation mode
-print("Entire model loaded successfully.")

 # hyperparameters
 batch_size = 16 # how many independent sequences will we process in parallel?
 block_size = 32 # what is the maximum context length for predictions?
+max_iters = 3000
 #00
 eval_interval = 100
 learning_rate = 1e-3
 class BigramLanguageModel(nn.Module):
     def __init__(self):
+        super().__init__()
         # each token directly reads off the logits for the next token from a lookup table
         self.token_embedding_table = nn.Embedding(vocab_size, n_embd)
         self.position_embedding_table = nn.Embedding(block_size, n_embd)
         return idx
 model = BigramLanguageModel()
 m = model.to(device)
 # print the number of parameters in the model
 print(sum(p.numel() for p in m.parameters())/1e6, 'M parameters')
 # create a PyTorch optimizer
 optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)
 context = torch.zeros((1, 1), dtype=torch.long, device=device)
 print(decode(m.generate(context, max_new_tokens=2000)[0].tolist()))