CodeBERT_CodeReviewer

Runtime error

App Files Files Community

Not-Grim-Refer commited on Jul 25, 2023

Commit

54f7dc9

1 Parent(s): 78cc03b

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -74

app.py CHANGED Viewed

@@ -1,81 +1,47 @@
-# Import necessary modules
 import gradio as gr
 import requests
-from transformers import AutoTokenizer, T5ForConditionalGeneration, T5Config
 import torch
-# Define maximum sequence length
 MAX_SOURCE_LENGTH = 512
-# Load tokenizer and model
-tokenizer = AutoTokenizer.from_pretrained("microsoft/codereviewer")
-tokenizer.add_special_tokens({'additional_special_tokens': ['<e99>', '<e98>',..., '<e0>', '<msg>', '<add>', '<del>', '<keep>']})
-config = T5Config.from_pretrained("microsoft/codereviewer")
-model = T5ForConditionalGeneration.from_pretrained("microsoft/codereviewer", config=config)
-model.eval()
-def pad_to_max_length(source_ids):
-  source_ids = source_ids[:MAX_SOURCE_LENGTH-2]
-  source_ids = [tokenizer.bos_token_id] + source_ids + [tokenizer.eos_token_id]
-  pad_len = MAX_SOURCE_LENGTH - len(source_ids)
-  source_ids += [tokenizer.pad_token_id] * pad_len
-  assert len(source_ids) == MAX_SOURCE_LENGTH
-  return source_ids
-def encode_diff(diff, msg, source):
-  lines = diff.split('\n')[1:]
-  lines = [line for line in lines if line.strip()]
-  labels = [0 if line[0] == '-' else 1 if line[0] == '+' else 2 for line in lines]
-  lines = [line[1:].strip() for line in lines]
-  tokens = [tokenizer.bos_token] + tokenizer.tokenize(source) + [tokenizer.eos_token]
-  tokens += tokenizer.tokenize(msg)
-  for label, line in zip(labels, lines):
-     if label == 1:
-        tokens += ['<add>'] + tokenizer.tokenize(line)
-     elif label == 0:
-        tokens += ['<del>'] + tokenizer.tokenize(line)
-     else:
-        tokens += ['<keep>'] + tokenizer.tokenize(line)
-  return pad_to_max_length(tokenizer.convert_tokens_to_ids(tokens))
-def get_diffs_and_msg(user, repo, commit):
-  commit_data = requests.get(f'https://api.github.com/repos/{user}/{repo}/commits/{commit}').json()
-  msg = commit_data['commit']['message']
-  diff_response = requests.get(f'https://api.github.com/repos/{user}/{repo}/commits/{commit}',
-                               headers={'Accept': 'application/vnd.github.diff'})
-  diffs = diff_response.text
-  return diffs, msg
-def generate_comments(user, repo, commit):
-  diffs, msg = get_diffs_and_msg(user, repo, commit)
-  file_diffs = []
-  for diff in diffs.split('diff --git')[1:]:
-    lines = diff.split('\n')
-    file_name = lines[0].split(' a/')[1].split(' b/')[0]
-    file_diffs.append({'name': file_name, 'diff': diff})
-  output = ''
-  for fd in file_diffs:
-    source = requests.get(f'https://raw.githubusercontent.com/{user}/{repo}/{commit}/{fd["name"]}').text
-    encoded = encode_diff(fd['diff'], msg, source)
-    input_ids = torch.tensor([encoded]).to(model.device)
-    attention_mask = input_ids.ne(tokenizer.pad_token_id).to(model.device)
-    output_sequences = model.generate(
-      input_ids=input_ids,
-      attention_mask=attention_mask,
-      max_length=100,
-      num_beams=5,
-      num_return_sequences=2,
-      early_stopping=True
-    )
-    comments = [tokenizer.decode(ids, skip_special_tokens=True) for ids in output_sequences]
-    output += f'File: {fd["name"]}\n{fd["diff"]}\n\nComments:\n{comments[0]}\n\n'
-  return output

 import gradio as gr
 import requests
+from torch import nn
+from torch.nn import CrossEntropyLoss
+from transformers import AutoTokenizer, T5ForConditionalGeneration, AutoModelForSeq2SeqLM, T5Config
 import torch
 MAX_SOURCE_LENGTH = 512
+class ReviewerModel(T5ForConditionalGeneration):
+    def __init__(self, config):
+        super().__init__(config)
+        self.cls_head = nn.Linear(config.d_model, 2, bias=True)
+        # Fixed typo: config not self.config
+        self.init()
+    def init(self):
+        nn.init.xavier_uniform_(self.lm_head.weight)
+        factor = self.config.initializer_factor
+        self.cls_head.weight.data.normal_(mean=0.0, std=factor * (self.config.d_model ** -0.5))
+        # Fixed exponentiation operator
+        self.cls_head.bias.data.zero_()
+    def forward(
+            self, input_ids, attention_mask, decoder_input_ids, decoder_attention_mask, labels=None):
+        # Simplified method signature to only include necessary arguments
+        if labels is not None:
+            # Added validation check for seq2seq case
+            outputs = super().forward(
+                input_ids=input_ids,
+                attention_mask=attention_mask,
+                decoder_input_ids=decoder_input_ids,
+                decoder_attention_mask=decoder_attention_mask,
+                labels=labels
+            )
+            # Call super forward method with correct arguments
+            return outputs
+        # Removed unnecessary conditional logic
+        # Return super() forward directly for generation case