Spaces:

AB498
/

codebert-base-mlm

Sleeping

App Files Files Community

AB498 commited on Nov 19, 2025

Commit

7ef9108

1 Parent(s): 480c4e6

.

Browse files

Files changed (1) hide show

app.py +101 -43

app.py CHANGED Viewed

@@ -1,50 +1,108 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-def respond(
-    message,
-    history: list[dict[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-):
-    client = InferenceClient(model="openai/gpt-oss-20b")
-    messages = [{"role": "system", "content": system_message}]
-    messages.extend(history)
-    messages.append({"role": "user", "content": message})
-    response = ""
-    for msg in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        choices = msg.choices
-        token = ""
-        if len(choices) and choices[0].delta.content:
-            token = choices[0].delta.content
-        response += token
-        yield response
-chatbot = gr.ChatInterface(
-    respond,
-    type="messages",
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p"),
-    ],
-)
-demo = gr.Blocks()
-with demo:
-    chatbot.render()
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+from transformers import RobertaTokenizer, RobertaForMaskedLM
+import torch
+# Load CodeBERT model and tokenizer
+model_name = "microsoft/codebert-base-mlm"
+tokenizer = RobertaTokenizer.from_pretrained(model_name)
+model = RobertaForMaskedLM.from_pretrained(model_name)
+def predict_masked_code(code_with_mask, top_k=5):
+    """
+    Predict the masked token in code.
+    Use <mask> to indicate where to predict.
+    """
+    try:
+        # Replace <mask> with the tokenizer's mask token
+        code_with_mask = code_with_mask.replace("<mask>", tokenizer.mask_token)
+        # Tokenize input
+        inputs = tokenizer(code_with_mask, return_tensors="pt")
+        # Find the position of the mask token
+        mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]
+        if len(mask_token_index) == 0:
+            return "Error: No <mask> token found in the input. Please include <mask> where you want predictions."
+        # Get predictions
+        with torch.no_grad():
+            outputs = model(**inputs)
+            predictions = outputs.logits
+        # Get top-k predictions for the mask token
+        mask_token_logits = predictions[0, mask_token_index, :]
+        top_tokens = torch.topk(mask_token_logits, top_k, dim=1)
+        results = []
+        for i, (token_id, score) in enumerate(zip(top_tokens.indices[0].tolist(), top_tokens.values[0].tolist())):
+            predicted_token = tokenizer.decode([token_id])
+            filled_code = code_with_mask.replace(tokenizer.mask_token, predicted_token)
+            results.append(f"{i+1}. {predicted_token} (score: {score:.2f})\n   Code: {filled_code}")
+        return "\n\n".join(results)
+    except Exception as e:
+        return f"Error: {str(e)}"
+# Create Gradio interface
+with gr.Blocks(title="CodeBERT Masked Language Model") as demo:
+    gr.Markdown(
+        """
+        # CodeBERT Masked Language Model
+        This model predicts masked tokens in code. Use `<mask>` to indicate where you want predictions.
+        ### Examples:
+        - `def <mask>(x, y): return x + y`
+        - `import <mask>`
+        - `for i in <mask>(10):`
+        - `x = [1, 2, 3]; y = x.<mask>()`
+        """
+    )
+    with gr.Row():
+        with gr.Column():
+            code_input = gr.Textbox(
+                label="Code with <mask>",
+                placeholder="Enter code with <mask> token...",
+                lines=5,
+                value="def <mask>(x, y):\n    return x + y"
+            )
+            top_k_slider = gr.Slider(
+                minimum=1,
+                maximum=10,
+                value=5,
+                step=1,
+                label="Number of predictions"
+            )
+            predict_btn = gr.Button("Predict", variant="primary")
+        with gr.Column():
+            output = gr.Textbox(
+                label="Predictions",
+                lines=15,
+                interactive=False
+            )
+    # Examples
+    gr.Examples(
+        examples=[
+            ["def <mask>(x, y):\n    return x + y", 5],
+            ["import <mask>", 5],
+            ["for i in <mask>(10):", 5],
+            ["x = [1, 2, 3]\ny = x.<mask>()", 5],
+            ["if x <mask> 0:", 5],
+            ["class <mask>:", 5],
+        ],
+        inputs=[code_input, top_k_slider],
+    )
+    predict_btn.click(
+        fn=predict_masked_code,
+        inputs=[code_input, top_k_slider],
+        outputs=output
+    )
 if __name__ == "__main__":
     demo.launch()