Spaces:

a0ms1n
/

AI-Code-Detector_for-Competitive-Programming

Running

App Files Files Community

a0ms1n commited on Jun 5, 2025

Commit

e6e78f1

1 Parent(s): 304ed85

Upload Files

Browse files

I destroyed my previous repo, so here we go...

Files changed (11) hide show

.gitattributes +35 -35
Model-V0.5.1/config.json +36 -0
Model-V0.5.1/merges.txt +0 -0
Model-V0.5.1/special_tokens_map.json +51 -0
Model-V0.5.1/tokenizer.json +0 -0
Model-V0.5.1/tokenizer_config.json +58 -0
Model-V0.5.1/vocab.json +0 -0
Model_Evaluate.py +96 -0
README.md +14 -14
app.py +33 -0
requirements.txt +7 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,35 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

Model-V0.5.1/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Human",
+    "1": "AI"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "AI": 1,
+    "Human": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

Model-V0.5.1/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

Model-V0.5.1/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

Model-V0.5.1/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Model-V0.5.1/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

Model-V0.5.1/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Model_Evaluate.py ADDED Viewed

	@@ -0,0 +1,96 @@

+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer, AutoConfig, AutoModel
+from datasets import Dataset, DatasetDict, Features, Sequence, ClassLabel, Value
+import pandas as pd
+import re
+import subprocess
+import shutil
+import torch
+model_path = "Model-V0.5.1"
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+config = AutoConfig.from_pretrained(model_path)
+model = AutoModelForSequenceClassification.from_pretrained(model_path, config=config)
+labels = model.config.id2label
+label2id = model.config.label2id
+import re
+preprocessor_pattern = re.compile(r'^\s*#.*$', re.MULTILINE)
+block_comment_pattern = re.compile(r'/\*.*?\*/', re.DOTALL)
+using_namespace_pattern = re.compile(r'^\s*using\s+namespace\s+[a-zA-Z_][a-zA-Z0-9_:]*\s*;', re.MULTILINE)
+line_comment_pattern = re.compile(r'//.*')
+def remove_comments(code):
+    code = block_comment_pattern.sub('', code)
+    code = line_comment_pattern.sub('', code)
+    return code
+def replace_preprocessor(code):
+    code = preprocessor_pattern.sub('<PREPROCESSOR>', code)
+    return using_namespace_pattern.sub('<NAMESPACE>', code)
+def strip_lines(text, max_blank_lines=0):
+    text += '\n'
+    lines = text.splitlines()
+    kept = []
+    consec = 0
+    for line in lines:
+        if line.strip() == "":
+            consec +=1
+        else:
+            consec = 0
+        if consec <= max_blank_lines:
+            kept.append(line)
+    return '\n'.join(kept)
+paren_brace_space_pattern = re.compile(r'\([^\)]*\)\s+\{')
+multiline_function_pattern = re.compile(r'(\([^\)]*\))\s*\n\s*\{')
+def normalize_braces(code):
+    code = multiline_function_pattern.sub(r'\1{', code)
+    # code = paren_brace_space_pattern.sub('(){', code)
+    return code
+def format_cpp(code: str, style: str = "Google") -> str:
+    if not shutil.which("clang-format"):
+        raise EnvironmentError("clang-format is not installed or not in PATH.")
+    result = subprocess.run(
+        ["clang-format", f"--style={style}"],
+        input=code.encode(),
+        stdout=subprocess.PIPE,
+        stderr=subprocess.PIPE,
+        check=True
+    )
+    return result.stdout.decode()
+def preprocess(code):
+    # code = format_cpp(code)
+    code = remove_comments(code)
+    code = replace_preprocessor(code)
+    code = normalize_braces(code)
+    code = strip_lines(code)
+    return code
+def eval(source):
+    source = preprocess(source)
+    inputs = tokenizer(
+        source,
+        truncation=True,
+        padding='max_length',
+        max_length=512,
+        return_tensors='pt'
+    )
+    model.cpu()
+    model.eval()
+    inputs = {k: v.cpu() for k, v in inputs.items()}
+    with torch.no_grad():
+        outputs = model(**inputs)
+    probs = torch.softmax(outputs.logits, dim=-1).detach().cpu().numpy()[0]
+    pred_id = probs.argmax()
+    # print("Label:", labels[pred_id], " | Score:", probs[pred_id])
+    return labels[pred_id], f"{probs[label2id['AI']]*100:.2f} %"

README.md CHANGED Viewed

@@ -1,14 +1,14 @@
----
-title: Competitive Programming AI Code Detector
-emoji: 🔥
-colorFrom: blue
-colorTo: indigo
-sdk: gradio
-sdk_version: 5.33.0
-app_file: app.py
-pinned: false
-license: cc-by-4.0
-short_description: 'AI Builders 2025 Project: Detecting AI-Generated C++ Code'
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: Competitive Programming AI Code Detector
+emoji: 💻
+colorFrom: gray
+colorTo: yellow
+sdk: gradio
+sdk_version: 5.32.1
+app_file: app.py
+pinned: false
+license: cc-by-4.0
+short_description: AI Builders 2025 project to identify  AI-generated code.
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,33 @@

+import gradio as gr
+from Model_Evaluate import *
+import re
+def load_cpp_file(file):
+    text = file.name
+    with open(text,'r',encoding='utf-8') as f:
+        content = f.read()
+    return content
+with gr.Blocks() as demo:
+    with gr.Row():
+        with gr.Column(scale=1):
+            code_box = gr.Textbox(lines=20, label="C++ Code")
+        with gr.Column(scale=1):
+            cpp_file = gr.File(label="Upload C++ File (.cpp)", file_types=[".cpp"])
+            check_btn = gr.Button("Check")
+    # Result section
+    with gr.Row():
+        gr.Markdown("### Result :")
+    with gr.Row():
+        with gr.Column(scale=1):
+            label_box = gr.Textbox(label="Label", interactive=False)
+        with gr.Column(scale=1):
+            confidence_box = gr.Textbox(label="AI Percentage", interactive=False)
+    # Bind functions
+    cpp_file.change(fn=load_cpp_file, inputs=cpp_file, outputs=code_box)
+    check_btn.click(fn=eval, inputs=[code_box], outputs=[label_box, confidence_box])
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+numpy
+gradio
+huggingface
+transformers
+sentencepiece
+torch
+clang-format