Spaces:

yagnik12
/

AI_Text_Detecter_HanxiGuo_BiScope-Data

Running

App Files Files Community

yagnik12 commited on Sep 15, 2025

Commit

3968acc

verified ·

1 Parent(s): 8bcd35e

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -31

app.py CHANGED Viewed

@@ -2,67 +2,79 @@ import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, GPT2LMHeadModel
 import torch
 import math
-# Load models
 detector_names = [
     "Hello-SimpleAI/chatgpt-detector-roberta",
     "roberta-large-openai-detector"
 ]
 detector_tokenizers = [AutoTokenizer.from_pretrained(name) for name in detector_names]
 detector_models = [AutoModelForSequenceClassification.from_pretrained(name) for name in detector_names]
 gpt2_tokenizer = AutoTokenizer.from_pretrained("gpt2")
 gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2")
-# Helper functions
-def compute_perplexity(text: str) -> float:
     enc = gpt2_tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
     input_ids = enc.input_ids
     with torch.no_grad():
         loss = gpt2_model(input_ids, labels=input_ids).loss
     return math.exp(loss.item())
-def analyze_text(user_text: str):
-    if not user_text.strip():
-        return {"error": "Please enter some text to analyze."}
-    # Model 1: ChatGPT detector
     probs = []
     for tokenizer, model in zip(detector_tokenizers, detector_models):
-        inputs = tokenizer(user_text, return_tensors="pt", truncation=True, max_length=512)
         with torch.no_grad():
             logits = model(**inputs).logits
-            probs.append(torch.softmax(logits, dim=1).tolist()[0][1])  # AI probability
-    # Model 2: GPT-2 Perplexity
-    ppl = compute_perplexity(user_text)
-    ppl_score = max(0, min(1, 100 / ppl))  # normalized to [0,1]
-    # Aggregate result
-    final_ai = sum(probs) / len(probs) * 0.7 + ppl_score * 0.3
     final_human = 1 - final_ai
     return {
-        "Final AI Probability": round(final_ai * 100, 2),
-        "Final Human Probability": round(final_human * 100, 2),
-        "Verdict": verdict(final_ai * 100)
     }
-def verdict(ai_prob):
-    if ai_prob < 20:
-        return "Most likely human-written."
-    elif 20 <= ai_prob < 40:
-        return "Possibly human-written with minimal AI assistance."
-    elif 40 <= ai_prob < 60:
-        return "Unclear – could be either human or AI-assisted."
-    elif 60 <= ai_prob < 80:
-        return "Possibly AI-generated, or a human using AI assistance."
-    else:
-        return "Likely AI-generated or heavily AI-assisted."
 # Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("# 🔍 Enhanced AI vs Human Text Detector")
     user_input = gr.Textbox(label="Enter Text", placeholder="Paste text here...", lines=12, type="text")
     run_btn = gr.Button("Run Detection")
     output = gr.JSON(label="Results")

 from transformers import AutoTokenizer, AutoModelForSequenceClassification, GPT2LMHeadModel
 import torch
 import math
+import nltk
+nltk.download('punkt')
+from nltk.tokenize import sent_tokenize
+# -------------------------------
+# Load Models
+# -------------------------------
 detector_names = [
     "Hello-SimpleAI/chatgpt-detector-roberta",
     "roberta-large-openai-detector"
 ]
 detector_tokenizers = [AutoTokenizer.from_pretrained(name) for name in detector_names]
 detector_models = [AutoModelForSequenceClassification.from_pretrained(name) for name in detector_names]
 gpt2_tokenizer = AutoTokenizer.from_pretrained("gpt2")
 gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2")
+# -------------------------------
+# Helper Functions
+# -------------------------------
+def compute_perplexity(text):
     enc = gpt2_tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
     input_ids = enc.input_ids
     with torch.no_grad():
         loss = gpt2_model(input_ids, labels=input_ids).loss
     return math.exp(loss.item())
+def sentence_score(sentence):
     probs = []
     for tokenizer, model in zip(detector_tokenizers, detector_models):
+        inputs = tokenizer(sentence, return_tensors="pt", truncation=True, max_length=512)
         with torch.no_grad():
             logits = model(**inputs).logits
+            probs.append(torch.softmax(logits, dim=1).tolist()[0][1])
+    ppl = compute_perplexity(sentence)
+    ppl_score = max(0, min(1, 100/ppl))
+    # Weighted average: 70% model ensemble, 30% perplexity
+    return sum(probs)/len(probs)*0.7 + ppl_score*0.3
+def analyze_text(user_text):
+    sentences = sent_tokenize(user_text)
+    if not sentences:
+        return {"error": "Please enter some text."}
+    sentence_probs = [sentence_score(s) for s in sentences]
+    final_ai = sum(sentence_probs)/len(sentence_probs)
     final_human = 1 - final_ai
+    # Verdict
+    if final_ai < 0.2:
+        verdict_text = "Most likely human-written."
+    elif final_ai < 0.4:
+        verdict_text = "Possibly human-written with minimal AI assistance."
+    elif final_ai < 0.6:
+        verdict_text = "Unclear – could be human or AI-assisted."
+    elif final_ai < 0.8:
+        verdict_text = "Possibly AI-generated or human using AI assistance."
+    else:
+        verdict_text = "Likely AI-generated or heavily AI-assisted."
     return {
+        "Final AI Probability": round(final_ai*100,2),
+        "Final Human Probability": round(final_human*100,2),
+        "Verdict": verdict_text,
+        "Sentence-level AI probabilities": [round(p*100,2) for p in sentence_probs]
     }
+# -------------------------------
 # Gradio UI
+# -------------------------------
 with gr.Blocks() as demo:
+    gr.Markdown("# 🌐 Universal AI vs Human Text Detector")
     user_input = gr.Textbox(label="Enter Text", placeholder="Paste text here...", lines=12, type="text")
     run_btn = gr.Button("Run Detection")
     output = gr.JSON(label="Results")