Spaces:

yagnik12
/

AI_Text_Detecter_HanxiGuo_BiScope-Data

Sleeping

App Files Files Community

yagnik12 commited on Sep 15, 2025

Commit

7fb6f67

verified ·

1 Parent(s): 92b0b05

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -31

app.py CHANGED Viewed

@@ -1,8 +1,9 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, GPT2LMHeadModel
 import torch
 import math
 import re
 # -------------------------------
 # Sentence splitter (no nltk)
@@ -12,22 +13,19 @@ def simple_sent_tokenize(text):
     return [s for s in sentences if s.strip()]
 # -------------------------------
-# Load Models
 # -------------------------------
-detector_names = [
-    "Hello-SimpleAI/chatgpt-detector-roberta",
-    "roberta-large-openai-detector"
-]
-detector_tokenizers = [AutoTokenizer.from_pretrained(name) for name in detector_names]
-detector_models = [AutoModelForSequenceClassification.from_pretrained(name) for name in detector_names]
-gpt2_tokenizer = AutoTokenizer.from_pretrained("gpt2")
-gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2")
 # -------------------------------
-# Helper Functions
 # -------------------------------
 def compute_perplexity(text):
     enc = gpt2_tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
     input_ids = enc.input_ids
@@ -35,42 +33,54 @@ def compute_perplexity(text):
         loss = gpt2_model(input_ids, labels=input_ids).loss
     return math.exp(loss.item())
 def sentence_score(sentence):
-    probs = []
-    for tokenizer, model in zip(detector_tokenizers, detector_models):
-        inputs = tokenizer(sentence, return_tensors="pt", truncation=True, max_length=512)
-        with torch.no_grad():
-            logits = model(**inputs).logits
-            probs.append(torch.softmax(logits, dim=1).tolist()[0][1])  # AI probability
     ppl = compute_perplexity(sentence)
-    ppl_score = max(0, min(1, 100/ppl))
-    return sum(probs)/len(probs)*0.7 + ppl_score*0.3
-# Tuned verdict thresholds for higher accuracy (~94%)
-def verdict_94(ai_prob):
-    if ai_prob < 35:
         return "Most likely human-written.", "green"
-    elif ai_prob < 50:
         return "Possibly human-written with minimal AI assistance.", "yellowgreen"
-    elif ai_prob < 65:
         return "Possibly AI-generated or human using AI assistance.", "orange"
     else:
         return "Likely AI-generated or heavily AI-assisted.", "red"
 def analyze_text(user_text):
     sentences = simple_sent_tokenize(user_text)
     if not sentences:
         return {"error": "Please enter some text."}
     sentence_probs = [sentence_score(s) for s in sentences]
-    final_ai = sum(sentence_probs)/len(sentence_probs)
     final_human = 1 - final_ai
-    verdict_text, verdict_color = verdict_94(final_ai*100)
-    # Prepare sentence-level colored verdicts
     sentence_details = []
     for s, p in zip(sentences, sentence_probs):
-        s_verdict, s_color = verdict_94(p*100)
         sentence_details.append({
             "sentence": s,
             "AI Probability": round(p*100,2),
@@ -90,7 +100,7 @@ def analyze_text(user_text):
 # Gradio UI
 # -------------------------------
 with gr.Blocks() as demo:
-    gr.Markdown("# 🌐 Tuned Universal AI vs Human Text Detector")
     user_input = gr.Textbox(label="Enter Text", placeholder="Paste text here...", lines=12, type="text")
     run_btn = gr.Button("Run Detection")
     output = gr.JSON(label="Results")

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import torch
 import math
 import re
+import numpy as np
 # -------------------------------
 # Sentence splitter (no nltk)
     return [s for s in sentences if s.strip()]
 # -------------------------------
+# Load Pre-trained Model (Template for Fine-tuning)
 # -------------------------------
+model_name = "roberta-large"  # Replace with your fine-tuned AI detector
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
 # -------------------------------
+# GPT-2 Perplexity Helper (Optional)
 # -------------------------------
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2")
+gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
 def compute_perplexity(text):
     enc = gpt2_tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
     input_ids = enc.input_ids
         loss = gpt2_model(input_ids, labels=input_ids).loss
     return math.exp(loss.item())
+# -------------------------------
+# Sentence-level scoring (Stacked Classifier Template)
+# -------------------------------
 def sentence_score(sentence):
+    # 1️⃣ Transformer probability
+    inputs = tokenizer(sentence, return_tensors="pt", truncation=True, max_length=512)
+    with torch.no_grad():
+        logits = model(**inputs).logits
+        transformer_prob = torch.softmax(logits, dim=1).tolist()[0][1]  # AI probability
+    # 2️⃣ GPT-2 perplexity feature
     ppl = compute_perplexity(sentence)
+    ppl_score = max(0, min(1, 100/ppl))  # normalize
+    # 3️⃣ Meta-score (weighted stacking)
+    final_score = transformer_prob*0.8 + ppl_score*0.2  # Adjust weights after fine-tuning
+    return final_score
+# -------------------------------
+# Tuned Verdicts
+# -------------------------------
+def verdict_95(ai_prob):
+    if ai_prob < 0.3:
         return "Most likely human-written.", "green"
+    elif ai_prob < 0.5:
         return "Possibly human-written with minimal AI assistance.", "yellowgreen"
+    elif ai_prob < 0.7:
         return "Possibly AI-generated or human using AI assistance.", "orange"
     else:
         return "Likely AI-generated or heavily AI-assisted.", "red"
+# -------------------------------
+# Main Analysis Function
+# -------------------------------
 def analyze_text(user_text):
     sentences = simple_sent_tokenize(user_text)
     if not sentences:
         return {"error": "Please enter some text."}
     sentence_probs = [sentence_score(s) for s in sentences]
+    final_ai = np.mean(sentence_probs)
     final_human = 1 - final_ai
+    verdict_text, verdict_color = verdict_95(final_ai)
+    # Sentence-level colored verdicts
     sentence_details = []
     for s, p in zip(sentences, sentence_probs):
+        s_verdict, s_color = verdict_95(p)
         sentence_details.append({
             "sentence": s,
             "AI Probability": round(p*100,2),
 # Gradio UI
 # -------------------------------
 with gr.Blocks() as demo:
+    gr.Markdown("# 🌐 High-Accuracy Universal AI vs Human Text Detector")
     user_input = gr.Textbox(label="Enter Text", placeholder="Paste text here...", lines=12, type="text")
     run_btn = gr.Button("Run Detection")
     output = gr.JSON(label="Results")