Spaces:

can-org
/

Testing-AI-Contain

Sleeping

App Files Files Community

Pujan-Dev commited on Apr 27

Commit

6b04257

1 Parent(s): f6f16d9

fixed the bias

Browse files

Files changed (1) hide show

features/nepali_text_classifier/controller.py +57 -12

features/nepali_text_classifier/controller.py CHANGED Viewed

@@ -23,6 +23,41 @@ def contains_english(text: str) -> bool:
     return bool(re.search(r'[a-zA-Z]', cleaned))
 async def verify_token(credentials: HTTPAuthorizationCredentials = Depends(security)):
     token = credentials.credentials
     expected_token = Config.SECRET_TOKEN
@@ -38,8 +73,8 @@ async def nepali_text_analysis(text: str, models: str | None = None):
     words = text.split()
     if len(words) < 10:
         raise HTTPException(status_code=400, detail="Text must contain at least 10 words")
-    if len(text) > 10000:
-        raise HTTPException(status_code=413, detail="Text must be less than 10,000 characters")
     selected_models = parse_selected_models(models)
     result = await asyncio.to_thread(classify_text, text, selected_models, 2)
@@ -64,8 +99,8 @@ async def handle_file_upload(file: UploadFile, models: str | None = None):
     try:
         file_contents = await extract_file_contents(file)
         end_symbol_for_NP_text(file_contents)
-        if len(file_contents) > 10000:
-            raise HTTPException(status_code=413, detail="Text must be less than 10,000 characters")
         cleaned_text = file_contents.replace("\n", " ").replace("\t", " ").strip()
         if not cleaned_text:
@@ -82,8 +117,8 @@ async def handle_file_upload(file: UploadFile, models: str | None = None):
 async def handle_sentence_level_analysis(text: str, models: str | None = None):
     text = text.strip()
-    if len(text) > 10000:
-        raise HTTPException(status_code=413, detail="Text must be less than 10,000 characters")
     end_symbol_for_NP_text(text)
@@ -91,14 +126,19 @@ async def handle_sentence_level_analysis(text: str, models: str | None = None):
     sentences = [s.strip() + "।" for s in text.split("।") if s.strip()]
     selected_models = parse_selected_models(models)
     results = []
     for sentence in sentences:
         end_symbol_for_NP_text(sentence)
         result = await asyncio.to_thread(classify_text, sentence, selected_models, 2)
         results.append({
             "text": sentence,
-            "result": result["label"],
-            "likelihood": result["confidence"]
         })
     return {"analysis": results}
@@ -107,8 +147,8 @@ async def handle_sentence_level_analysis(text: str, models: str | None = None):
 async def handle_file_sentence(file:UploadFile, models: str | None = None):
     try:
         file_contents = await extract_file_contents(file)
-        if len(file_contents) > 10000:
-            raise HTTPException(status_code=413, detail="Text must be less than 10,000 characters")
         cleaned_text = file_contents.replace("\n", " ").replace("\t", " ").strip()
         if not cleaned_text:
@@ -119,15 +159,20 @@ async def handle_file_sentence(file:UploadFile, models: str | None = None):
         sentences = [s.strip() + "।" for s in cleaned_text.split("।") if s.strip()]
         selected_models = parse_selected_models(models)
         results = []
         for sentence in sentences:
             end_symbol_for_NP_text(sentence)
             result = await asyncio.to_thread(classify_text, sentence, selected_models, 2)
             results.append({
                 "text": sentence,
-                "result": result["label"],
-                "likelihood": result["confidence"]
             })
         return {"analysis": results}

     return bool(re.search(r'[a-zA-Z]', cleaned))
+def _clamp(value: float, lower: float, upper: float) -> float:
+    return max(lower, min(upper, value))
+def _raw_ai_score(label: str, confidence: float) -> float:
+    conf = _clamp(float(confidence), 0.0, 100.0)
+    return conf if label == "AI" else (100.0 - conf)
+def _sentence_bias_strength(overall_confidence: float) -> float:
+    # Stronger bias so sentence output follows the overall document decision.
+    # Equation: beta = min(0.80, 0.40 + 0.40 * (C_doc / 100))
+    return min(0.80, 0.40 + 0.40 * (_clamp(overall_confidence, 0.0, 100.0) / 100.0))
+def _biased_sentence_result(sentence_result: dict, overall_confidence: float, target_label: str = "Human") -> dict:
+    raw_label = sentence_result["label"]
+    raw_confidence = float(sentence_result["confidence"])
+    raw_ai = _raw_ai_score(raw_label, raw_confidence)
+    target_ai = 100.0 if target_label == "AI" else 0.0
+    beta = _sentence_bias_strength(overall_confidence)
+    # Equation: S_biased = (1 - beta) * S_raw + beta * T
+    biased_ai = _clamp((1.0 - beta) * raw_ai + beta * target_ai, 0.0, 100.0)
+    # Force final label toward overall target to ensure overall bias is applied.
+    biased_label = target_label
+    biased_confidence = biased_ai if target_label == "AI" else (100.0 - biased_ai)
+    return {
+        "biased_label": biased_label,
+        "biased_confidence": round(biased_confidence, 2),
+    }
 async def verify_token(credentials: HTTPAuthorizationCredentials = Depends(security)):
     token = credentials.credentials
     expected_token = Config.SECRET_TOKEN
     words = text.split()
     if len(words) < 10:
         raise HTTPException(status_code=400, detail="Text must contain at least 10 words")
+    if len(text) > 50000:
+        raise HTTPException(status_code=413, detail="Text must be less than 50 ,000 characters")
     selected_models = parse_selected_models(models)
     result = await asyncio.to_thread(classify_text, text, selected_models, 2)
     try:
         file_contents = await extract_file_contents(file)
         end_symbol_for_NP_text(file_contents)
+        if len(file_contents) > 50000:
+            raise HTTPException(status_code=413, detail="Text must be less than 50,000 characters")
         cleaned_text = file_contents.replace("\n", " ").replace("\t", " ").strip()
         if not cleaned_text:
 async def handle_sentence_level_analysis(text: str, models: str | None = None):
     text = text.strip()
+    if len(text) > 50000:
+        raise HTTPException(status_code=413, detail="Text must be less than 50,000 characters")
     end_symbol_for_NP_text(text)
     sentences = [s.strip() + "।" for s in text.split("।") if s.strip()]
     selected_models = parse_selected_models(models)
+    overall = await asyncio.to_thread(classify_text, text, selected_models, 2)
+    overall_label = overall["label"]
+    overall_confidence = float(overall["confidence"])
     results = []
     for sentence in sentences:
         end_symbol_for_NP_text(sentence)
         result = await asyncio.to_thread(classify_text, sentence, selected_models, 2)
+        biased = _biased_sentence_result(result, overall_confidence, target_label=overall_label)
         results.append({
             "text": sentence,
+            "result": biased["biased_label"],
+            "likelihood": biased["biased_confidence"],
         })
     return {"analysis": results}
 async def handle_file_sentence(file:UploadFile, models: str | None = None):
     try:
         file_contents = await extract_file_contents(file)
+        if len(file_contents) > 50000:
+            raise HTTPException(status_code=413, detail="Text must be less than 50,000 characters")
         cleaned_text = file_contents.replace("\n", " ").replace("\t", " ").strip()
         if not cleaned_text:
         sentences = [s.strip() + "।" for s in cleaned_text.split("।") if s.strip()]
         selected_models = parse_selected_models(models)
+        overall = await asyncio.to_thread(classify_text, cleaned_text, selected_models, 2)
+        overall_label = overall["label"]
+        overall_confidence = float(overall["confidence"])
         results = []
         for sentence in sentences:
             end_symbol_for_NP_text(sentence)
             result = await asyncio.to_thread(classify_text, sentence, selected_models, 2)
+            biased = _biased_sentence_result(result, overall_confidence, target_label=overall_label)
             results.append({
                 "text": sentence,
+                "result": biased["biased_label"],
+                "likelihood": biased["biased_confidence"],
             })
         return {"analysis": results}