kd7979148
/

XSS_Payload_Detector

@@ -10,20 +10,20 @@ from urllib.parse import (
 )
 #################################################
-# 모델 경로
 #################################################
 model_path = "xss_detect_trained"
 #################################################
-# URL 여부 확인
 #################################################
 def is_url(text):
     return text.startswith("http://") or text.startswith("https://")
 #################################################
-# URL에서 parameter value 추출
 #################################################
 def extract_url_payload(url):
@@ -31,7 +31,7 @@ def extract_url_payload(url):
     try:
         parsed = urlparse(url)
-        # query parameter 파싱
         params = parse_qs(parsed.query)
         extracted = []
@@ -45,18 +45,18 @@ def extract_url_payload(url):
                 extracted.append(decoded)
-        # parameter 없으면 path 사용
         if not extracted:
             return parsed.path
-        # 여러 parameter면 합침
         return " ".join(extracted)
     except:
         return url
 #################################################
-# 의심 코드 존재 여부 검사
 #################################################
 def contains_suspicious_code(text):
@@ -74,7 +74,7 @@ def contains_suspicious_code(text):
         "iframe",
         "svg",
-        # JS 실행
         "eval(",
         "alert(",
         "prompt(",
@@ -83,7 +83,7 @@ def contains_suspicious_code(text):
         "document.domain",
         "window.location",
-        # 난독화 / 우회
         "constructor",
         "fromcharcode",
         "\\x",
@@ -93,7 +93,7 @@ def contains_suspicious_code(text):
         "base64",
         "atob(",
-        # 특수 실행 패턴
         "srcdoc",
         "data:text/html",
         "vbscript:",
@@ -110,7 +110,7 @@ def contains_suspicious_code(text):
     return False
 #################################################
-# 모델 로드
 #################################################
 tokenizer = AutoTokenizer.from_pretrained(model_path)
@@ -122,7 +122,7 @@ model.to(device)
 model.eval()
 #################################################
-# 라벨
 #################################################
 labels = {
@@ -131,53 +131,53 @@ labels = {
 }
 #################################################
-# 테스트
 #################################################
-print("\n테스트 시작 (exit 입력 시 종료)\n")
 while True:
-    text = input("입력: ")
     if text.lower() == "exit":
         break
     #################################################
-    # 기본값
     #################################################
     target_text = text
     #################################################
-    # URL 처리
     #################################################
     if is_url(text):
         target_text = extract_url_payload(text)
-        print(f"[추출된 parameter]: {target_text}")
         #################################################
-        # 의심 코드 없으면 바로 NORMAL
         #################################################
         if not contains_suspicious_code(target_text):
-            print("결과: NORMAL")
-            print("신뢰도: heuristic\n")
             continue
     #################################################
-    # 토크나이즈
     #################################################
     MAX_INPUT_LENGTH = 2000
     if len(target_text) > MAX_INPUT_LENGTH:
-        print("입력 길이 초과\n")
         continue
     inputs = tokenizer(
@@ -189,7 +189,7 @@ while True:
     ).to(device)
     #################################################
-    # 추론
     #################################################
     with torch.no_grad():
@@ -208,8 +208,8 @@ while True:
     label = labels[pred]
     #################################################
-    # 출력
     #################################################
-    print(f"결과: {label}")
-    print(f"신뢰도: {confidence:.4f}\n")

 )
 #################################################
+# model path
 #################################################
 model_path = "xss_detect_trained"
 #################################################
+# URL existence
 #################################################
 def is_url(text):
     return text.startswith("http://") or text.startswith("https://")
 #################################################
+# URL에서 parameter value
 #################################################
 def extract_url_payload(url):
     try:
         parsed = urlparse(url)
+        # query parameter
         params = parse_qs(parsed.query)
         extracted = []
                 extracted.append(decoded)
+        # use path when no parameter
         if not extracted:
             return parsed.path
+        # combine multiple parameters
         return " ".join(extracted)
     except:
         return url
 #################################################
+# check
 #################################################
 def contains_suspicious_code(text):
         "iframe",
         "svg",
+        # JS
         "eval(",
         "alert(",
         "prompt(",
         "document.domain",
         "window.location",
+        # bypass
         "constructor",
         "fromcharcode",
         "\\x",
         "base64",
         "atob(",
+        #
         "srcdoc",
         "data:text/html",
         "vbscript:",
     return False
 #################################################
+# load
 #################################################
 tokenizer = AutoTokenizer.from_pretrained(model_path)
 model.eval()
 #################################################
+# label
 #################################################
 labels = {
 }
 #################################################
+# test
 #################################################
+print("\n Test Start (type exit to end)\n")
 while True:
+    text = input("input: ")
     if text.lower() == "exit":
         break
     #################################################
+    # basic
     #################################################
     target_text = text
     #################################################
+    # URL
     #################################################
     if is_url(text):
         target_text = extract_url_payload(text)
+        print(f"[extracted parameter]: {target_text}")
         #################################################
+        #  NORMAL when no suspicious code
         #################################################
         if not contains_suspicious_code(target_text):
+            print("result: NORMAL")
+            print("Reliability: heuristic\n")
             continue
     #################################################
+    # tokenize
     #################################################
     MAX_INPUT_LENGTH = 2000
     if len(target_text) > MAX_INPUT_LENGTH:
+        print("Input Length Exceeded\n")
         continue
     inputs = tokenizer(
     ).to(device)
     #################################################
+    #
     #################################################
     with torch.no_grad():
     label = labels[pred]
     #################################################
+    # result
     #################################################
+    print(f"result: {label}")
+    print(f"Reliability: {confidence:.4f}\n")