Spaces:

binoubinks
/

ADSP_finalProjectBack

Sleeping

albin commited on Nov 28, 2024

Commit

02c4993

1 Parent(s): 19d8bb3

Use extraction features before calling model

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -1,16 +1,20 @@
-# Read the doc: https://huggingface.co/docs/hub/spaces-sdks-docker
-# you will also find guides on how best to write your Dockerfile
 FROM python:3.9
 RUN useradd -m -u 1000 user
 USER user
-ENV PATH="/home/user/.local/bin:$PATH"
-WORKDIR /app
-COPY --chown=user ./requirements.txt requirements.txt
-RUN pip install --no-cache-dir --upgrade -r requirements.txt
-COPY --chown=user . /app
-CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

 FROM python:3.9
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
 RUN useradd -m -u 1000 user
 USER user
+ENV HOME=/home/user \
+ PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ from fastapi.responses import JSONResponse
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 import pickle
 app = FastAPI()
@@ -36,7 +37,7 @@ class Resp(BaseModel):
 @app.get("/")
 async def root():
-    return {"message": "Hello World. Welcome to FastAPI!"}
 def form_req(url: str = Form(...)):
     return Req(url=str(url))
@@ -69,7 +70,23 @@ async def predict(request: Request, requess: Req = Depends(form_req)):
     '''
     url = requess.url
-    prediction = model.predict([str(url)])
     output = prediction[0]
     output_text = "Legitimate" if output == 1 else "Phishing"

 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 import pickle
+from extraction_features import extract_features
 app = FastAPI()
 @app.get("/")
 async def root():
+    return {"message": "Hello, Welcome to the final project from Albin Tardivel"}
 def form_req(url: str = Form(...)):
     return Req(url=str(url))
     '''
     url = requess.url
+    features = extract_features(str(url))
+    data = []
+    data.append(str(features.URL))
+    data.extend(int(features.URLLength))
+    data.extend(str(features.Domain))
+    data.extend(int(features.DomainLength))
+    data.extend(str(features.TLD))
+    data.extend(float(features.CharContinuationRate))
+    data.extend(int(features.TLDLength))
+    data.extend(int(features.NoOfSubDomain))
+    data.extend(float(features.DegitRatioInURL))
+    data.extend(float(features.SpacialCharRatioInURL))
+    data.extend(int(features.IsHTTPS))
+    print(data)
+    prediction = model.predict([data])
     output = prediction[0]
     output_text = "Legitimate" if output == 1 else "Phishing"

extraction_features.py CHANGED Viewed

@@ -30,13 +30,13 @@ def extract_features(url):
     tld_match = re.search(r'\.[a-z]+$', domain_no_www)
     features['TLD'] = tld_match.group(0)[1:] if tld_match else ''
-    # TLDLength
-    features['TLDLength'] = len(features['TLD'])
     # CharContinuationRate
     char_sequences = re.findall(r'[a-zA-Z]+', domain_body)
     total_chars = sum(len(seq) for seq in char_sequences)
     features['CharContinuationRate'] = total_chars / len(domain_body) if len(domain_body) > 0 else 0
     # NoOfSubDomain
     subdomains = domain_no_www.split('.')[:-1]
@@ -58,6 +58,6 @@ def extract_features(url):
 # url_example = "https://www.southbankmosaics.com"
 url_example = "https://www.ooty.ind.in"
 features = extract_features(url_example)
-for key, value in features.items():
-    print(f"{key}: {value}")

     tld_match = re.search(r'\.[a-z]+$', domain_no_www)
     features['TLD'] = tld_match.group(0)[1:] if tld_match else ''
     # CharContinuationRate
     char_sequences = re.findall(r'[a-zA-Z]+', domain_body)
     total_chars = sum(len(seq) for seq in char_sequences)
     features['CharContinuationRate'] = total_chars / len(domain_body) if len(domain_body) > 0 else 0
+    # TLDLength
+    features['TLDLength'] = len(features['TLD'])
     # NoOfSubDomain
     subdomains = domain_no_www.split('.')[:-1]
 # url_example = "https://www.southbankmosaics.com"
 url_example = "https://www.ooty.ind.in"
 features = extract_features(url_example)
+print(features)
+# for key, value in features.items():
+#     print(f"{key}: {value}")