Spaces:

subbunanepalli
/

LOG_REGRESSION

Sleeping

App Files Files Community

LOG_REGRESSION / app.py

subbunanepalli

Update app.py

065b4c9 verified 7 months ago

raw

history blame contribute delete

7.84 kB

	from fastapi import FastAPI, HTTPException
	from pydantic import BaseModel
	from typing import Optional, Dict, Any
	import pandas as pd
	from sklearn.model_selection import train_test_split
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.linear_model import LogisticRegression
	from sklearn.multioutput import MultiOutputClassifier
	from sklearn.metrics import accuracy_score
	import joblib
	import os

	import config

	app = FastAPI()

	# Load model and vectorizer if exist
	def load_model_vectorizer():
	if os.path.exists(config.MODEL_PATH) and os.path.exists(config.TFIDF_PATH):
	model = joblib.load(config.MODEL_PATH)
	vectorizer = joblib.load(config.TFIDF_PATH)
	return model, vectorizer
	else:
	return None, None

	# Pydantic model for prediction input (add all your fields as needed)
	class TransactionData(BaseModel):
	Transaction_Id: str
	Origin: str
	Designation: str
	Keywords: str
	Name: str
	SWIFT_Tag: str
	Currency: str
	Entity: str
	Message: str
	City: str
	Country: str
	State: str
	Hit_Type: str
	Record_Matching_String: str
	WatchList_Match_String: str
	Payment_Sender_Name: Optional[str] = ""
	Payment_Reciever_Name: Optional[str] = ""
	Swift_Message_Type: str
	Text_Sanction_Data: str
	Matched_Sanctioned_Entity: str
	Red_Flag_Reason: str
	Risk_Level: str
	Risk_Score: float
	CDD_Level: str
	PEP_Status: str
	Sanction_Description: str
	Checker_Notes: str
	Sanction_Context: str

	@app.get("/")
	async def root():
	return {"message": "Welcome to the Logistic Regression API"}

	# --- TRAIN ---
	@app.post("/train")
	def train():
	try:
	os.makedirs(config.MODEL_SAVE_DIR, exist_ok=True)
	df = pd.read_csv(config.DATA_PATH)

	X = df[config.TEXT_COLUMN]
	y = df[config.LABEL_COLUMNS]

	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

	vectorizer = TfidfVectorizer()
	X_train_vec = vectorizer.fit_transform(X_train)
	X_test_vec = vectorizer.transform(X_test)

	model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
	model.fit(X_train_vec, y_train)

	y_pred = model.predict(X_test_vec)
	accuracy = {
	col: accuracy_score(y_test[col], [pred[i] for pred in y_pred])
	for i, col in enumerate(y.columns)
	}

	joblib.dump(model, config.MODEL_PATH)
	joblib.dump(vectorizer, config.TFIDF_PATH)

	return {"message": "Training completed", "accuracy": accuracy}

	except Exception as e:
	return {"error": str(e)}


	# --- PREDICT ---
	class PredictionRequest(BaseModel):
	transaction_data: TransactionData

	@app.post("/predict")
	def predict(request: PredictionRequest):
	try:
	input_data = pd.DataFrame([request.transaction_data.dict()])

	# Use .get(..., [''])[0] to avoid KeyError if field is missing
	text_input = f"""
	Transaction ID: {input_data.get('Transaction_Id', [''])[0]}
	Origin: {input_data.get('Origin', [''])[0]}
	Designation: {input_data.get('Designation', [''])[0]}
	Keywords: {input_data.get('Keywords', [''])[0]}
	Name: {input_data.get('Name', [''])[0]}
	SWIFT Tag: {input_data.get('SWIFT_Tag', [''])[0]}
	Currency: {input_data.get('Currency', [''])[0]}
	Entity: {input_data.get('Entity', [''])[0]}
	Message: {input_data.get('Message', [''])[0]}
	City: {input_data.get('City', [''])[0]}
	Country: {input_data.get('Country', [''])[0]}
	State: {input_data.get('State', [''])[0]}
	Hit Type: {input_data.get('Hit_Type', [''])[0]}
	Record Matching String: {input_data.get('Record_Matching_String', [''])[0]}
	WatchList Match String: {input_data.get('WatchList_Match_String', [''])[0]}
	Payment Sender: {input_data.get('Payment_Sender_Name', [''])[0]}
	Payment Receiver: {input_data.get('Payment_Reciever_Name', [''])[0]}
	Swift Message Type: {input_data.get('Swift_Message_Type', [''])[0]}
	Text Sanction Data: {input_data.get('Text_Sanction_Data', [''])[0]}
	Matched Sanctioned Entity: {input_data.get('Matched_Sanctioned_Entity', [''])[0]}
	Red Flag Reason: {input_data.get('Red_Flag_Reason', [''])[0]}
	Risk Level: {input_data.get('Risk_Level', [''])[0]}
	Risk Score: {input_data.get('Risk_Score', [''])[0]}
	CDD Level: {input_data.get('CDD_Level', [''])[0]}
	PEP Status: {input_data.get('PEP_Status', [''])[0]}
	Sanction Description: {input_data.get('Sanction_Description', [''])[0]}
	Checker Notes: {input_data.get('Checker_Notes', [''])[0]}
	Sanction Context: {input_data.get('Sanction_Context', [''])[0]}
	Maker Action: {input_data.get('Maker_Action', [''])[0]}
	Customer Type: {input_data.get('Customer_Type', [''])[0]}
	Industry: {input_data.get('Industry', [''])[0]}
	Transaction Type: {input_data.get('Transaction_Type', [''])[0]}
	Transaction Channel: {input_data.get('Transaction_Channel', [''])[0]}
	Geographic Origin: {input_data.get('Geographic_Origin', [''])[0]}
	Geographic Destination: {input_data.get('Geographic_Destination', [''])[0]}
	Risk Category: {input_data.get('Risk_Category', [''])[0]}
	Risk Drivers: {input_data.get('Risk_Drivers', [''])[0]}
	Alert Status: {input_data.get('Alert_Status', [''])[0]}
	Investigation Outcome: {input_data.get('Investigation_Outcome', [''])[0]}
	Source of Funds: {input_data.get('Source_Of_Funds', [''])[0]}
	Purpose of Transaction: {input_data.get('Purpose_Of_Transaction', [''])[0]}
	Beneficial Owner: {input_data.get('Beneficial_Owner', [''])[0]}
	"""

	# Load model and vectorizer
	model = joblib.load(config.MODEL_PATH)
	vectorizer = joblib.load(config.TFIDF_PATH)

	# Vectorize and predict
	X_vec = vectorizer.transform([text_input])
	preds = model.predict(X_vec)[0]

	# Response with label names
	response = {label: pred for label, pred in zip(config.LABEL_COLUMNS, preds)}

	return response

	except Exception as e:
	return {"error": str(e)}

	# --- TEST ---
	@app.get("/test")
	def test():
	if not os.path.exists(config.DATA_PATH):
	raise HTTPException(status_code=404, detail="Test data file not found")

	df = pd.read_csv(config.DATA_PATH)
	model, vectorizer = load_model_vectorizer()
	if model is None or vectorizer is None:
	raise HTTPException(status_code=400, detail="Model is not trained yet. Please train first.")

	X = df[config.TEXT_COLUMN]
	y = df[config.LABEL_COLUMNS]

	X_vec = vectorizer.transform(X)
	y_pred = model.predict(X_vec)

	accuracy = {
	col: accuracy_score(y[col], [pred[i] for pred in y_pred])
	for i, col in enumerate(y.columns)
	}

	return {"accuracy": accuracy}

	# --- VALIDATE ---
	@app.post("/validate")
	def validate(data: dict):
	# Accept dict with list of inputs for batch validation
	inputs = data.get("inputs")
	if not inputs:
	raise HTTPException(status_code=400, detail="No inputs provided")

	model, vectorizer = load_model_vectorizer()
	if model is None or vectorizer is None:
	raise HTTPException(status_code=400, detail="Model is not trained yet. Please train first.")

	results = []
	for item in inputs:
	# Construct text input string
	text_input = ""
	for key, value in item.items():
	text_input += f"{key}: {value}\n"

	X_vec = vectorizer.transform([text_input])
	preds = model.predict(X_vec)[0]
	result = {label: pred for label, pred in zip(config.LABEL_COLUMNS, preds)}
	results.append(result)

	return {"results": results}