Spaces:

Ezhil24
/

Embedding_fastapi

Sleeping

App Files Files Community

Ezhil commited on Feb 18, 2025

Commit

e1ad655

1 Parent(s): 17c8f2e

folder structure is added

Browse files

Files changed (8) hide show

Dockerfile +3 -4
README.md +11 -8
Routes/classify_sms.py +9 -0
data/sms_process_data_main.xlsx +0 -0
main.py +9 -107
models/train_models.py +30 -0
schemas/sms_schema.py +7 -0
services/sms_service.py +14 -0

Dockerfile CHANGED Viewed

@@ -19,9 +19,8 @@ RUN pip install --no-cache-dir -r requirements.txt
 # Copy the application code
 COPY . .
-# Expose the FastAPI default port
-EXPOSE 8000
 # Run FastAPI with Uvicorn
-CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]

 # Copy the application code
 COPY . .
+# Expose FastAPI default port
+EXPOSE 7860
 # Run FastAPI with Uvicorn
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -1,8 +1,11 @@
----
-title: Embedding Fastapi
-emoji: 🏆
-colorFrom: pink
-colorTo: yellow
-sdk: docker
-pinned: false
----

+# SMS Classification API
+This project is a FastAPI-based web service for classifying SMS messages into categories like "Offer" and "Transaction."
+## 🚀 Features
+- Uses Alibaba-NLP's `gte-base-en-v1.5` to generate embeddings.
+- Trained with `Logistic Regression` on labeled SMS data.
+- Supports API routes for embedding generation and classification.
+- Built using `FastAPI`, `Scikit-Learn`, and `SentenceTransformers`.
+## 📁 Project Structure

Routes/classify_sms.py ADDED Viewed

	@@ -0,0 +1,9 @@

+from fastapi import APIRouter
+from schemas.sms_schema import SMSRequest, SMSResponse
+from services.sms_service import classify_sms
+classify_sms_router = APIRouter()
+@classify_sms_router.post("/classify_sms", response_model=SMSResponse)
+def classify(request: SMSRequest):
+    return classify_sms(request.text)

data/sms_process_data_main.xlsx ADDED Viewed

Binary file (42.2 kB). View file

main.py CHANGED Viewed

@@ -1,114 +1,16 @@
-# from fastapi import FastAPI
-# from pydantic import BaseModel
-# from typing import List
-# import numpy as np
-# from sentence_transformers import SentenceTransformer
-# # Load the pre-trained model
-# model = SentenceTransformer('Alibaba-NLP/gte-base-en-v1.5', trust_remote_code=True)
-# # Define request models
-# class MessageRequest(BaseModel):
-#     messages: List[str]
-# class CosineSimilarityRequest(BaseModel):
-#     text1: str
-#     text2: str
-# # Define response models
-# class EmbeddingResponse(BaseModel):
-#     dimensions: int  # Only return embedding size
-#     numeric_values: List[List[float]]
-# class CosineSimilarityResponse(BaseModel):
-#     similarity: float
-# # Initialize FastAPI app
-# app = FastAPI()
-# @app.get("/")
-# def home():
-#     return {"Message": "Welcome to homepage, kindly proceed by giving /docs in the URL"}
-# @app.post("/embed", response_model=EmbeddingResponse)
-# def embed(request: MessageRequest):
-#     new_embeddings = model.encode(request.messages, convert_to_tensor=True)
-#     return EmbeddingResponse(
-#         dimensions=new_embeddings.shape[1],  # Return only the embedding dimension
-#         numeric_values=new_embeddings.tolist()
-#     )
-# @app.post("/cosine_similarity", response_model=CosineSimilarityResponse)
-# def cosine_similarity(request: CosineSimilarityRequest):
-#     embeddings = model.encode([request.text1, request.text2], convert_to_tensor=True)
-#     cos_sim = np.dot(embeddings[0], embeddings[1]) / (np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[1]))
-#     return CosineSimilarityResponse(similarity=cos_sim)
 from fastapi import FastAPI
-from pydantic import BaseModel
-from typing import List
-import numpy as np
-from sentence_transformers import SentenceTransformer
-# Load the pre-trained model
-model = SentenceTransformer('Alibaba-NLP/gte-base-en-v1.5', trust_remote_code=True)
-# Define request models
-class MessageRequest(BaseModel):
-    messages: List[str]
-class CosineSimilarityRequest(BaseModel):
-    text1: str
-    text2: str
-class SMSClassificationRequest(BaseModel):
-    text: str
-# Define response models
-class EmbeddingResponse(BaseModel):
-    dimensions: int  # Only return embedding size
-    numeric_values: List[List[float]]
-class CosineSimilarityResponse(BaseModel):
-    similarity: float
-class SMSClassificationResponse(BaseModel):
-    category: str
 # Initialize FastAPI app
-app = FastAPI()
 @app.get("/")
 def home():
-    return {"Message": "Welcome to homepage, kindly proceed by giving /docs in the URL"}
-@app.post("/embed", response_model=EmbeddingResponse)
-def embed(request: MessageRequest):
-    new_embeddings = model.encode(request.messages, convert_to_tensor=True)
-    return EmbeddingResponse(
-        dimensions=new_embeddings.shape[1],  # Return only the embedding dimension
-        numeric_values=new_embeddings.tolist()
-    )
-@app.post("/cosine_similarity", response_model=CosineSimilarityResponse)
-def cosine_similarity(request: CosineSimilarityRequest):
-    embeddings = model.encode([request.text1, request.text2], convert_to_tensor=True)
-    cos_sim = np.dot(embeddings[0], embeddings[1]) / (np.linalg.norm(embeddings[0]) * np.linalg.norm(embeddings[1]))
-    return CosineSimilarityResponse(similarity=cos_sim)
-@app.post("/classify_sms", response_model=SMSClassificationResponse)
-def classify_sms(request: SMSClassificationRequest):
-    offer_keywords = ["discount", "offer", "sale", "deal", "promo", "free"]
-    transaction_keywords = ["payment", "transaction", "debit", "credit", "purchase", "order"]
-    text_lower = request.text.lower()
-    if any(word in text_lower for word in offer_keywords):
-        category = "offer"
-    elif any(word in text_lower for word in transaction_keywords):
-        category = "transaction"
-    else:
-        category = "unknown"
-    return SMSClassificationResponse(category=category)

 from fastapi import FastAPI
+from routes.embedding import embedding_router
+from routes.cosine_similarity import similarity_router
+from routes.classify_sms import classify_sms_router
 # Initialize FastAPI app
+app = FastAPI(title="SMS Classification API", description="Classifies SMS messages into categories.")
 @app.get("/")
 def home():
+    return {"Message": "Welcome! Use /docs to test the API"}
+# Include API routes
+app.include_router(embedding_router)
+app.include_router(similarity_router)
+app.include_router(classify_sms_router)

models/train_models.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import pandas as pd
+import numpy as np
+import joblib
+from sentence_transformers import SentenceTransformer
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LogisticRegression
+# Load dataset
+df = pd.read_excel("data/sms_process_data_main.xlsx")
+# Load SentenceTransformer model
+encoder_model = SentenceTransformer("Alibaba-NLP/gte-base-en-v1.5", trust_remote_code=True)
+# Generate embeddings
+embeddings = encoder_model.encode(df["MessageText"].tolist(), convert_to_numpy=True)
+# Encode labels
+label_map = {"Offer": 0, "Transaction": 1}
+df["label"] = df["label"].map(label_map)
+# Split dataset
+X_train, X_test, y_train, y_test = train_test_split(embeddings, df["label"], test_size=0.2, random_state=42)
+# Train model
+classifier = LogisticRegression()
+classifier.fit(X_train, y_train)
+# Save trained model
+joblib.dump(classifier, "models/sms_classifier.pkl")
+print("Model saved as 'sms_classifier.pkl'")

schemas/sms_schema.py ADDED Viewed

	@@ -0,0 +1,7 @@

+from pydantic import BaseModel
+class SMSRequest(BaseModel):
+    text: str
+class SMSResponse(BaseModel):
+    category: str

services/sms_service.py ADDED Viewed

	@@ -0,0 +1,14 @@

+import joblib
+from sentence_transformers import SentenceTransformer
+import numpy as np
+# Load the trained model
+classifier = joblib.load("models/sms_classifier.pkl")
+encoder_model = SentenceTransformer("Alibaba-NLP/gte-base-en-v1.5", trust_remote_code=True)
+def classify_sms(text: str):
+    embedding = encoder_model.encode([text], convert_to_numpy=True)
+    prediction = classifier.predict(embedding)
+    category = "Offer" if prediction[0] == 0 else "Transaction"
+    return {"category": category}