Formalize handler process

Files changed (15) hide show

README.md CHANGED Viewed

@@ -1,3 +1,10 @@
 # relevance-inference
 A machine learning model to be synced to Hugging Face. For use in their Inference API to evaluate whether a URL is relevant.

 # relevance-inference
 A machine learning model to be synced to Hugging Face. For use in their Inference API to evaluate whether a URL is relevant.
+# Common Files
+- *model.py* - model container
+- *extractor.py* - extracts relevant data from handler input
+- *formatter.py* - formats data for model ingestion
+- *predictor.py* - predicts relevance based on formatted data

handler.py CHANGED Viewed

@@ -5,10 +5,13 @@ from environs import Env
 from huggingface_hub import hf_hub_download
 from joblib import load
 from src.models.bag_of_words.model import BagOfWordsModelContainer
-from src.extract.core import BagOfWordsExtractor
-from src.format.core import BagOfWordsFormatter
-from src.predict.core import RelevancePredictor
 SPACY_MODEL = spacy.load('en_core_web_trf', disable=['parser'])  # Largest, slowest, most accurate model
@@ -19,6 +22,7 @@ class EndpointHandler:
         env.read_env()
         model_path = env.str("MODEL_PATH")
         downloaded_model_path = hf_hub_download(
             repo_id="PDAP/url-relevance-models",
             subfolder=model_path,
@@ -34,4 +38,8 @@ class EndpointHandler:
         bag_of_words = self.extractor.extract_bag_of_words(html)
         csr = self.formatter.format_bag_of_words(bag_of_words)
         output = self.predictor.predict_relevance(csr)
-        return output.model_dump(mode="json")

 from huggingface_hub import hf_hub_download
 from joblib import load
+from src.dtos.output.basic import BasicOutput
+from src.format import format_model_name_from_path
+from src.models.bag_of_words.extractor import BagOfWordsExtractor
+from src.models.bag_of_words.formatter import BagOfWordsFormatter
 from src.models.bag_of_words.model import BagOfWordsModelContainer
+from src.models.bag_of_words.predictor import RelevancePredictor
 SPACY_MODEL = spacy.load('en_core_web_trf', disable=['parser'])  # Largest, slowest, most accurate model
         env.read_env()
         model_path = env.str("MODEL_PATH")
+        self.model_name = format_model_name_from_path(model_path)
         downloaded_model_path = hf_hub_download(
             repo_id="PDAP/url-relevance-models",
             subfolder=model_path,
         bag_of_words = self.extractor.extract_bag_of_words(html)
         csr = self.formatter.format_bag_of_words(bag_of_words)
         output = self.predictor.predict_relevance(csr)
+        return BasicOutput(
+            annotation=output.is_relevant,
+            confidence=output.probability,
+            model=self.model_name
+        ).model_dump(mode="json")

src/{extract → dtos}/__init__.py RENAMED Viewed

File without changes

src/{format → dtos/input}/__init__.py RENAMED Viewed

File without changes

src/dtos/input/basic.py ADDED Viewed

+from pydantic import BaseModel
+class BasicInput(BaseModel):
+    html: str

src/{predict → dtos/output}/__init__.py RENAMED Viewed

File without changes

src/dtos/output/basic.py ADDED Viewed

+from pydantic import BaseModel, Field, confloat
+class BasicOutput(BaseModel):
+    annotation: bool = Field(
+        description="Whether the annotation is relevant or not"
+    )
+    confidence: float = Field(
+        description="The confidence of the prediction",
+        ge=0,
+        le=1
+    )
+    model: str = Field(
+        # Characters with underscores, followed by two underscores, followed by a timestamp
+        pattern="^\w+__[\d\-\_]+$",
+        description="The model used to make the prediction"
+    )

src/extract/README.md DELETED Viewed

	@@ -1 +0,0 @@
1	- Directory for extracting data from raw HTML files

src/format.py ADDED Viewed

+def format_model_name_from_path(path: str) -> str:
+    # Remove the `models` prefix
+    model_name = path.split("models/")[1]
+    # Replace slashes with double underscores
+    model_name = model_name.replace("/", "__")
+    return model_name

src/models/_shared/__init__.py ADDED Viewed

File without changes

src/models/_shared/object/__init__.py ADDED Viewed

File without changes

src/{predict → models/_shared/object}/output.py RENAMED Viewed

File without changes

src/{extract/core.py → models/bag_of_words/extractor.py} RENAMED Viewed

File without changes

src/{format/core.py → models/bag_of_words/formatter.py} RENAMED Viewed

File without changes

src/{predict/core.py → models/bag_of_words/predictor.py} RENAMED Viewed

@@ -1,6 +1,6 @@
 from scipy.sparse import csr_matrix
-from src.predict.output import PredictionOutput
 from types_ import FitPredictor

 from scipy.sparse import csr_matrix
+from src.models._shared.object.output import PredictionOutput
 from types_ import FitPredictor